Page-Agent 是什么
简单来说,Page-Agent 是一个 JavaScript 页面内 GUI Agent。你可以用自然语言告诉它你想在网页上做什么操作,它就会帮你执行。不需要写复杂的爬虫脚本,不需要研究 DOM 结构,直接说人话就行。
这个项目在 GitHub 上已经拿到了 9.2k 的 star,730 个 fork,热度相当高。
为什么一人公司应该关注这个
做过自动化的人都知道,网页操作自动化一直是个痛点。传统方案要么用 Selenium 写一堆定位代码,要么用 Puppeteer 搞无头浏览器,维护成本都不低。页面结构一变,脚本就挂。
Page-Agent 走了一条不同的路——它直接在页面内运行,用自然语言理解你的意图,然后操作界面元素。这意味着你不用关心按钮的 CSS 选择器是什么,直接说"点击提交按钮"就行。
对于一人公司来说,这种工具的价值在于:
- 快速搭建自动化工作流:很多重复性的网页操作可以用自然语言描述来自动完成
- 降低技术门槛:不需要深入了解前端技术就能实现网页自动化
- 减少维护成本:基于语义理解而不是硬编码选择器,页面小改动不容易导致脚本失效
实际应用场景
我能想到的几个场景:
- 自动化填写各种后台表单(发货、客服回复模板等)
- 批量操作 SaaS 工具里没有提供 API 的功能
- 搭配 n8n 等工作流工具,把网页操作也纳入自动化链条
- 做竞品监控,自动在对手网站上抓取公开信息
怎么用起来
项目是纯 JavaScript 实现的,直接在浏览器页面内运行。去 GitHub 搜 alibaba/page-agent 就能找到仓库,README 里有详细的安装和使用说明。
如果你已经在用类似 Browser Use 或者 Playwright 做网页自动化,建议花半小时看看 Page-Agent 的方案。它的"页面内运行"这个设计思路确实不一样,对于某些场景可能比外部控制浏览器的方案更稳定、更轻量。独立开发者的时间最值钱,能省一点维护成本就省一点。