这东西到底是什么
Page Agent 是一个 JavaScript 实现的网页内 GUI Agent。它直接跑在浏览器里,能理解你用自然语言描述的任务,然后像真人一样点击、输入、选择页面上的元素来完成操作。
听起来像是又一个"AI 自动化浏览器"?确实,市面上类似概念的产品不少,但 Page Agent 有几个值得注意的点:
- 零配置:不需要跑本地服务、不需要 Docker、不需要申请任何 API Token,装完插件直接用
- 完全免费:基于 Qwen 3.5,没有 token 计费,阿里自己兜底算力
- 开源:MIT 协议,代码在 GitHub 上,目前已经拿到 9200+ Star 和 730+ Fork
说白了,阿里做了一件很聪明的事——把自家大模型的能力包装成一个极低门槛的浏览器工具,让普通人也能体验到 AI Agent 操控网页的感觉。
对一人公司有什么用
如果你是独立开发者或者一人公司,日常会有大量重复性的浏览器操作:批量填表单、从多个网页抓信息、在后台管理系统里做重复配置。这类工具的价值就在于把这些"手动但有规律"的活儿自动化掉。
当然,现阶段这类 in-page agent 的能力边界还需要自己试探。复杂的多步骤流程、需要登录态切换的场景,可能还不够稳定。但作为一个免费的起点,拿来处理一些简单的重复任务已经足够了。
值得关注的技术方向
Page Agent 代表的是一个越来越明确的趋势:AI Agent 正在从"聊天框里回答问题"走向"直接帮你操作软件界面"。之前有 Anthropic 的 Computer Use、OpenAI 的 Operator,现在阿里用开源的方式把门槛拉到了最低。
对于想搭建自动化工作流的人来说,这类工具可以作为流程中的一个执行节点——比如在 n8n 里触发一个浏览器任务,让 Page Agent 去完成页面操作,再把结果回传。虽然目前还没有现成的集成方案,但技术上完全可行。
感兴趣的话直接去 GitHub 搜 alibaba/page-agent 装来试试,反正不花钱,五分钟就能跑起来。重点是自己动手感受一下当前 Web Agent 的真实能力边界在哪——别被演示视频骗了,实际用起来才知道能干什么、不能干什么。