Page Agent：把网页变成原生 AI 界面

这也是为什么它值得关注。过去几年，围绕网页自动化的讨论大多集中在 headless browser、RPA、浏览器扩展和多模态代理上，重点是“替用户跨站完成任务”。Page Agent 则把问题改写成：“如果一个 SaaS 或内部系统，天然就想让用户用自然语言驱动当前页面，最低摩擦的实现方式是什么？”它给出的答案是 in-page GUI agent。基础能力不依赖 browser extension、Python 或 headless browser，直接在当前网页运行，这让接入成本、部署路径和权限边界都变得更清晰。

从工程角度看，它最有辨识度的地方，是走文本化 DOM 操作路线。项目明确强调不依赖截图，也不要求多模态模型，而是把页面结构转成语言模型可处理的文本表示，再据此规划和执行动作。这个设计有几个现实意义。其一，推理链条更可解释，开发者更容易知道模型“看到了什么”。其二，算力和延迟压力通常比视觉方案更可控。其三，在很多企业后台、表单系统和管理界面里，真正需要理解的是结构化 DOM，而不是像人一样“看图识字”。对这类场景来说，文本化处理未必更炫，但常常更实用。

它支持开发者自带模型，能接入自己的 LLM，也提供 demo LLM 方便快速试用。这一点并不只是“选择更多”，而是直接决定了它适不适合进入生产环境。对做产品的人来说，BYO LLM 意味着可以按照成本、延迟、合规和部署区域来选模型；对想先验证交互价值的团队来说，demo LLM 又降低了试用门槛。一个开源项目如果只会在 demo 里成立，价值通常有限；Page Agent 在这点上给人的感觉更像产品基础设施，而不只是技术展示。

它还提供可选的 Chrome extension，用于扩展到多页面任务。这同样体现出它的边界感：默认思路仍是页内增强，扩展能力则通过可选组件补上。也就是说，它不是一开始就把问题做成“全浏览器接管”，而是先把单页内的自然语言交互做好，再把跨标签页、多页面流程作为增强项。这样的分层设计更像工程产品，而不是把所有能力一次性塞进一个巨大代理里。

适用场景因此也比较清楚。SaaS AI Copilot 是最直接的一类，尤其适合那些已有复杂操作界面、但又不想重写后端工作流的产品；表单填写和后台系统自然语言操作也很契合，因为这些界面通常规则明确、步骤重复、DOM 结构稳定；可访问性增强则是一个容易被低估的方向，如果语音、屏幕阅读器和自然语言命令能直接落在网页内部代理上，很多高门槛交互会变得更平滑。换句话说，它更适合“增强现有 Web 产品”，而不是替代通用浏览器自动化平台。

这也意味着它并不适合所有需求。如果目标是大规模无人值守爬取、跨站长流程编排、验证码和复杂登录态处理，传统 browser automation 甚至服务端代理仍然更稳妥。Page Agent 的价值不在于接管整个互联网，而在于让具体网页原生获得 AI 交互层。这个区别很关键：一个是自动化外包，一个是界面能力升级。

项目在 acknowledgment 中提到，其 DOM 处理组件和 prompt 借鉴了 browser-use。这种致谢很坦诚，也有助于理解它的差异化位置。它显然不是凭空发明了网页代理的全部方法论，但它把 browser-use 一类项目偏向浏览器自动化的经验，重新落在了前端页内代理这个方向上。借用了成熟思路，同时把产品形态、运行边界和集成方式做了明显分叉，这种“站在前人肩膀上但不重复造车”的路径，往往比空喊创新更可信。

综合来看，Page Agent 真正值得关注的，不是“AI 能帮你点按钮”这件事本身，而是它把自然语言交互嵌进网页的方式足够轻、足够工程化，也足够贴近实际产品落地。对于做 SaaS、企业软件、后台系统和前端平台能力的团队，它提供了一种比浏览器自动化更内聚的思路；对于期待通用网页代理一把梭的人，它又刻意没有承诺那些并不擅长的问题。这样的克制，反而让这个项目显得更有价值。GitHub：https://github.com/alibaba/page-agent