阿里开源 Page Agent：装个插件就能用自然语言操控浏览器

这东西到底是什么

Page Agent 是一个 JavaScript 实现的网页内 GUI Agent。它直接跑在浏览器里，能理解你用自然语言描述的任务，然后像真人一样点击、输入、选择页面上的元素来完成操作。

听起来像是又一个"AI 自动化浏览器"？确实，市面上类似概念的产品不少，但 Page Agent 有几个值得注意的点：

说白了，阿里做了一件很聪明的事——把自家大模型的能力包装成一个极低门槛的浏览器工具，让普通人也能体验到 AI Agent 操控网页的感觉。

如果你是独立开发者或者一人公司，日常会有大量重复性的浏览器操作：批量填表单、从多个网页抓信息、在后台管理系统里做重复配置。这类工具的价值就在于把这些"手动但有规律"的活儿自动化掉。

当然，现阶段这类 in-page agent 的能力边界还需要自己试探。复杂的多步骤流程、需要登录态切换的场景，可能还不够稳定。但作为一个免费的起点，拿来处理一些简单的重复任务已经足够了。

Page Agent 代表的是一个越来越明确的趋势：AI Agent 正在从"聊天框里回答问题"走向"直接帮你操作软件界面"。之前有 Anthropic 的 Computer Use、OpenAI 的 Operator，现在阿里用开源的方式把门槛拉到了最低。

对于想搭建自动化工作流的人来说，这类工具可以作为流程中的一个执行节点——比如在 n8n 里触发一个浏览器任务，让 Page Agent 去完成页面操作，再把结果回传。虽然目前还没有现成的集成方案，但技术上完全可行。

感兴趣的话直接去 GitHub 搜 alibaba/page-agent 装来试试，反正不花钱，五分钟就能跑起来。重点是自己动手感受一下当前 Web Agent 的真实能力边界在哪——别被演示视频骗了，实际用起来才知道能干什么、不能干什么。