这到底解决了什么问题

以前让 AI Agent 操作浏览器,要么用 Playwright 开一个无头浏览器(啥登录状态都没有),要么折腾半天模拟登录。说白了,Agent 拿到的是一个"裸机浏览器",而你日常工作用的那个 Chrome 里攒了几十个网站的登录态、偏好设置、各种权限——这些才是真正有价值的东西。

chrome-cdp-skill 的思路很直接:不开新浏览器,直接连你现有的 Chrome。Agent 看到的就是你看到的,能操作的也是你能操作的。

核心原理:Chrome DevTools Protocol

技术上没什么黑魔法。Chrome 本身就支持通过 CDP(Chrome DevTools Protocol)被外部程序控制,你只需要在启动 Chrome 时加一个参数:

--remote-debugging-port=9222

这个端口一开,任何支持 CDP 的工具都能连上来。chrome-cdp-skill 做的事情就是把这个能力封装成一个标准的 skill,让各种 CLI Agent 能开箱即用地调用。

适用场景

这个工具对一人公司开发者来说,打开了不少自动化的可能性:

  • 自动化后台操作:让 Agent 帮你登录各种 SaaS 后台,批量导出数据、修改配置,不用再写爬虫
  • 测试自己的产品:Agent 直接在真实浏览器环境里跑端到端测试,带着真实的用户状态
  • 信息采集和监控:让 Agent 定期检查你已登录的平台(比如 Google Search Console、Stripe Dashboard),汇总关键数据
  • 跨平台工作流串联:Agent 可以在多个标签页之间切换操作,把不同平台的工作流打通

兼容性

项目声称兼容所有基于 CLI 的 AI Agent。目前确认能用的包括 Claude Code、OpenClaw、Codex 等主流工具。GitHub 上已经有 1.7k star,94 个 fork,社区活跃度不错。

安全提醒

必须说一句:这个端口一开,等于把你浏览器的完整控制权暴露出去了。在本地开发环境用没问题,但千万别在公网机器上裸开 9222 端口。建议只在需要时启动,用完就关。如果长期使用,至少加个防火墙规则限制访问来源。

把 AI Agent 接入真实浏览器环境,本质上是在缩短"Agent 能力"和"实际工作场景"之间的距离。对于独立开发者来说,与其花时间写各种平台的 API 集成,不如先试试让 Agent 直接在浏览器里帮你干活——毕竟很多 SaaS 工具压根就没提供 API。