这到底解决了什么问题
以前让 AI Agent 操作浏览器,要么用 Playwright 开一个无头浏览器(啥登录状态都没有),要么折腾半天模拟登录。说白了,Agent 拿到的是一个"裸机浏览器",而你日常工作用的那个 Chrome 里攒了几十个网站的登录态、偏好设置、各种权限——这些才是真正有价值的东西。
chrome-cdp-skill 的思路很直接:不开新浏览器,直接连你现有的 Chrome。Agent 看到的就是你看到的,能操作的也是你能操作的。
核心原理:Chrome DevTools Protocol
技术上没什么黑魔法。Chrome 本身就支持通过 CDP(Chrome DevTools Protocol)被外部程序控制,你只需要在启动 Chrome 时加一个参数:
--remote-debugging-port=9222
这个端口一开,任何支持 CDP 的工具都能连上来。chrome-cdp-skill 做的事情就是把这个能力封装成一个标准的 skill,让各种 CLI Agent 能开箱即用地调用。
适用场景
这个工具对一人公司开发者来说,打开了不少自动化的可能性:
- 自动化后台操作:让 Agent 帮你登录各种 SaaS 后台,批量导出数据、修改配置,不用再写爬虫
- 测试自己的产品:Agent 直接在真实浏览器环境里跑端到端测试,带着真实的用户状态
- 信息采集和监控:让 Agent 定期检查你已登录的平台(比如 Google Search Console、Stripe Dashboard),汇总关键数据
- 跨平台工作流串联:Agent 可以在多个标签页之间切换操作,把不同平台的工作流打通
兼容性
项目声称兼容所有基于 CLI 的 AI Agent。目前确认能用的包括 Claude Code、OpenClaw、Codex 等主流工具。GitHub 上已经有 1.7k star,94 个 fork,社区活跃度不错。
安全提醒
必须说一句:这个端口一开,等于把你浏览器的完整控制权暴露出去了。在本地开发环境用没问题,但千万别在公网机器上裸开 9222 端口。建议只在需要时启动,用完就关。如果长期使用,至少加个防火墙规则限制访问来源。
把 AI Agent 接入真实浏览器环境,本质上是在缩短"Agent 能力"和"实际工作场景"之间的距离。对于独立开发者来说,与其花时间写各种平台的 API 集成,不如先试试让 Agent 直接在浏览器里帮你干活——毕竟很多 SaaS 工具压根就没提供 API。