这东西解决什么问题
搞过 AI Agent 自动化的应该都知道,让 Agent 操作浏览器一直是个麻烦事。传统方案要么是 Puppeteer/Playwright 开一个无头浏览器,要么是 Selenium 那一套。问题在于:这些都是"新开"一个浏览器实例,你已经登录好的网站、装好的插件、打开的页面,Agent 一个都用不了。
chrome-cdp-skill 的思路不一样,它直接通过 Chrome DevTools Protocol(CDP)连接你本地正在跑的 Chrome。也就是说,你平时浏览器里登着的 Gmail、开着的后台管理面板、正在调试的页面,Agent 都能直接看到、直接操作。
为什么这对独立开发者有用
做一人公司的时候,很多重复性工作其实都在浏览器里发生——填表单、抓数据、检查后台状态、在各种 SaaS 工具之间切换。如果 Agent 能直接接管你已有的浏览器会话,省掉的不只是登录这一步,而是整个环境搭建的成本。
比较典型的场景:
- 让 Agent 帮你在已登录的后台里批量操作
- 自动抓取需要登录才能看到的页面数据
- 在你调试网页的时候,让 Agent 同步检查 DOM 或网络请求
- 结合 Claude Code 等工具,实现"写代码 + 看效果"的闭环
接入方式
项目本身设计得挺简单,号称"开箱即用"。核心就是连接你已经打开的 Chrome 标签页,不需要额外启动什么服务。这意味着你可以把它作为一个 skill 挂到现有的 Agent 框架里用。
目前在 GitHub 上已经有 1.7k star、94 个 fork,说明确实有不少人在用。
需要注意的
让 Agent 直接访问你的真实浏览器会话,安全上肯定要多想一步。毕竟浏览器里存着你的 cookie、session、甚至自动填充的密码。建议在用的时候想清楚 Agent 的权限边界,别给太大的操作范围,尤其是涉及支付、账号设置这类敏感页面。
如果你正在搭 AI Agent 做浏览器自动化,这个项目值得看一眼。比起从零配置无头浏览器环境,直接复用现有会话确实省事不少。项目名是 pasky/chrome-cdp-skill,感兴趣可以去 GitHub 上翻翻源码和文档。