PinchTab 做了什么

浏览器本身有一套叫 Accessibility Tree(无障碍树)的结构化数据,最初是给视障用户准备的,页面上每个按钮、输入框、链接都有对应的文本描述。PinchTab 做的事情就是把这棵树提取出来,直接喂给 AI Agent。

说白了,截图方案是让 AI "看" 网页,PinchTab 是让 AI "读" 网页。读文本比看图片快得多,也便宜得多——同样的操作,截图方案要一万多 token,PinchTab 大概 800 token 就搞定了。

安装只需要一句话

整个过程甚至不用离开 OpenClaw 的对话框。

第一步:安装 PinchTab

打开 OpenClaw(Telegram 或终端都行),直接发:

帮我安装 PinchTab

OpenClaw 会自动执行安装命令,等它回复完成就行。

第二步:写成 Skill

安装完之后,再发一句:

把 PinchTab 写成一个 skill,以后浏览器操作都走 PinchTab

OpenClaw 会生成一个 skill 文件。这一步做完,你的 Agent 就有了一双能操控浏览器的手,而且以后所有浏览器相关的操作都会自动走 PinchTab,不再默认截图。

实际跑一遍看看效果

读取页面元素:

用 PinchTab 打开 https://github.com/pinchtab/pinchtab 这个页面,告诉我页面上有哪些可以点击的元素

返回的是干净的文本列表,大约 800 token。

操作页面:

点击 Star 按钮

Agent 会根据无障碍树找到对应元素的编号,直接点击。

搜索:

回到 GitHub 首页,搜索 "openclaw"

你只说了一句话,Agent 在后台跑了四五条命令,总共消耗不到 3000 token。换成截图方案,这个数字至少要乘以十。

提取项目信息:

用 PinchTab 打开 https://github.com/pinchtab/pinchtab,帮我提取这个项目的介绍文本

PinchTab 会把页面主要文本干净地提取出来,README 内容、Star 数、描述全都有,格式整洁。

拿来干嘛

几个一人公司场景下特别实用的方向:

  • 批量调研项目 — 给 Agent 一个 GitHub 链接列表,让它挨个提取项目信息,省掉手动逐个打开的时间
  • 监控竞品 — 定期去看某个页面的变化,配合定时任务可以做成自动化
  • 抓内容素材 — 做自媒体的都懂,信息搜集效率直接翻倍

多账号并行

做出海业务的人经常要同时管好几个平台的账号,PinchTab 支持多浏览器实例并行:

用 PinchTab 启动两个独立的浏览器实例,一个叫 twitter,一个叫 linkedin

每个实例有独立的 Cookie 和登录状态,互不干扰。登录一次后 Profile 会保存,下次启动不用重新登录。然后就可以让 Agent 同时在不同平台操作了。

核心命令速查

这些命令写成 skill 之后 Agent 会自动调用,但了解它们在干什么,debug 的时候有用:

  • pinchtab open <url> — 打开网页
  • pinchtab snapshot — 获取页面无障碍树快照
  • pinchtab click <id> — 点击指定元素
  • pinchtab type <id> <text> — 在指定元素中输入文本
  • pinchtab text — 提取页面纯文本内容

安全注意事项

PinchTab 默认只监听本机 127.0.0.1:9867,敏感接口默认关闭,支持 API Token 认证。如果你的 OpenClaw 部署在服务器上,务必设置 API Token,别让浏览器控制接口裸奔。


一个 12MB、零依赖的工具,在 OpenClaw 里一句话装好,浏览器控制的 token 成本直接降到原来的十三分之一。省下来的钱,一个月够你多跑好几个 Agent 任务。已经在用 OpenClaw 的人,没理由不试试。