PinchTab：一个 12MB 小工具，把浏览器 AI Agent 的 token 成本砍到十三分之一

PinchTab 做了什么

浏览器本身有一套叫 Accessibility Tree（无障碍树）的结构化数据，最初是给视障用户准备的，页面上每个按钮、输入框、链接都有对应的文本描述。PinchTab 做的事情就是把这棵树提取出来，直接喂给 AI Agent。

说白了，截图方案是让 AI "看" 网页，PinchTab 是让 AI "读" 网页。读文本比看图片快得多，也便宜得多——同样的操作，截图方案要一万多 token，PinchTab 大概 800 token 就搞定了。

整个过程甚至不用离开 OpenClaw 的对话框。

第一步：安装 PinchTab

打开 OpenClaw（Telegram 或终端都行），直接发：

帮我安装 PinchTab

OpenClaw 会自动执行安装命令，等它回复完成就行。

第二步：写成 Skill

安装完之后，再发一句：

把 PinchTab 写成一个 skill，以后浏览器操作都走 PinchTab

OpenClaw 会生成一个 skill 文件。这一步做完，你的 Agent 就有了一双能操控浏览器的手，而且以后所有浏览器相关的操作都会自动走 PinchTab，不再默认截图。

读取页面元素：

用 PinchTab 打开 https://github.com/pinchtab/pinchtab 这个页面，告诉我页面上有哪些可以点击的元素

返回的是干净的文本列表，大约 800 token。

操作页面：

点击 Star 按钮

Agent 会根据无障碍树找到对应元素的编号，直接点击。

搜索：

回到 GitHub 首页，搜索 "openclaw"

你只说了一句话，Agent 在后台跑了四五条命令，总共消耗不到 3000 token。换成截图方案，这个数字至少要乘以十。

提取项目信息：

用 PinchTab 打开 https://github.com/pinchtab/pinchtab，帮我提取这个项目的介绍文本

PinchTab 会把页面主要文本干净地提取出来，README 内容、Star 数、描述全都有，格式整洁。

几个一人公司场景下特别实用的方向：

做出海业务的人经常要同时管好几个平台的账号，PinchTab 支持多浏览器实例并行：

用 PinchTab 启动两个独立的浏览器实例，一个叫 twitter，一个叫 linkedin

每个实例有独立的 Cookie 和登录状态，互不干扰。登录一次后 Profile 会保存，下次启动不用重新登录。然后就可以让 Agent 同时在不同平台操作了。

这些命令写成 skill 之后 Agent 会自动调用，但了解它们在干什么，debug 的时候有用：

PinchTab 默认只监听本机 127.0.0.1:9867，敏感接口默认关闭，支持 API Token 认证。如果你的 OpenClaw 部署在服务器上，务必设置 API Token，别让浏览器控制接口裸奔。

一个 12MB、零依赖的工具，在 OpenClaw 里一句话装好，浏览器控制的 token 成本直接降到原来的十三分之一。省下来的钱，一个月够你多跑好几个 Agent 任务。已经在用 OpenClaw 的人，没理由不试试。