思路:给 Agent 打造"手脚"
核心策略很简单:每个 CLI 工具只做好一件事,然后统一暴露给 AI 调用。
- bird:读写 Twitter/X
- gifgrep:搜索 GIF
- gogcli:访问 Google Workspace 全家桶(邮件、日历、文档等)
- summarize:将任意 URL、YouTube 视频、播客转成摘要
这些工具本身不复杂,但组合起来就构成了 Agent 与外部世界交互的完整接口层。
解决 Coding Agent 用户的真实痛点
steipete 本身就是 Coding Agent 的重度用户,所以他顺手解决了自己遇到的问题:
- VibeTunnel:把浏览器变成终端,外出时也能远程操控 Agent
- CodexBar:菜单栏实时显示 token 消耗——不是为了省钱,而是要清楚钱花在哪
- Poltergeist:通用热重载工具,任何语言的项目都能自动重建
连接物理世界
Agent 不该只活在屏幕里。steipete 把触角延伸到了物理设备:
- ordercli:调用外卖平台 API 查询订单
- camsnap:对接 RTSP/ONVIF 协议,实现摄像头截图、录像、动作检测
- sonoscli:控制 Sonos 音箱,支持设备发现、分组、队列管理、播放 Spotify
- Brabble:本地语音转录,用语音唤醒 Mac 并下达指令
完全控制 macOS
这是整套体系中技术含量最高的部分:
- Peekaboo:不只是截图工具,而是完整的 GUI 自动化框架——see、click、type、scroll、hotkey、menu,模拟人类在 Mac 上的一切操作
- imsg:命令行收发 iMessage/SMS
- remindctl:操控 Apple Reminders
他还实现了浏览器 cookie 提取能力,让 Agent 能以用户身份直接调用任何网站的 API,绕过登录墙。这意味着 Agent 不再被浏览器沙箱困住。
务实的技术选型
这些工具横跨三种语言,选择标准只有一个——哪个最合适就用哪个:
- Go:网络相关 CLI(gogcli、sonoscli、camsnap、bird),编译快、跨平台、零依赖
- Swift:macOS 深度集成(Peekaboo、imsg、Brabble),系统 API 原生支持
- TypeScript:Agent 端逻辑(Clawdbot 主体、MCP server),生态丰富、对 AI 友好
没有技术洁癖,没有统一语言的执念,纯粹以实用为导向。
真正的价值:打通信息孤岛
过去几十年,每个 App 都是信息孤岛。邮件在 Gmail,日历在 Calendar,消息在 iMessage,音乐在 Sonos,摄像头在另一个 App,彼此之间没有桥梁。
steipete 用几十个 CLI 工具把这些孤岛全部打通,然后统一暴露给 AI。最终效果是:你说一句话,AI 调用 gogcli 查日历、用 Peekaboo 截图分析当前界面、通过 imsg 发消息通知、让 sonoscli 播放音乐——一气呵成。
这才是 Clawdbot/Moltbot 的最大价值:不是某个单一工具,而是一整套让 AI 能操控一切的基础设施。
对独立开发者的启示
这套思路完全可以复用:不需要一次性构建所有工具,而是从自己最频繁的操作开始,逐步用 CLI 封装,再接入 Agent。每多一个工具,AI 的能力边界就扩大一圈。对于一人公司来说,这本质上是在用代码雇佣一个永不下班的数字员工——而你要做的,只是给它足够多的"手脚"。