Ghost OS：不靠截屏的 Mac AI 助手，走系统底层才是正确路线

听起来跟之前那些"电脑使用"类的 AI Agent 差不多对吧？但 Ghost OS 有个关键区别：它不靠截屏识别来操作电脑。

不截屏，走系统底层

大部分 computer-use 方案的思路是：截个屏 → 让视觉模型看图 → 判断该点哪里 → 模拟点击。这套流程能跑，但问题也很明显——慢、不稳定、还吃 token。屏幕分辨率一变，或者界面布局稍有调整，就容易翻车。

Ghost OS 走的是另一条路：直接调用 macOS 的 Accessibility API（无障碍接口）。这是苹果系统自带的底层能力，原本是给辅助功能用的，能直接读取界面元素的结构化信息——哪个是按钮、哪个是输入框、当前菜单有哪些选项，全都能拿到。

这意味着它不需要"看"屏幕，而是"读"界面。精度和速度都上了一个台阶。

另一个值得关注的点是它提到的 self-learning workflows。简单理解就是：你教它做一次，它能记住这套操作流程，下次类似任务直接复用。这对重复性工作来说挺实用的，比如每天要在几个软件之间倒腾数据、整理报表之类的场景。

我觉得这个项目对一人公司特别有价值。独立开发者最缺的就是人手，很多杂活本身不难，但就是费时间——导出数据、整理文档、批量操作某个软件里的内容。如果真能训练一个 AI 助手帮你稳定地干这些事，省下来的时间是实打实的。

当然，目前项目还比较早期，GitHub 上大概 1k star、94 个 fork，社区规模不算大。我也不确定在复杂场景下稳定性怎么样，Accessibility API 虽然比截屏靠谱，但不同 App 对无障碍接口的支持程度也参差不齐。

感兴趣的可以去 GitHub 搜 ghostwright/ghost-os 看看，至少思路是对的——与其让 AI 去"看"屏幕，不如让它直接跟系统对话。