听起来跟之前那些"电脑使用"类的 AI Agent 差不多对吧?但 Ghost OS 有个关键区别:它不靠截屏识别来操作电脑。

不截屏,走系统底层

大部分 computer-use 方案的思路是:截个屏 → 让视觉模型看图 → 判断该点哪里 → 模拟点击。这套流程能跑,但问题也很明显——慢、不稳定、还吃 token。屏幕分辨率一变,或者界面布局稍有调整,就容易翻车。

Ghost OS 走的是另一条路:直接调用 macOS 的 Accessibility API(无障碍接口)。这是苹果系统自带的底层能力,原本是给辅助功能用的,能直接读取界面元素的结构化信息——哪个是按钮、哪个是输入框、当前菜单有哪些选项,全都能拿到。

这意味着它不需要"看"屏幕,而是"读"界面。精度和速度都上了一个台阶。

自学习工作流

另一个值得关注的点是它提到的 self-learning workflows。简单理解就是:你教它做一次,它能记住这套操作流程,下次类似任务直接复用。这对重复性工作来说挺实用的,比如每天要在几个软件之间倒腾数据、整理报表之类的场景。

对独立开发者的意义

我觉得这个项目对一人公司特别有价值。独立开发者最缺的就是人手,很多杂活本身不难,但就是费时间——导出数据、整理文档、批量操作某个软件里的内容。如果真能训练一个 AI 助手帮你稳定地干这些事,省下来的时间是实打实的。

当然,目前项目还比较早期,GitHub 上大概 1k star、94 个 fork,社区规模不算大。我也不确定在复杂场景下稳定性怎么样,Accessibility API 虽然比截屏靠谱,但不同 App 对无障碍接口的支持程度也参差不齐。

感兴趣的可以去 GitHub 搜 ghostwright/ghost-os 看看,至少思路是对的——与其让 AI 去"看"屏幕,不如让它直接跟系统对话。