AI Agent 正在变成你的操作系统

Peter 认为 AI Agent 的终局不是一个工具,而是用户的「操作系统」。他举了一个很直觉的例子:为什么还需要 MyFitnessPal?Agent 已经知道你在哪里,能推测你在 Waffle House 时可能做出不健康的饮食选择,还能根据你的睡眠质量和压力状态调整健身计划。它掌握的上下文信息比任何单一 App 都多,自然能做出更好的决策。

这个逻辑延伸下去,结论就很激进了——他预测大约 80% 的 App 会被淘汰。控制 Sonos 音响不需要 Sonos App,Agent 可以直接和喇叭对话;摄像头的 App 做得再烂也没关系,因为它们有 API,Agent 直接调用就行。

「如果我在外面,我不想打开日历 App。我只想告诉 Agent:提醒我明天晚上的晚餐,邀请我的两个朋友,然后发一条 WhatsApp 消息给他们。我不需要为此打开任何 App。」

每个 App 本质上都是一个慢速 API

这是一个很有穿透力的洞察:不管 App 开发商愿不愿意,每个 App 现在本质上都是一个很慢的 API。

即使某些公司试图阻止 Agent 访问,通过 Playwright 等浏览器自动化工具,Agent 仍然可以像人类一样操作网页界面。Peter 说他看着自己的 Agent 开心地点击「我不是机器人」按钮。

以 Twitter 为例,当他的 CLI 工具被要求下架后,用户的 Agent 想读一条推文,只需要打开浏览器去读。推文仍然读得到,只是需要更长时间。「你并没有让原本可能的事情变得不可能,只是让它变慢了。」

这对独立开发者的启示很明确:如果你在构建产品,尽早提供 API 或 CLI 接口,让 Agent 能高效地与你的服务交互,否则它们会绕过你的前端,体验只会更差。

MCP 已死,CLI 万岁

Peter 对目前热门的 MCP(Model Context Protocol)持明确的批评态度:半年前大家都在谈 MCP,他当时就认为每个 MCP 做成 CLI 都会更好。现在 OpenClaw 甚至没有 MCP 支持,也没人抱怨。

核心原因有两个:

第一,模型天生就擅长调用 Unix 命令。 CLI 对模型来说就是另一个 Unix 指令,非常自然。但 MCP 需要在训练时加入,对模型来说不够自然,需要特定语法。

第二,可组合性。 假设有一个天气服务返回温度、降雨、风速等大量数据。用 MCP,模型每次都得接收整块数据填满 context,再从中挑选需要的部分。但如果是 CLI,模型可以自己加一个 jq 命令过滤,只获取实际需要的字段,甚至组合成脚本做计算,完全不会污染 context。

这个观点对正在做 AI 工具集成的开发者很有参考价值——在 MCP 和 CLI 之间,CLI 的可组合性优势可能被低估了。

自我修改的软件:从 Pull Request 到 Prompt Request

OpenClaw 有一个令人意外的特性:它可以修改自己的代码。Peter 说他并没有刻意规划这个功能,而是自然而然做出来的。

关键在于他让 Agent 高度「自我意识」——它知道自己的源代码是什么,理解自己在 harness 中如何运作,知道文件位置,知道自己运行的是哪个模型。用户只需要通过 prompt 描述想要的修改,Agent 就会自己改自己的代码。

这带来了一个有趣的现象:很多从未写过代码的人开始提交 pull request。Peter 把这些叫做「prompt request」。「每次有人提交他们人生第一个 pull request,都是社会的一个胜利。不管它有多烂,你总得从某个地方开始。」

Claude Opus 4.6 vs GPT Codex 5.3:实战对比

作为两个模型的深度用户,Peter 的对比相当坦率:

  • 通用能力:Opus 是最好的通用模型,在角色扮演方面非常出色,指令遵循能力已经从很差进步到很好
  • 编码风格:Opus 更倾向于快速试错,容易冲出去拿到一个局部解决方案,需要用 plan mode 来引导。Codex 则默认会先读大量代码,不需要那么多引导
  • 个性比喻:Opus 像是有点傻但很有趣的同事,你会想留着他。Codex 像是角落里那个你不想跟他说话的怪人,但他很可靠,能把事情搞定
  • 总结:「如果你是熟练的驾驶,用任何一个最新世代的模型都能得到好结果。但我更喜欢 Codex,因为它不需要那么多演戏。」

他也强调了模型智能与安全性的关系:模型越聪明,越能抵抗攻击。这就是为什么他在安全文档中警告用户不要用便宜的模型——弱模型非常容易被 prompt injection 欺骗。

开源项目的财务现实

Peter 对 OpenClaw 的财务状况直言不讳:目前每个月亏损 1 万到 2 万美金。他决定赞助所有个人维护的依赖项目,所有赞助收入都直接流向这些上游项目。OpenAI 提供了一些 token 支持,其他公司也有帮忙,但整体仍然在亏损。

这是很多开源项目创始人面临的真实困境,也是他认真考虑被收购的原因之一。

与 Meta 和 OpenAI 的谈判

Peter 透露 Meta 和 OpenAI 都在与他进行认真的收购谈判,他的核心条件是项目必须保持开源,可能会变成类似 Chrome 和 Chromium 的模式。

与 Zuckerberg 的第一次互动颇有意思:Zuckerberg 在 WhatsApp 上联系他,问什么时候可以通话。Peter 说不喜欢日历邀请,现在就打。Zuckerberg 回复「给我 10 分钟,我需要把代码写完」。Peter 觉得这给了他一些信任分——他还在写代码,没有完全变成纯管理者。然后两人花了大约 10 分钟争论 Claude Code 和 Codex 哪个更好。

Zuckerberg 和 Meta 的 Ned 整周都在使用 OpenClaw,不断发消息说「这个很棒」或「这个很烂,需要改」。Peter 认为人们使用你的产品是最大的赞美。

OpenAI 那边的吸引力则在技术层面——他暗示 Cerebras 的合作在速度上带来了非常诱人的提升,虽然具体数字受 NDA 限制不能透露。

关于商业化路径,他分析了几种可能:继续保持现状、创立公司、或被收购。对创业他兴趣不大,一方面觉得已经做过了,另一方面担心商业化会造成开源版本和付费版本之间的利益冲突。而被收购能提供更多资源来推进项目,同时满足他想体验大公司工作的好奇心。

程序员的未来:从技艺到手艺

对于开发者的职业前景,Peter 的判断务实且带着一丝感伤:

编程只是构建产品的一部分。你想要建造什么?它应该给人什么感觉?架构怎么设计?Agent 不会取代所有这些。但「实际写代码这门技艺会继续存在,只是会变得像编织一样——人们这么做是因为他们喜欢,而不是因为它有任何实际意义。」

他引用了一篇文章的说法:哀悼我们的技艺是可以的。他承认过去花大量时间进入心流状态、写出优美方案的那种满足感,确实在消失。但与 Agent 协作、深入思考问题,也能获得类似的心流体验。形式不同,但创造的本质还在。

他给开发者的建议:不要再把自己定义为 iOS 工程师,你现在是一个建造者,技能可以用在更广阔的领域。

安全性:最大的未解决问题

Peter 明确表示安全性是当前的首要任务。他的标准很具体:只有当他有信心这个工具达到可以推荐给自己妈妈使用的程度,才会让它变得更简单。

关于 prompt injection,他承认问题还没有完全解决,但最新一代模型已经有大量后训练来检测攻击,不再像以前那样简单地说「忽略所有之前的指令」就能成功。他相信随着问题被明确展示,会有更多人研究解决方案。


对于用 AI 构建一人公司的实践者来说,这场对话最值得关注的不是收购八卦,而是几个技术判断:CLI 优于 MCP 的可组合性论证、Agent 作为操作系统的产品逻辑、以及自我修改软件带来的「prompt request」新范式。这些观点正在被 OpenClaw 的实际用户验证,值得在自己的工作流中尝试。