三个 AI 审查同一篇文章，差异惊人：与其比高下不如让它们组队

同一篇文章，三种完全不同的审查视角

测试素材是一篇 2000 多字的 Newsletter，主题是 AI 记忆系统，包含观点、案例和学术引用。三个 AI 使用同样的审查标准，输出结果却呈现出鲜明的差异。

Claude 属于均衡型。它关注整体论证架构，同时检查写作风格的一致性。它指出了一处过度推断，但措辞克制，像一个文字功底扎实的编辑在做点评。

GPT 偏向理工思维。它直接拆解论证链，逐段比对论点与论据的对应关系。它指出文章用了一个案例就跳到「结构性缺陷」的结论，跨度过大。更有意思的是，它会主动引用文章中提到的学术文献，反过来用在对作者的批评上。

Gemini 的风格则更偏向用户体验优化。它很少给出尖锐批评，把大量精力放在阅读体验的改善上——比如建议把过长的段落拆开，调整节奏。它还有个显著特征：倾向于肯定，包括会主动夸赞其他 AI 的建议。

这三组结果放在一起看，价值远大于任何单一模型的输出。跑分评测看不出来的模型个性差异，在实际任务中一下就暴露了。

以上审查结果不是逐个窗口手动操作的产物。ai-pair 协作系统可以让三个 AI 同时审查同一篇内容。

你可能会想到 Claude Code 或 Codex 自带的 Agent Teams 功能——它们确实能创建多个 agent 并行工作，但所有 agent 用的都是同一个模型。Claude 的团队全是 Claude，Codex 的团队全是 GPT。这就像一个公司全招同一个专业的人，视角天然同质化。

ai-pair 的核心差异在于跨模型组队。Claude 担任 Team Lead 负责协调和审查，同时调度 Codex 和 Gemini 各自独立完成任务。三个不同的 AI，三个不同的视角，最后汇总到一起。

具体操作上，在 Claude Code 里输入一行命令启动 content-team 模式，后台自动并发启动 Codex 和 Gemini 做独立审查。整个过程只需要几分钟，不需要在多个窗口之间切换，不需要复制粘贴，系统把三份审查报告汇总到一处，使用者只需看结果、做决定。

这套系统从之前的开源项目 ai-roundtable 演化而来。ai-roundtable 是一个 Chrome 浏览器扩展，在同一个界面里操控多个 AI 的网页版进行讨论和互评。ai-pair 把这个思路搬到了命令行，加入了明确的角色分工，让协作更有结构，也更适合嵌入日常工作流。

大部分人用多个 AI 的方式是：同一个问题分别问 Claude 和 ChatGPT，然后比较谁答得好。

这是最大的浪费。本质上是让三个不同特长的人做同一份考卷，然后只留一个人的答案，另外两个人的独特视角全部丢弃。

并非所有任务都需要同时调用三个模型。写一封邮件或问一个事实性问题，一个模型足够了。多 AI 协作有额外的协调成本，不值得用在简单任务上。

真正产生价值的场景可以归为三类：

需要多角度审查的工作。 写完一篇文章，让 GPT 审逻辑，Gemini 审读者体验，Claude 做总协调。每个 AI 看到的盲区不一样，合在一起覆盖面显著扩大。

需要不同类型输出的工作。 比如一个项目同时需要写代码和写文档，让擅长逻辑的模型去写代码，让擅长表达的模型去写文档，比让同一个 AI 两头跑效率更高。

需要制衡的工作。 只用一个 AI 时，它的输出很容易被直接采信。但如果两三个 AI 对同一件事给出不同判断，使用者反而更容易看清问题的真实面貌。

多 AI 协作的核心价值在于降低单一模型的偏见风险，提高最终输出的可靠性。前提是你清楚每个 AI 擅长什么，然后把对的任务分给对的模型。

ai-pair 已在 GitHub 开源，开源版保留了最容易上手的 Agent Teams 模式。环境要求：安装好 Claude Code，加上 Codex 或 Gemini 的 CLI 工具即可直接使用，不需要写代码，不需要额外配置。

模型之间的个性差异不是 bug，是可以被系统化利用的特性。当你停止纠结「哪个 AI 更强」，开始思考「怎么让它们各司其职」，多模型协作的真正价值才会浮现。