同一篇文章,三种完全不同的审查视角
测试素材是一篇 2000 多字的 Newsletter,主题是 AI 记忆系统,包含观点、案例和学术引用。三个 AI 使用同样的审查标准,输出结果却呈现出鲜明的差异。
Claude 属于均衡型。它关注整体论证架构,同时检查写作风格的一致性。它指出了一处过度推断,但措辞克制,像一个文字功底扎实的编辑在做点评。
GPT 偏向理工思维。它直接拆解论证链,逐段比对论点与论据的对应关系。它指出文章用了一个案例就跳到「结构性缺陷」的结论,跨度过大。更有意思的是,它会主动引用文章中提到的学术文献,反过来用在对作者的批评上。
Gemini 的风格则更偏向用户体验优化。它很少给出尖锐批评,把大量精力放在阅读体验的改善上——比如建议把过长的段落拆开,调整节奏。它还有个显著特征:倾向于肯定,包括会主动夸赞其他 AI 的建议。
这三组结果放在一起看,价值远大于任何单一模型的输出。跑分评测看不出来的模型个性差异,在实际任务中一下就暴露了。
ai-pair 的协作机制
以上审查结果不是逐个窗口手动操作的产物。ai-pair 协作系统可以让三个 AI 同时审查同一篇内容。
你可能会想到 Claude Code 或 Codex 自带的 Agent Teams 功能——它们确实能创建多个 agent 并行工作,但所有 agent 用的都是同一个模型。Claude 的团队全是 Claude,Codex 的团队全是 GPT。这就像一个公司全招同一个专业的人,视角天然同质化。
ai-pair 的核心差异在于跨模型组队。Claude 担任 Team Lead 负责协调和审查,同时调度 Codex 和 Gemini 各自独立完成任务。三个不同的 AI,三个不同的视角,最后汇总到一起。
具体操作上,在 Claude Code 里输入一行命令启动 content-team 模式,后台自动并发启动 Codex 和 Gemini 做独立审查。整个过程只需要几分钟,不需要在多个窗口之间切换,不需要复制粘贴,系统把三份审查报告汇总到一处,使用者只需看结果、做决定。
这套系统从之前的开源项目 ai-roundtable 演化而来。ai-roundtable 是一个 Chrome 浏览器扩展,在同一个界面里操控多个 AI 的网页版进行讨论和互评。ai-pair 把这个思路搬到了命令行,加入了明确的角色分工,让协作更有结构,也更适合嵌入日常工作流。
从「比较」到「协作」的思维转换
大部分人用多个 AI 的方式是:同一个问题分别问 Claude 和 ChatGPT,然后比较谁答得好。
这是最大的浪费。本质上是让三个不同特长的人做同一份考卷,然后只留一个人的答案,另外两个人的独特视角全部丢弃。
三类真正适合多 AI 协作的场景
并非所有任务都需要同时调用三个模型。写一封邮件或问一个事实性问题,一个模型足够了。多 AI 协作有额外的协调成本,不值得用在简单任务上。
真正产生价值的场景可以归为三类:
需要多角度审查的工作。 写完一篇文章,让 GPT 审逻辑,Gemini 审读者体验,Claude 做总协调。每个 AI 看到的盲区不一样,合在一起覆盖面显著扩大。
需要不同类型输出的工作。 比如一个项目同时需要写代码和写文档,让擅长逻辑的模型去写代码,让擅长表达的模型去写文档,比让同一个 AI 两头跑效率更高。
需要制衡的工作。 只用一个 AI 时,它的输出很容易被直接采信。但如果两三个 AI 对同一件事给出不同判断,使用者反而更容易看清问题的真实面貌。
多 AI 协作的核心价值在于降低单一模型的偏见风险,提高最终输出的可靠性。前提是你清楚每个 AI 擅长什么,然后把对的任务分给对的模型。
上手门槛
ai-pair 已在 GitHub 开源,开源版保留了最容易上手的 Agent Teams 模式。环境要求:安装好 Claude Code,加上 Codex 或 Gemini 的 CLI 工具即可直接使用,不需要写代码,不需要额外配置。
模型之间的个性差异不是 bug,是可以被系统化利用的特性。当你停止纠结「哪个 AI 更强」,开始思考「怎么让它们各司其职」,多模型协作的真正价值才会浮现。