过去两年,整个行业都在优化错误的东西:模型参数量、跑分、benchmark。当 Agent 系统从 demo 走向真实部署,一个残酷的事实浮出水面——模型不再是护城河,Harness 才是。
一个真正可用的 Agent = 模型 + Harness。
新抽象:Agent 的三层架构
现代 Agent 系统由三个概念层组成:
- 模型层:推理引擎
- Harness 层:执行系统
- Agent 应用层:基于前两者构建的工作流
核心论点:下一个千亿美元级 AI 基础设施,不会是又一个模型实验室,也不会是薄薄一层 Agent 应用。它将是 Harness 层——包含 runtime、编排、工具链、记忆、策略、沙箱、验证和可观测性。这才是将前沿智能真正「运营化」的技术栈。
为什么 Harness 会成为 AI 系统的控制平面
当 Agent 从单次 prompt 调用演进到长时间运行的自主工作流,系统复杂度急剧攀升。Agent 必须:
- 协调多个工具
- 跨任务维护状态
- 在安全边界内运行
- 管理执行环境
- 验证输出结果
这些需求将 Agent 系统从简单的模型调用,变成了分布式系统问题。架构自然分化为两层——模型是推理层,Harness 是执行层。这与计算史上的经典模式一脉相承:操作系统将应用逻辑与硬件控制分离,Agent 系统在自主性和复杂度提升时,正在收敛到同样的结构。
Harness 的技术构成
Harness 本质上是一个包裹在模型外层的执行系统,提供状态、环境、控制循环和可执行约束。核心原语包括四层:
| 层级 | 职责 |
|---|---|
| Prompt & Policy 层 | system prompt、行为约束、安全策略、任务指令 |
| 持久化状态 / 文件系统 | 产物、日志、文档、规划文件 |
| Tool Registry / MCP 层 | 认证、速率限制、权限边界 |
| Memory / Context / 验证层 | 检索、上下文压缩、验证循环、tracing 与可观测性 |
为什么裸模型远远不够
模型能生成 token,但它自身无法:
- 持久化状态
- 安全执行代码
- 访问内外部系统
- 验证工作是否成功
- 协调长周期任务
所有这些能力都存在于模型之外。这意味着,有用的 Agent 行为本质上是一个 Harness 问题——模型提供认知组件,Harness 提供执行基础设施。
如何构建 Harness
典型的 Harness 架构类似经典的分布式系统设计:Harness 充当控制平面,执行层充当数据平面。
生产级 Harness 依赖一组核心原语:
- 文件系统——持久化状态与产物
- 通用 Runtime——代码执行环境
- 沙箱——安全隔离
- 迭代验证机制——结果校验循环
- 可观测性——tracing、logging、监控
实证:Harness 工程的杠杆效应
这不是理论推演。LangChain 在一项实验中,保持模型不变,仅通过 Harness 层的改进,就将一个编码 Agent 在 Terminal-Bench 上的得分从 52.8 提升到 66.5。
性能提升完全来自 Harness 变更。这说明一个关键事实:如果修改 Harness 就能显著提升自主性、安全性和性能,那 Harness 就不仅仅是一个「包装层」——它本身就是产品。
为什么这是一个千亿美元市场
Harness 平台处于三大巨型产业的交叉点:全球 IT 基础设施、AI 支出、网络安全。
关键区别在于:Agent 应用在单个工作流内捕获价值,而 Harness 平台在所有构建于其上的工作流中捕获价值。潜在的变现层包括:
- Runtime 环境
- 编排系统
- Tracing 平台
- 沙箱计算
- Tool Registry
- 安全策略引擎
- 评估管线
- 市场生态
这更接近云基础设施的经济模型,而非传统 SaaS。
核心洞察
多数人相信 AI 竞赛的赢家是造出最聪明模型的那个。这个假设很可能是错的。
模型正变得越来越可替换。真正的杠杆在于,谁建了那个所有模型都必须经过的 Harness。 掌控这一层的公司,实际上掌控了 AI 系统的执行环境。
回顾计算史,最成功的平台都控制了 runtime 层:操作系统控制应用,云平台控制基础设施,Agent Harness 将控制 AI 工作。
模型是大脑,Harness 是操作系统。谁拥有这一层,谁就掌控智能如何变成生产系统。
给一人公司的实操建议
如果你正在用 AI 构建产品,不要只盯着「用哪个模型」——把精力投入到 Harness 层的建设上:设计好你的 tool registry、状态管理、沙箱执行和验证循环。这才是让 Agent 真正能干活的地方,也是你作为独立开发者能构建出持久壁垒的地方。