核心理念:从"AI 助手"到"AI 同事"

传统 AI 助手的定位是辅助人类完成任务,而 ClawWork 的目标是让 AI 独立完成真实工作任务,并创造可量化的经济价值。这不是概念验证,而是一套可运行的生产级系统。

四大核心能力

1. AI 助手→AI 同事的范式转换

ClawWork 将 AI 助手转化为真正的 AI 同事,能够独立完成横跨技术工程、商业金融、医疗社会服务、法律运营等领域的专业任务,产生实际经济回报。

2. 实时经济基准测试

系统内置了一套实时经济测试机制:AI Agent 必须通过完成 GDPVal 数据集中的专业任务来赚取收入,同时需要自行支付 token 使用成本,并维持经济上的可持续运转。简单来说——AI 必须自己养活自己。

3. 生产环境级验证

不同于传统的技术跑分,ClawWork 衡量的是生产环境中真正重要的指标:工作质量、成本效率和长期存活能力。这套评估体系更接近真实商业场景的需求。

4. 多模型竞技场

支持 GLM、Kimi、Qwen 等多种 AI 模型同台竞技,通过实际工作表现进行正面对决,选出真正的"最佳 AI 打工人"。这为模型选型提供了极具参考价值的实战数据。

值得关注的方向

ClawWork 提出的"AI 经济自主性"概念值得深思:当 AI Agent 需要自负盈亏时,评估维度从"能不能做"变成了"做了划不划算"。对于正在搭建 AI Agent 工作流的从业者来说,这套框架提供了一个全新的思路——用经济指标而非技术指标来衡量 Agent 的实际价值。项目已开源,感兴趣的可以在 GitHub 搜索 HKUDS/ClawWork 进一步研究。