GitHub:MiroMindAI/MiroThinker
在线体验:dr.miromind.ai
MiroThinker 是什么
一句话:它是一个会主动搜索、会自我纠错、能处理极长链任务的研究型 AI Agent。
不同于普通 RAG 检索或单次问答,MiroThinker 的核心设计是多步推理 + 工具调用——它会自己规划搜索路径,遇到矛盾信息会回头验证,能在一次任务中执行数百次工具调用,最终生成带引用、有结构的完整研究报告。
一个典型场景:你扔给它"分析 2026 年 AI Agent 市场格局,预测未来 12 个月的主要变量",它会自动拆解问题、搜集多方来源、交叉验证、输出带来源的报告——全程无需人工干预。
核心创新:Interactive Scaling
大多数模型的性能提升靠两个维度:参数量更大、上下文更长。
MiroThinker 引入了第三个维度:Interactive Scaling(交互扩展)——系统地训练模型在完成任务过程中与外部环境进行更深入、更频繁的交互,通过环境反馈来纠正错误、优化推理路径。
这意味着:模型不是"一口气生成答案",而是在与工具、数据库、搜索引擎的反复交互中不断修正自己的判断。这和人类研究员做事的方式更接近。
版本一览
| 模型 | 参数量 | 上下文 | 最大工具调用 | BrowseComp |
|---|---|---|---|---|
| MiroThinker-1.7-mini | 30B | 256K | 300次 | 72.3 (ZH) |
| MiroThinker-1.7 | 235B | 256K | 300次 | 74.0 |
| MiroThinker-H1(商用) | 未公开 | — | — | 88.2 |
MiroThinker-1.7-mini(30B):在 BrowseComp-ZH 中文基准上拿到 72.3,是目前开源模型的 SOTA,参数量仅为第二名的 1/8。
MiroThinker-1.7(235B):综合性能最强的开源版,BrowseComp 74.0,GAIA-Val-165 达 82.7%。
所有开源版本均基于 Qwen3 架构微调,权重托管在 HuggingFace。
能做什么
研究报告生成
输入一个问题或主题,MiroThinker 自动规划、搜索、推理,输出带引用来源的结构化报告。在线版支持生成后直接分享链接。
金融预测
v1.5 版本专门针对金融领域优化,在预测类任务上超过了 Kimi-K2-Thinking,适合做量化研究、财报分析、宏观事件影响评估等。
多格式文件分析
支持上传 PDF、Word、PPT、Excel、图片等格式作为研究上下文,结合外部搜索进行深度分析。
复杂多步推理
BrowseComp 基准模拟的是"需要多次搜索才能得出答案"的任务,如溯源某个说法的真实出处、验证复杂事件的时间线。MiroThinker-H1 在这类任务上已超越 GPT-5-high。
怎么用
在线版(零门槛)
直接访问 dr.miromind.ai,输入问题即可使用,无需 API Key 或本地部署。
本地部署(开源版)
git clone https://github.com/MiroMindAI/MiroThinker
cd MiroThinker
pip install -r requirements.txt
模型权重从 HuggingFace 下载:30B mini 版对 A100 单卡友好,235B 版需要多卡。
作为 API 集成
项目提供标准接口,可以把 MiroThinker 作为研究工具集成到自己的 Agent 系统中,替代原有的搜索 + 摘要流水线。
BrowseComp 是什么
这个基准由 OpenAI 设计,用来测试模型在"需要多步搜索和推理才能回答的问题"上的能力。
典型题型:找到某个科学论文被引用的确切上下文、验证某个历史事件的具体细节、追踪某个开源项目从哪一个 commit 开始引入了某个特性。
GPT-5-high 在这个基准上的成绩约为 50-60 分区间,MiroThinker-H1 的 88.2 已经远超。对于开源模型来说,74.0 是此前从未达到的水平。
值得关注的原因
大多数 AI 产品在"搜索 + 摘要"上停下了脚步。MiroThinker 的方向是让模型真正会做研究——不只是检索,而是验证、推理、迭代。
30B 版本在中文任务上的表现尤其值得注意:参数只有头部商用模型的零头,却在中文网页信息检索上取得了当前最好的开源成绩。这意味着本地部署、低成本使用不再是退而求其次的选项。
MiroVerse 训练数据集也同步开源,研究社区可以直接基于此做进一步微调和改进。