MiroThinker-1.7：开源研究Agent登顶BrowseComp基准测试

在线体验：dr.miromind.ai

MiroThinker 是什么

一句话：它是一个会主动搜索、会自我纠错、能处理极长链任务的研究型 AI Agent。

不同于普通 RAG 检索或单次问答，MiroThinker 的核心设计是多步推理 + 工具调用——它会自己规划搜索路径，遇到矛盾信息会回头验证，能在一次任务中执行数百次工具调用，最终生成带引用、有结构的完整研究报告。

一个典型场景：你扔给它"分析 2026 年 AI Agent 市场格局，预测未来 12 个月的主要变量"，它会自动拆解问题、搜集多方来源、交叉验证、输出带来源的报告——全程无需人工干预。

大多数模型的性能提升靠两个维度：参数量更大、上下文更长。

MiroThinker 引入了第三个维度：Interactive Scaling（交互扩展）——系统地训练模型在完成任务过程中与外部环境进行更深入、更频繁的交互，通过环境反馈来纠正错误、优化推理路径。

这意味着：模型不是"一口气生成答案"，而是在与工具、数据库、搜索引擎的反复交互中不断修正自己的判断。这和人类研究员做事的方式更接近。

模型	参数量	上下文	最大工具调用	BrowseComp
MiroThinker-1.7-mini	30B	256K	300次	72.3 (ZH)
MiroThinker-1.7	235B	256K	300次	74.0
MiroThinker-H1（商用）	未公开	—	—	88.2

MiroThinker-1.7-mini（30B）：在 BrowseComp-ZH 中文基准上拿到 72.3，是目前开源模型的 SOTA，参数量仅为第二名的 1/8。

MiroThinker-1.7（235B）：综合性能最强的开源版，BrowseComp 74.0，GAIA-Val-165 达 82.7%。

所有开源版本均基于 Qwen3 架构微调，权重托管在 HuggingFace。

研究报告生成

输入一个问题或主题，MiroThinker 自动规划、搜索、推理，输出带引用来源的结构化报告。在线版支持生成后直接分享链接。

金融预测

v1.5 版本专门针对金融领域优化，在预测类任务上超过了 Kimi-K2-Thinking，适合做量化研究、财报分析、宏观事件影响评估等。

多格式文件分析

支持上传 PDF、Word、PPT、Excel、图片等格式作为研究上下文，结合外部搜索进行深度分析。

复杂多步推理

BrowseComp 基准模拟的是"需要多次搜索才能得出答案"的任务，如溯源某个说法的真实出处、验证复杂事件的时间线。MiroThinker-H1 在这类任务上已超越 GPT-5-high。

在线版（零门槛）

直接访问 dr.miromind.ai，输入问题即可使用，无需 API Key 或本地部署。

本地部署（开源版）

git clone https://github.com/MiroMindAI/MiroThinker
cd MiroThinker
pip install -r requirements.txt

模型权重从 HuggingFace 下载：30B mini 版对 A100 单卡友好，235B 版需要多卡。

作为 API 集成

项目提供标准接口，可以把 MiroThinker 作为研究工具集成到自己的 Agent 系统中，替代原有的搜索 + 摘要流水线。

这个基准由 OpenAI 设计，用来测试模型在"需要多步搜索和推理才能回答的问题"上的能力。

典型题型：找到某个科学论文被引用的确切上下文、验证某个历史事件的具体细节、追踪某个开源项目从哪一个 commit 开始引入了某个特性。

GPT-5-high 在这个基准上的成绩约为 50-60 分区间，MiroThinker-H1 的 88.2 已经远超。对于开源模型来说，74.0 是此前从未达到的水平。

大多数 AI 产品在"搜索 + 摘要"上停下了脚步。MiroThinker 的方向是让模型真正会做研究——不只是检索，而是验证、推理、迭代。

30B 版本在中文任务上的表现尤其值得注意：参数只有头部商用模型的零头，却在中文网页信息检索上取得了当前最好的开源成绩。这意味着本地部署、低成本使用不再是退而求其次的选项。

MiroVerse 训练数据集也同步开源，研究社区可以直接基于此做进一步微调和改进。