为什么这个模型值得关注

全球约 90% 的组织数据以文档形式存储。要把这些 PDF、扫描件、幻灯片变成 AI 能理解的结构化数据,OCR 是绑不开的一环。Mistral OCR 不只是识别文字,它能理解文档中的每一个元素——图片、表格、数学公式、复杂排版——然后输出有序的 Markdown,图文交错,结构完整。

这意味着你可以直接拿它的输出喂给 RAG 系统,不用再花大量时间做后处理。

核心能力

  • 复杂文档理解:支持 LaTeX 格式、数学公式、图表、表格等混合排版,科研论文这种高难度场景也能搞定
  • 原生多语言:支持数千种文字、字体和语言,中文识别的模糊匹配得分高达 97.11,远超 Azure OCR 的 91.40
  • 图文联合提取:不只提取文字,还能把文档中嵌入的图片一并提取出来——其他 LLM 方案目前做不到这一点
  • 结构化输出:支持 Doc-as-prompt 模式,可以直接获取结构化的输出结果
  • 私有化部署:对处理高度敏感或机密信息的组织,提供自托管方案

Benchmark 数据说话

在内部"纯文本"测试集上的对比(包含各类论文和网页 PDF):

模型 综合 数学 多语言 扫描件 表格
Google Document AI 83.42 80.29 86.42 92.77 78.16
Azure OCR 89.52 85.72 87.52 94.65 89.52
GPT-4o 89.77 87.55 86.00 94.58 91.70
Gemini-1.5-Pro 89.92 88.48 86.33 96.15 89.71
Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

每个维度都是第一名,而且不是微弱领先——数学场景比第二名高了近 6 个百分点,表格场景高了 4 个百分点。

多语言模糊匹配的整体得分:

模型 得分
Google Document AI 95.88
Gemini-2.0-Flash 96.53
Azure OCR 97.31
Mistral OCR 2503 99.02

速度和价格

这个模型比同类方案轻量得多,单节点每分钟可处理 2000 页。定价是 1000 页/美元,批量推理大约能翻倍到 2000 页/美元。

API 模型名称是 mistral-ocr-latest,已经在 la Plateforme 上线,后续会上各家云平台。

实操建议

如果你在做文档处理相关的产品——知识库、合同分析、论文阅读器——Mistral OCR 值得立刻试一下。特别是搭配 RAG 管道的场景,它的图文混合提取能力省掉了大量预处理工作。可以从官方提供的 Colab notebook 入手,跑一遍结构化 OCR 的示例,体感会很直观。有个细节值得注意:它是目前少数能从文档中同时提取嵌入图片和文字的方案,这对处理幻灯片和图文混排的 PDF 来说是刚需。