AI资讯

法国Mistral AI推出OCR 4文档识别模型,多语言表现出色

智能摘要

的定位并非追求参数规模,而是一个专精于文档识别的高效模型。它在输出识别文本的同时还能提供边框定位、区域分类及置信度评分,可广泛支持RAG语义分块、智能体结构化基本单元、连接器结构化内容等多种下游工作负载。

小模型大能量,专为文档识别而生

于本月23日推出最新文档内容识别模型OCR 4的法国人工智能初创公司AI, 在光学字符识别领域引发了广泛关注, 这款模型被定位为小型聚焦模型, 其参数规模不大, 然而却能在多个权威基准测试中呈现出惊人实力, 它的核心卖点并非在于大而全, 而是在于专而精。

OCR 4输出识别文本之际, 还能够给出边框定位、区域分类以及置信度评分等诸多详细信息, 这表明它并非仅是一个文字识别工具, 而更近乎一个全面的文档解析引擎, 对于那些需要处理大量文档的企业用户而言, 这些功能能够极大程度地削减后续的人工核对工作量。

法国Mistral AI推出OCR 4文档识别模型,多语言表现出色

170种语言覆盖,多语族无障碍

OCR 4对横跨10个语族的多达170种语言予以支持, 这般覆盖范围于同类产品里颇为少见, 不管是常见的英语、中文、法语, 还是相对小众的少数民族语言, OCR 4均可达成高精度识别, 在权威基准测试当中, 它获得93.07分, 成绩显著。

更值得予以关注的是, 在针对人类评审的盲测对比情形之下, OCR 4的输出质量被判定为要比GPT 5.5 Pro、3.1 Pro等一众竞争对手更具优势。这也就表明了, 在实际的真实应用场景当中, 用户对于OCR 4的识别准确率以及排版还原度更为认可, 而非仅仅单向地依赖模型参数的大小。

定价透明,批处理有优惠

OCR 4的API定价采用按使用量计费的模式, 其基础调用是每千页4美元。要是采用批处理方式, 用户能够享受50%的折扣, 实际价格会降到每千页2美元。文档人工智能的定价是每千页5美元, 价格之间的差距不大, 不过功能侧重有所不同。

有这样一种定价策略, 它面向的是企业级客户, 尤其是那些每日需处理数千乃至数万页文档篇章页数更多了的公司企业公司。按照每千页2美元的批处理价格来计算, 鉴于文档页数这么多, 大规模使用时成本能够得到控制, 这对中小企业来说有帮助, 能让它们也具备承担购置先进文档识别服务的经济能力。

覆盖多种下游任务,应用场景丰富

对于致力于开发智能文档处理系统的团队来讲, OCR 4能够被直接当作基础模块嵌入现有的工作流, 比方说, 企业能够借助它去自动化地进行合同归档工作, 或者提取发票上的关键字段, 又或者构建知识库的索引, 它还能够广泛地对多种下游工作负载予以支持, 包括RAG语义分块、智能体结构化基本单元以及连接器结构化内容等。

于实际运用当中, 某大型物流企业已开展测试, 把OCR 4用于识别多语种运单, 其识别准确率相比于传统方式提高了约15%。这表明此款模型在处理真实业务痛点方面拥有显著优势, 并非仅仅局限于实验室数据层面。

从通用模型向垂直赛道延伸

AI是欧洲AI领域里极具代表性的初创公司当中的其一, 在此之前凭借着开源跟闭源同时存在的模型策略在全球市场上凸显出优势。这次推出OCR 4, 把公司能力从通用大语言模型朝着文档智能处理这个垂直赛道进一步扩展。这让它能够直接和Google、微软等巨头在基础工具层进行竞争。

选择聚焦文档识别的AI公司, 所看中的是这一细分市场具备的高增长潜力, 依据行业报告, 全球文档处理软件市场在2025年时的规模已然超过80亿美元, 预计接下来的五年当中年均增长率将会维持在12%以上, OCR 4的推出, 恰恰是为了抓取这一蓝海市场的先机。

未来竞争格局,技术迭代是关键

随着OCR 4发布, 光学字符识别领域技术门槛进一步被拉高, 其他竞争对手必然要在支持语言数量方面加速迭代, 在识别精度方面加速迭代, 在输出质量等方面加速迭代, 对于最终用户而言, 这意味着未来可以期待更多选择, 意味着未来可以期待持续下降的使用成本。

然而, OCR 4当下仍旧有着一定程度的限制情况。比如说, 针对手写体的识别准确的程度却依旧存有需进一步提高的余地, 而且某些稀罕少见的字体同样会对输出的成效造成影响。AI公司宣称, 后续的版本会针对这些处于边缘位置的场景去开展优化工作, 与之同时还规划在今年秋季的时候推出能够支持实时视频流识别的升级版本。

你认为, OCR 4所具备的, 那多达170种语言的识别能力, 以及每秒能够处理千页的速度, 能不能在三年之内, 将传统扫描软件取而代之呢? 欢迎于评论区中, 分享你所持的看法, 点赞并且转发给身旁那些, 有需要处理大量文档的朋友!

相关文章