DeepSeek-OCR2:赋予模型因果推理能力,革新图像阅读顺序

这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。这直接证明了新模型在处理复杂版面时,逻辑性更强,更懂「阅读顺序」。

处理图像时传统OCR模型如同流水线扫描,总是按从左到右、再从上到下的顺序机械地识别文字,完全对文档的语义结构予以忽略,这使得AI在阅读复杂表格或者分栏文档时错误频发,而Meta最新开源的OCR2模型将这一情况彻底改变了。

视觉因果流革新认知

传统视觉语言模型处理图像时会采用光栅扫描顺序,把二维信息强行弄成一维的样子,给压扁成一维这同一个序列,这种方式虽说计算起来简单,然而却破坏了文档原本自然正常的阅读逻辑,就像标题和正文之间的那种关联,还有表格中的单元格之间的对应关系之类的。

OCR2所引入的V2架构,将传统编码器用轻量级大语言模型予以替代,还设计出因果流查询机制,借此解决了这个特定问题,这种极具创新性的方式,使模型能够依据内容语义对注意力路径进行动态调整,从而模仿人类那种跳跃式的阅读习惯。

V2架构核心设计

V2,是由两部分构成的,一部分是视觉分词器,另一部分是LLM编码器。视觉分词器是基于有着80M参数的SAM模型的,它的职责是把图像像素转变为视觉标记。而这些标记,保留了图像的空间信息,从而为后续的处理提供了基础。

重要的创新之处在于,采用Qwen2 - 0.5B当作视觉编码器。这个规模较小的语言模型,不但能够处理视觉标记,而且还引入了能够学习的查询标记。借由特别的注意力掩码设计,达成了语义感知的信息重组。

注意力机制突破

V2运用两级注意力机制,视觉标记间运用双向注意力,以此维持全局感知能力,这类似视觉Transformer的运作形式,查询标记采用因果注意力,每个查询仅能看到先前的标记。

这般设计达成了级联因果推理,编码器先是针对视觉标记开展语义重排,随后解码器于有序序列那儿进行自回归推理,信息于编码阶段便被梳理妥当,并非毫无秩序地传送给解码器。

性能显著提升

实验得出的数据指示,OCR2在维持高压缩率之际,其性能有着大幅的提升,于被称为DocVQA的基准测试当中,仅仅使用256~1120个视觉意义上的标记,达到了具备91.09%综合准确率这种情况,相较于前代而言,是提高了3.73%的,阅读顺序的编辑距离从0.085降低到了0.057。

于文档解析任务里,OCR2运用1120个视觉标记之际编辑距离是0.100,此表现优于GPT - 3 Pro的0.115,这证实开源模型于专业任务方面能够达成闭源模型的水准。

实际应用价值

于生产环境里头,OCR2展现出卓越表现,在处理在线用户日志图像之际,结果重复的比率从百分之六点二五下降至百分之四点一七,于PDF数据生产的场景当中,重复比率从百分之三点六九降低至百分之二点八八,这表明所生成的文本变得更为干净且精准。

关于大语言训练数据清洗的流水线,这般改进具备极大价值。更为精准的OCR输出,意味着会有更高质量的训练数据,会且径直去影响下游AI模型的性能表现。

迈向多模态统一

OCR2对LLM作为视觉编码器的可行性做了验证,这可不是一般的,属于OCR模型的升级,而是确实朝着原生多模态迈进的关键重大 steps,在未来,同样一套编码器要是配备不一样的查询嵌入这些东西的话,就能够针对文本,还有图片,包括音频等好多不同类型的数据进行处理。

Meta团队宣称,尽管OCR属于当下最为实用的视觉任务,然而这仅仅是视觉理解宏大景象的一小部分,他们会持续展开探索,朝着更具通用性的多模态智能迈进。

您觉得,这种因果推理能力所达成的突破,于未来而言,会在哪些实际的应用场景当中,带来最为显著的改变呢?欢迎于评论区之内,分享您自身的看法,要是认为本文具备价值,请进行点赞给予支持,并且分享给更多的同行。