DeepSeek 发布多模态大模型，提出创新推理框架破空间参照瓶颈

该报告提出了一种基于“视觉原语”的创新推理框架，旨在突破当前多模态大语言模型（MLLMs）在空间参照任务中的核心瓶颈。当模型需要执行涉及严谨空间参照的任务时，这种语言表达的局限性往往导致推理链条断裂，出现逻辑崩溃。技术报告披露，该框架采用了高度优化的模型架构，具备极高的视觉标记效率。

你可曾碰到过这般状况：去让AI叙述一张照片里物体所处的位置，它要不回答得模模糊糊，要不干脆逻辑一团糟？这正是当前多模态大模型所面临的关键痛点之处。

2026年4月30日，有一家AI平台，其正式发布了自己的多模态大模型，并且公开了详细的技术报告，这份报告提出了一种全新的推理框架，该框架名为“基于视觉原语的思考”，其目标直接对着当前模型在空间参照任务里的根本缺陷。

现有模型的致命短板是参照鸿沟

主流多模态大语言模型，虽进步速度极快，技术报告指明，却主要依赖链式思维推理，此推理方式本质上是语言学导向的，即靠文字描述去解决问题，在面对需精确空间定位之一系列情况的时候存在大问题：究其根本来讲只因语言内在固有属性乃是具备模糊之处的缘故。

用自然平常的语言去确切精准地描绘像“左上角偏右3厘米”这般的位置方面的信息，是存在很大难度的。当下现有的众多研究，大多是聚焦于提高图像的分辨率，朝着改进裁剪相关技术的方向努力，意图以此来缩小所谓的“感知鸿沟”。然而呢，有一个情况是这家团队里的专家觉得大家有忽略掉的，那就是存在着一个更为基础根本的阻碍，也就是“参照鸿沟”，这个“参照鸿沟”指的是语言在根本上是没办法精准无误地表达空间之间的关系的。

DeepSeek 发布多模态大模型，提出创新推理框架破空间参照瓶颈

视觉原语成为思考的基本单元

提出新框架的这家团队，彻底改变了思路，他们将本只是视觉输入元素的空间标记，像点、边界框等，提升成了模型推理时的“基本思维单元”，这就意味着模型再也不单纯依靠文字展开思考，而是能够直接对视觉元素加以操作。

凭借把视觉原语嵌入至模型思绪脉络之中，模型获取到了实实在在的 “指代” 能力，简而言之，也就是模型能够将抽象的剖析成果，径直对应于图像里的特定坐标位置，这般设计致使模型于处理空间关系之际，能够仿佛人类那般，借助手指着图上的物体来予以推理。

高效架构带来惊人性能表现

技术报告透露，这个全新的框架运用了经过高度优化的模型架构，视觉标记的效率相当之高。虽说模型自身规模紧凑，所使用的图像标记预算相较于其他大型模型也显著更低，然而测试的结果却让人颇为惊讶。在具备挑战性的计数以及空间推理基准测试当中，它达成了顶级的水准。

精确来讲，这个紧凑样式的模型，能够跟GPT - 5.4、Claude - 4.6以及Gemini - 2 - Flash等处于行业前沿的模型相抗衡，这表示运用较少的计算资源，便能够达成同样或者更为出色的空间理解能力，专家觉得，这为研发更高效、更具备可扩展性的下一代多模态智能点明了方向。

识图模式已经上线可用

需要留意的是，这家平台在之前就已然上线了“识图模式”，此模式与“快速模式”“专家模式”相并列，并非单纯的字元识别，它表明平台终于拥有了切实的复合型识别能力，并且此次推新上市的型号和推导架构，刚好是在这个根基上而言的一大显著更新。

目前，普通用户能够体验到此项新能力。倘若你上传一张含有多个物体的照片，接着询问物体之间的位置关系，该模型便能够给出基于精确坐标的回应。像“水杯在笔记本的右侧约5厘米处”这般具体的表述，而非“水杯在笔记本旁边”这种模糊的说法。

实际应用场景非常广泛

多项行业都能从这项技术获取直接价值，于机器人导航范畴，机器人要精准领会环境里的空间关联方可达成抓取、避障等任务，于自动驾驶领域，车辆得确切判定行人、车辆以及路标的相对位置，于增强现实应用当中，虚拟物体务必精确锚定至现实世界的坐标之上。

DeepSeek 发布多模态大模型，提出创新推理框架破空间参照瓶颈

电商平台的商品识别领域会受益，医疗影像分析领域也会发挥作用，工业质检等领域同样会从中获得好处。举例来说，当医生查看CT影像的时候，AI能够精细准确地指明病变区域的具体位置坐标，并非仅仅表述“右上肺有阴影”。这样的精确性可以极大地提高工作效率，并且提升决策的准确性。

重新定义多模态推理方向

在这项研究里，其最大的贡献之处在于，它将当前多模态模型中一个被业界忽视的瓶颈给揭示了出来。在过去的两年时间当中，业界一直都在竭尽全力地去增加图像分辨率以及标记数量，想着凭借“看得更为清晰”这种方式来把问题给解决掉。然而，这家团队却证实了，仅仅只是看得清晰是远远不够的，最为关键的是要能够做到“指得精准”。

新框架所取得的成功显示出，往后的多模态模型应当同时拥有两样能力，即感知细节以及空间推理。并且，推理活动必须构建于可视化的空间标记之上，而非纯文本的逻辑链条。此项发现或许会对整个多模态大模型的发展路线图予以改变。

你看完这篇文章后，会认为处于自动驾驶、机器人或者医疗影像这些应用场景里，哪一个行业是最需要具备这种能够精确理解空间关系的AI能力的呢？欢迎于评论区分享你的看法，同时也不要忘记点赞以及转发给身旁对AI技术感兴趣的朋友。

DeepSeek 发布多模态大模型，提出创新推理框架破空间参照瓶颈

现有模型的致命短板是参照鸿沟

视觉原语成为思考的基本单元

高效架构带来惊人性能表现

识图模式已经上线可用

实际应用场景非常广泛

重新定义多模态推理方向

相关文章

紫光展锐发布端边AI芯片平台N9系列及Agentic AI底座技术

AlphaEvolve发布一年，实力惊人，已成谷歌核心设施一部分

马斯克诉奥尔特曼案披露：微软与OpenAI早期AI合作内幕

马斯克官宣xAI解散并入SpaceX，Grok何去何从？