新闻资讯

蚂蚁灵波开源流式三维重建模型,普通摄像头就能实时重建场景

更新时间:2026-04-20 09:51

摄像头,就能让机器在视频采集过程中,实时完成相机位姿估计与场景三维结构重建,填补实时空间感知领域的关键技术空白,为机器人、自动驾驶等场景提供更可靠的空间理解能力。持续开源多款模型:补齐实时三维建图关键拼图

重要突破最近降临于三维重建技术,一种具有创新性的技术进展。蚂蚁灵波于4月16日做出了一个重要行动,有一个名为Map的流式三维重建模型被正式开源。这一模型具备独特特性,仅需一颗普通RGB摄像头。凭借此摄像头,机器便能在拍摄视频期间,实时地完成场景三维结构重建这一过程。这项技术达成了一个关键成果,填补了实时空间感知领域的关键空白。

传统三维重建的痛点在哪里

以往的三维重建技术大多运用“先采集后处理”的工作方式,设备得先拍摄诸多视频画面,待拍摄结束后才可将数据交付给计算机予以处理,整个进程或许需耗时几个小时乃至几天时间,这种模式对于那些需要即时作出反应的机器人或者自动驾驶汽车而言是全然不适用的,原因在于它们必须在行进过程当中就领会周边环境。

传统方法存在着硬件门槛高这般的问题,诸多高精度的三维重建方案得依靠深度摄像头、激光雷达等价格昂贵的设备,一台激光雷达的成本或许就要好几万元人民币。普通的消费者或者中小型的开发者根本承担不起如此的硬件投入,这极大地限制了三维重建技术的应用范围。

Map模型如何实现实时重建

“Map模型”,采用的是纯自回归式建模方法,其核心在于无需信赖未来帧的相关信息。具体来讲,当摄像头摄取到第1秒的画面之时,该模型便马上对这一秒的场景信息予以分析,进而估算出相机位置;到了第2秒的时候,模型又会将第1秒的历史数据融入进去,持续展开分析,整个过程恰似人眼观看事物那般自然而然且流畅。这样样的设计使得系统着实达成了“所见即所建”呢。

为提升效率,模型引入了几何上下文注意力机制。该技术可智能筛选,判别哪些历史画面信息值得保留,哪些能够丢弃,进而大幅减少重复计算的工作量。于ETH3D标准测试里,Map模型的重建F1分数达85.70分,比第二名的78.90分高出超8个百分点。

性能数据全面领跑行业

在多个权威基准测试上,Map模型有着优异的表现,于ETH3D、7-Scenes、Tanks and Temples等主流数据集当中,不管是相机位姿估计精度这儿,还是那三维重建质量方面,Map均全方位超越了现存的流式方法,尤其在大尺度场景以及复杂光照状况之下,该模型的稳定性优势愈发显著。

实时处理具备每秒达20帧的稳定输出能力,当机器人以使每秒1米的速度行进时,Map模型能每0.05秒就对周围环境三维地图予以更新,对于需避障的扫地机器人来讲,如此的响应速率足以使其及时避开陡然出现的玩具或宠物,对自动驾驶汽车而言,这等同于在时速60公里时每0.83米就能实现一次路况感知的刷新。

应用场景覆盖多个领域

机器人导航以及避障,是在应用场景方面,对于Map模型而言最为直接的体现,就像在仓库里开展工作的自动搬运机器人,以往是需要预先对整个仓库环境进行扫描才能够运行的,而如今只要装上普通摄像头,便能够在行进的同时完成建图,就算遇到临时情况下堆放的货物,依然可以实现路线的实时调整,在2026年3月的时候,杭州有一家物流公司针对基于Map模型的搬运机器人展开了测试,其碰撞事故率下降了67%。

这种实时重建能力在自动驾驶领域同样是需要的。传统的自动驾驶系统是依赖高精地图的,然而高精地图更新一回或许要耗费一个月的时间,可道路施工或者临时交通管制却是每天都有所发生的。Map模型能够使车辆对路面变化进行实时感知,像是北京在2025年试点应用的智慧公交,便是借助类似技术成功识别了临时设置的公交专用道。

开源策略推动技术普及

从2026年1月起,蚂蚁灵波持续开源多款空间感知模型,除最新的Map模型外,此前已开源用于物体识别、路径规划等功能的多个基础模型,这些模型全托管在GitHub和Model Scope平台上,开发者能免费下载代码及预训练权重以进行二次开发。

降低硬件门槛,以使更多中小团队能够参与创新,过去若要进行三维重建研究,实验室起码得配备价值5万元以上的深度相机或者激光雷达,如今使用普通的USB摄像头,成本不到200元便能着手开发,深圳有一家创业公司在Map开源后的三天之内,就借助它打造出了一个实时建模的无人机原型。

未来发展与社区期待

当下,Map模型方面的代码跟文档已然全部开放了,开发者能够于GitHub之上搜寻“AntMap”进而找到项目主页,文档里给出了从环境配置直至模型训练的整套教程,蚂蚁灵波团队宣称,往后还会不断优化模型在弱纹理场景当中的表现,像纯白色墙壁或者光滑地板之类的场景。

于社区反馈而言,所显示的情况是,对于开发者来讲,最为关注的是移动端部署能力。尽管Map模型于桌面级GPU之上已然实现了每秒能有20帧的处理速度,然而在手机或者嵌入式设备方面,依旧是存在着可优化的空间的。有开发者进行了尝试,尝试在树莓派5之上运行轻量化版本,当前能够达到每秒8帧的处理速度,而这样的速度,对于简单的机器人项目来说,已然是够用的了。

那你觉得,Map模型开源之后,普通消费者将在哪些场景里头,第一个察觉到三维重建技术所带来的改变呢?欢迎于评论区去分享你的看法,点赞并收藏此文章,好使更多开发者能够看到这项技术的进步。