新闻资讯
机器人数据怎么省钱又保质?数据堂给出答案
2024年,特斯拉和OpenAI在机器人数据采集上,走了两条完全不同的路。因此,针对未来机器人真实的工作场景,Ego采集是最佳选择。数据堂的价值,本质上是:把「数据生产」这件事,从研发问题,变成基础设施服务。未来,机器人的差距,本质上是数据的差距。AI的发展——因为,数据正在重新定义机器人的未来。
2026年,AI真正的瓶颈已然从算法的计算能力转变成为数据的生产,谁能够以最低的成本获取到最多的真实训练数据,谁便能够在具身智能这个赛道上处于领先地位,数据堂近日给出了一个具备系统性的解法。
大脑小脑分层采集
一分为二的人类智能系统,其中小脑司职精细操控、毫秒级别的执行,大脑则承担高层规划、常识推理之责。具身智能亦需依循此逻辑进行复刻,搭建起“云端大脑 + 端侧小脑”这般的分层架构。与之相对应的数据采集方式存有场内与场外两类,它们分别肩负着不一样的使命。正是这种分层思维,使得行业由“选哪种采集方式”转变为“用什么数据训练哪部分智能”。
针对小脑训练而言,所需的是最为精准的力触觉反馈,于此情形下那最佳方式乃是真机遥操。并且只有借助真实机器人的交互,才能够为特定型号去打造稳定、可复现的肌肉记忆。而大脑训练所需的是海量的环境感知以及决策逻辑数据,其最佳方式是众包Ego采集。众包Ego采集呀,是从第一视角进行记录,无需真机就能快速覆盖各类真实场景。
场内采集专供小脑训练
场内所进行的采集,其核心价值并非在于数据具有通用性,而是在于能够做到精准适配,由它为特定系列的机器人去定制专属的执行能力,以此来保证机器人可以稳定、准确且快速地达成精细动作,这种采集方式遵循的是B2B重服务模式,具备高可控性以及稳定交付的特点,主要是为头部机器人厂商提供服务,一名熟练的采集员每天平均产出的数据量在200到500条有效数据之间,然而通用抓取模型训练所需的数据量却要在10万条以上。
场内的采集属于典型的那种重资产运营模式,其中机器人、场地、电力以及人力的持续投入,这直接决定了效率就是生命线。数据堂达成了设备管理、项目培训、质检交付的完整人员体系。借助真机遥操所获取的数据,与目标机器人高度契合,这里面涵盖了完整的力触觉信息,经过如此训练出来的模型能够直接应用到同型号机器人上,不需要额外进行适配。
场外采集支撑大脑通用化
1. 场外采集采用的是一种平台轻模式,它具备高扩张的特点,同时还具有广覆盖的特质。2. 其核心数据需求涵盖周边环境、决策逻辑以及实际人类操作这几个方面。3. 达成核心数据需求的最佳途径是运用众包Ego采集这种方式。4. Ego数据是在2025年底从硅谷兴起并传播到国内的采集方式。5. 它是从第一视角进行采集,并非爬取第三方视角的数据。6. 基于该采集方式是可穿戴设备这一特性,它能够较为轻易地进入家庭、商业等场景里面去采集数据。
以这种方式,成本能够得到控制,易于进行部署,不存在约束,且更接近人类自然的操作。数据堂借助自动化质检以及人工抽检机制来保障数据质量,可以迅速积累高质量、多场景的数据。最为适宜的方式乃是让专业人员佩戴设备,例如酒店整理员、厨师、物流人员于实际工作当中去记录,既具备真实性,又能够降低成本。多样化的场景极为重要,其不但涵盖各种静态场景,而且还涵盖各种动态干扰甚至失败情况。
两种方式各有适用场景
特斯拉所选用的重资产路线,乃是借助动作捕捉服以及虚拟现实头显,运用价格高昂的遥操作设备来采集具备高精度的数据。此种方式具备显著优势,然而设备部署需要单独的环境与空间,没办法便携地携带至千家万户的真实场景当中。动捕方案于虚拟数字人方面已然极为成熟,不过在具身智能采集中仍旧会碰到遮挡敏感等方面的问题。
学习合成数据以及第三视角视频,依旧没办法取代真实的物理交互。第三视角进行采集,其优势是成本低,能够批量开展,不需要去部署真实的机器人。然而数据缺少环境、行走决策等方面的信息,很难用来训练人形机器人,大多用于机械臂。Ego采集兼顾了成本与复用性,设备成本低,具有高便携性,数据能够跨机器人复用,贴近主流夹爪执行逻辑。
双轮驱动实现数据闭环
负责小脑训练的是需要真机数据,而大脑训练所需的则是Ego数据,此二者协同起来后便构成了具身智能数据采集的核心逻辑。其思考方式呈现出统一的状态,然而执行情况却是各不相同。在场地之内进行采集的话,会给特定的机器人提供专属的数据,于场地之外进行采集的话,能为所有机器人打造通用的决策能力,以此达成“一句指令,多种执行”的效果。这便是数据堂所提出来的“场内 + 场外双轮驱动”模式。
数据堂身为专业的人工智能数据服务提供商,倚仗十余年行业积聚成果,在国内成为具身智能数据服务范畴的核心标杆,他们把理论框架转变为能够交付、可以规模化、能够商业化的落地服务,从任务设计开始,经过真机采集、众包分发,再到多模态标注、质检交付,已然构成标准化流水线,比如位姿标注服务用于小脑训练,借助解算点云精准识别目标物体的六自由度位姿。
数据生产变成基础设施
在由算力、算法、数据所构成的AI三角里,算力与算法正逐渐趋于同质化。怎样去获取具备高质量、多样化、类人化以及低成本特征的训练数据,已变身成为提升AI模型性能的关键窍门。数据堂的价值,归根结底是要将“数据生产”这一事项,从研发方面的问题,转变成基础设施性质的服务。那些能够掌握分层采集方式、具备数据闭环以及标准体系的企业,最终将会主导下一代AI的发展走向。
具身智能要规模化实现落地这一情况,是需要有完整的数据来给予支撑的,数据堂借助设备管理以及相关维修、项目对应的管理、培训、质检、众包资源去进行拓展、场景资源开展拓展的这么一番人员体系,能够在短时期以内以低成本的方式采集到诸多真实场景下的数据,针对往后机器人实际的工作场景而言,Ego采集属于最佳的选择,数据此刻正在对机器人蕴含的未来加以重新定义,而数据堂正在为这个未来铺设道路。
你所开展的机器人项目,于数据采集这个过程当中,所碰到的最为突出的困难,究竟是“真机遥操成本过高”此一情况呢,还是“场景多样性不足够”这种状况呀?欢迎于评论区域分享你自身的经历,给予点赞并加以转发,从而让更多的同行能够看到这一篇具备干货性质的内容。
