京东开源实时视觉AI模型，能边看边说，交互更自然

最后更新时间：2026年6月23日 21:24 Zevo 20

智能摘要

能够面向正在发生的视频流进行即时处理，真正实现了画面变化与智能响应的同步。助手在执行复杂逻辑的同时，依然能维持与用户的无缝沟通。眼镜等产业级应用，这一开源方案都为开发者提供了一套极具竞争力的技术基座。

从被动等待到主动观察

从前, AI处理视频的情形如同学生得等老师提问才会回答问题, 得先上传视频, 等系统分析完毕才给出结果。这种模式在需要快速做出反应的场景里显现出明显的滞后状况。JoyAI – VL彻底改变了此种状貌, 它可以如人那般持续盯着视频流观看, 自主地判断什么时候该说话, 什么时候该保持安静。这种具备自主观察的能力, 使得AI从“答录机”转变成为了一个“主动的观察者”, 用户无需再先进行提问而后等待。

实时处理动态信息

于安防监控、直播解说或者存在远程操作指导的这些场景当中, 延迟哪怕仅有一秒都极有可能致使产生相关损失。传统技术需达成上传、展开分析以及予以反馈这样的流程, 所需消耗的时间成本过度高昂。JoyAI-VL 能够针对正在发生之视频画面进行同步处理, 画面出现变化与智能分析近乎是同时完成的操作。在 2025 年京东于杭州的物流园区所开展的测试过程里, 这套系统成功做到实时识别出货物存在堆叠异常的状况, 并且在 0.3 秒之内发出了预警信号。

京东开源实时视觉AI模型，能边看边说，交互更自然

后台委托机制让复杂任务不卡顿

当AI碰到要写代码, 遇到必须是复杂推理, 或者面临调用工具这类高难度任务之际, 常常得全身心投入, JoyAI – VL – 运用了“后台委托”机制, 该模型会将那些复杂任务分发给后台的Agent系统予以处理, 然而前台模型依旧持续盯着现场, 举例而言, 在2025年双十一的直播助手中, AI一方面给观众讲解商品细节, 与此同时后台自动生成商品代码, 两者互不干扰。

兼容多种视频输入源

这套模型不限定摄入内容, 摄像头、直播流、监控信号等视频源头皆可径直接入。开发者能够依据自身业务要求, 灵动更替ASR语音识别、TTS语音合成、长期记忆模块或者外部API接口呢。如同从事AI眼镜的团队那般, 能够直接将摄像头信号接入, 替换掉默认的语音模块, 达成定制化视觉交互。

盲评测试表现亮眼

于2026年第一季度的那个盲评测试里, 京东邀请了100名真实用户去进行测评, 将涵盖监控预警、实时翻译、时间感知等58个流式场景, 开展真人体验, 在这体验里JoyAI-VL-的总体胜率达到了83%, 此胜率相较于同类产品平均水平高出22个百分点, 特别是在高难度场景, 像是多人对话场景下视觉触发的交互方面, 其优势更为明显。

产业应用前景广阔

这套开源方案给开发者供给了十分强大的技术根基, 于安防监控范畴当中呢能够达成实时异常行为辨认, 在电商导购这方面呐那个AI能够一边对着用户所展示的商品观察一边给出搭配方面的提议, 在AI眼镜之上呀能够达成真正的“所见即所得”这样的交互, 在2026年6月的时候呐深圳有一家创业公司已然运用这套模型开发出了工地安全监测设备, 并且成本降低了40%。

难道你不认为那所谓的AI实时视频交互技术, 在往后的日子里最有着可能率先在哪个行业得以广泛普及吗? 乐意的话欢迎于评论区域之内分享出属于你的看法, 为其点赞并且进行转发以便让更多的人能够知晓这一技术突破情况。

四台Mac Studio跑万亿模型！LM Studio让本地AI算力不再是梦

AI写作平台Writingtools.ai升级，终结营销及创作者发布困扰

英特尔联合头部企业发布‘AI家庭大脑’，智能家居迎突破

中小商家海报设计难？开源AI工具分钟级生成商业级海报