新闻资讯

AI游戏视频音乐三大顽疾,中国全模态模型一次解决

更新时间:2026-03-29 13:37

AI游戏、AI视频、AI音乐,三条最火的AIGC赛道,三个最深的行业顽疾。世界模型最大的瓶颈不是算法,是数据。以前的AI视频都有一个毛病,先生成画面,再找另一个模型配音。三个模型是三把尖刀,分别插入游戏、视频、音乐三个百亿级内容产业。

你可曾尝试在由AI生成的游戏世界当中行走一分钟,随后回头一望,房子已然不见踪影,路灯的位置也发生了变换?这往昔乃是令无数开发者为之头疼不已的“世界模型失忆症”。然而当下,天工AI携带着Game 3.0、视频大模型V4以及音乐大模型V9一同闪亮登场,径直闯入世界第一梯队,攻克了这一世界级难题。

世界模型终于长了脑子

先前的世界模型仿若一位重度失忆之人,角色跑动三步,地平线便会发生扭曲,转身之际,房子会凭空不见。究其实质,乃是由于互联网视频仅存有画面,缺失相机位姿以及操作指令,致使AI无法从中领悟“我按下方向键后,世界理应产生何种变化”的因果关联。

做出全球首个多人世界模型的天工AI首席科学官谢赛宁,以开源的上一代Game 2.0作为技术底座,他们另辟蹊径,从3A游戏里全自动提取动态交互数据,实现7×24小时无人值守,持续产出TB级数据,为模型提供了学习的“教材”。

三层技术锁死长时序记忆

模型,在当前画面生成的进程当中,并非仅是着眼于最近的几帧情况,而是会凭借相机位姿,去检索出更为早期的那些“记忆帧”,并且专门选取了与当下视角存在关联的部分内容,将其放置于同一个注意力空间里,进行联合建模操作。这一行为,就如同给AI配备了长期记忆一般,使其不至于在行进几步之后,便忘却了先前的模样。

在长时序生成里,模型会渐渐偏离真实状态,3.0于训练时就明确地对生成结果与真实帧之间的误差进行建模,并且将误差当作条件再度注入,这样的做法逼迫模型大量接触“已然跑偏”的状态,迫使它学会自我矫正,往后不会再出现走两步就变得面目全非的情形。

5B轻量模型跑出40帧实时生成

要使得具备5B参数的模型,在720P分辨率的情况下,能够跑到40FPS实现实时生成。仅仅拥有良好的架构是不足够的,还必须要把推理的步数给压减下来。天工团队借助技术方面的优化,当三层技术叠加满之后,5B轻量模型便具备了720P、40FPS的实时生成能力,达成了分钟级长时序一致性。

被进一步提升到极致的更大的MoE-28B模型,在泛化性以及动态表现方面实现了更进一步的提升状态,该模型针对第一人称与第三人称的情况分别开展独立动作模型的训练工作,并使其共享同一个视觉细节模型,这一情况包含着如此一种潜在可能得以实现,即为既能够开展沉浸式第一人称探索工作,又能够进行第三人称游戏视角的运行操作,并且能够生成时长大约为60秒的内容。

音画同步不再是事后补丁

以前AI视频存在这样一个问题,先是生成画面,而后再找另外一个模型来配音,结果往往出现这样的情况,当男主做出回应的时候,背景音乐的节奏根本无法契合画面呈现出的情绪点。V4自主研发了一套双流MMDiT架构,视频以及音频在同一个模型内部借助双向交叉注意力同时进行生成。

从起始的第一帧开始,音画便处于完全同步锁定状态,哪怕是存在多个角色的对话场景,也能够顺利流畅地运行通过。正面与反面切换镜头,台词的合理分配,表情的精准匹配,均可自动完成,不管是中文、英文、法文还是日文,多种语言都能适用。同一组框架,还涵盖了去除水印、去掉台标、删除或者增添角色等后期编辑操作,对于影视后期工作而言,这些统统都是必不可少的需求。

音乐模型让创作控得住

在前一代当中,V8凭借自行研发的Music Chain-of-Thought技术,于音乐模型的榜单之上,同时斩获了人声以及乐器这两项的冠军,将Suno V4.5还有Udio给碾压了。以往的时候,对于AI音乐而言,最让人感到抓狂的并非是“能不能生成”这个问题,而是在于生成之后却无法进行有效控制,歌词落点无法精准地落到正确的段落,并且人声声部演唱的时候也无法准确地抓住重点。

V9达成了段落级歌词语义把控更为精准,人声并非仅仅是“唱出来”,而是“唱对了”,混音的质感更为通透,产生的速度更为迅速。当AI致使音乐创作从“少数专业人士的低频行径”转变为“所有人的高频表述”,音乐便不再只是被动接受的内容,而是一种全新的自我表达话语。

全模态时代已经来了

2023年时,天工大模型1.0发布之际曾遭质疑,到了2027年,那是生态爆发之年且全面开放,再往后至2028年这个平台经济年,三大平台朝着全球头部冲击,天工AI居然在游戏这一赛道、视频这一赛道、音乐这一赛道上同时达成登顶;这统统指向一件更为重要之事,即中国AI企业具备构建全模态技术体系的能力,并非仅仅在某个单点上去追赶。

三大场景的大模型,加上天工超级智能体,三把尖刀,分别插入游戏、视频、音乐,这三个百亿级的内容产业。按照周亚辉的说法,模型是引擎,平台是工厂,创作者是老板。天工AI所要做的,不只是模型提供商,而是AI创作者经济的平台运营者,要把最顶尖的能力开放出来,使得开发者、创作者以及合作伙伴,都能够从中受益。

当你于由AI生成的世界之中行走一分钟后再回过头来,房屋不会出现消失的情况,路灯不会变换所处位置,整个世界维持着原本的样子,这般体验你是否想要马上着手尝试一番呢?