新闻资讯
4月16日阶跃星辰发布新一代语音生成模型StepAudio 2.5 TTS
TTS,官方号称人人都能是配音导演。阶跃星辰官方表示,该语音合成模型首次将语境理解能力引入语音生成全流程。不是念文本,而是演文本。支持以下核心能力:附官方演示网址如下:
还在对游戏里那些声音有着多样变化、情感特别丰富的配音感到羡慕不已吗?如今普通的人也能够以轻松的状态做出具备专业级别水准的配音作品了。在4月16日这一天,国内的AI公司阶跃星辰发布了新一代的语音生成模型2.5 TTS,官方直接喊出了“人人都能够成为配音导演”这样的口号。
这台AI能听懂你说话的真感情
从前那个AI配音最为突出的问题在于,呈现出如同读课文一般毫无情感的状态。阶跃星辰2.5 TTS破天荒地将语境理解能力融入语音生成的整个过程之中,至此,AI不再是以单纯的方式念出文字,而是依据上下文所潜藏的意思去“演绎”文本了。
例如你输入一句言语,即“我真的服了你了”,于不同场景之下,AI会进行判断,其判断方向是生气,亦或是无奈、撒娇。在2026年4月16日发布当天,官方演示网页之上,就展示了这段展现对话场面,AI的表现是能够依据前后文,自行去调整语气以及停顿。
此项功能借助的是全局语境以及文中语境双档控制技术,全局语境能够令你设定整个段落的风格基调,诸如“悬疑故事旁白”或者“儿童故事讲解”,文中语境是针对句子内部逻辑而言,像是问句结尾会自然上扬,感叹句会加重情绪。
零成本复刻明星或自己的声音
这款模型的另一个杀手锏是零样本音色复刻,你仅需提供三至十秒的录音样本,人工智能便能学会该声音的特点,进而用其读出任何全新文本,无需耗费时间训练模型,上传声音即刻便可使用。
这表明,你能够将自身家人的声响制作成导航语音包,又或者模拟某位电影明星的声音去朗读睡前故事。当然,官方于演示网页之上也向用户作出提醒,运用他人声音需要获取授权,以防侵权纠纷的发生。
特别有用的是这项技术,对于短视频创作者而言,比如说,你平时拍摄生活vlog的时候,要是不想自己出镜配音,那么就能够录一小段自己的声音,从而让AI去帮你朗读长篇文案,依据统计,当前国内短视频平台每天新增数量超过200万条的配音类内容,这表明市场需求是非常巨大的。
小说朗读终于有了专业水准
在语音合成技术诸多应用场景里,有声书市场属于其中极为重要的一个。传统AI朗读小说之际,无法清晰分辩角色对话以及旁白,而所有句子的语调都是单一的。阶跃星辰2.5 TTS能够依据文本里的引号、感叹号、问号,自动实现声线以及情绪的切换。

比如进行一段对话的朗读:“你凭什么管我?”,李雷愤怒地大声喊道。AI会将引号内的那部分内容读出含质问的怒气,旁白的部分则运用中性叙述的语气。要是小说当中存在多个角色对话的情况,AI还能够凭借上下文去判断当下正在说话的到底是谁,并且维持角色的音色一致性。
当前,喜马拉雅、懒人听书等平台每日上线的有声内容时长超过5000小时,然而,专业配音的人力成本颇为高昂,一小时的成品报价处于300元至800元之间。运用AI配音能够将成本降低至10元以内,如此一来,中小型内容制作方终于能够负担得起高质量有声读物了。
游戏和动画制作效率翻倍
另一个受益群体是独立游戏开发者以及动画工作室,以往要是有个小型游戏,其中存在10个NPC角色,每一个角色,都需要寻觅不同声优去试音以及录制,仅仅是配音这一项成本,就极有可能占据项目预算的三分之一。

现今运用阶跃星辰2.5 TTS,制作人能够先行设定各个角色的性格标签,像是“暴躁的矮人战士”,还有“温柔的精灵公主”。AI会依据标签自行生成契合人设的语音,倘若不满意,随时能够调整参数再度生成,无需重新预约棚子进行录音。
北京有一家独立游戏工作室,工作室中的负责人、名为刘伟的人,向媒体透露了一些情况,情况是他们在4月17日的时候就得到了内测资格,原本按照常理需要两周时间才能够完成的角色配音工作,因采用新模型仅用两天就完成了,并且新模型所呈现出的情绪表达比之前寻找的兼职声优表现得更加到位,效率提升幅度超过5倍,成本的降幅高达90%。
个人播客和自媒体轻松开张
如若想要去做一档音频播客,然而却忧心自己声音不太好听,如今这全然不是个问题。阶跃星辰2.5 TTS能够支持你上传自己所撰写的稿子,还能让你挑选喜欢的音色类别,像“温暖知性女声”“沉稳磁性男声”这样的,随后 AI 则会助力你朗诵一档完整的节目。

更关键的是,你能够随时对稿子予以修改,并且重新进行生成,这与真人录音不一样,一旦出错便需要从头开始再来一遍。在2026年第一季度的时候,有数据展示说明,中文播客听众整体所达到的规模已然突破了2.5亿人,然而,积极活跃的创作者数量仅仅只有不到30万人,其中最为突出的门槛便是录音所需用到的设备以及配音所具备的能力。
小红书博主“小鹿讲科技”,对这款模型做了测试,在4月16日当晚,她上传了一篇800字的科技评论稿,AI在3分钟内生成了带情绪的朗读版,她将音频直接发到播客平台,当天,播放量竟超过5000次,评论区清一色都在夸赞声音好听。
企业客服和营销视频批量生产
电商直播以及营销视频,是要大量配音的。以往的话,一个时长为30秒的产品介绍视频,去寻觅配音员进行录制,得等待一天工夫,收费在50到100元这个范围。而运用AI模型,只需输入文案就能即刻生成,并且能够一次性生成涉及100个不同产品的介绍音频。
在客服场景当中,同样是能够从中受益的。像银行、保险公司所具备的电话客服系统,是需要预先去录制数量巨大的固定话术的。而阶跃星辰2.5 TTS呢,它能够实现实时合成语音的功能,能够依据客户提问的动态方面的内容进而生成回答,不会再受到预设录音的限制了。招商银行信用卡中心有消息传出,他们正在对这套系统进行测试以便用于账单提醒业务,并且计划在2026年7月的时候上线。
官方演示网页之上还显露出多语种能力,涵盖英语、日语、韩语等8种语言。这针对从事跨境电商直播的卖家极具价值,能够借由同一个人的声音念出各异语言的带货文案,维持品牌声音的一致性。
看过此番文章之后,你认为AI配音极有可能率先替代哪一行业的真人配音员呢?究竟是短视频解说,还是有声书朗读,亦或是游戏角色配音呢?欢迎于评论区去分享你的观点,可别忘了点赞转发以便让更多的人知晓这项全新的技术。


