音频局部编辑神器:只改指定词句,其他不变
实现了真正的局部修改:你可以指定某一个词、某一个短语进行独立重新生成,而音频的其他所有部分——包括音色、节奏、背景底噪、前后文的情感连贯性,全部保持绝对稳定!传统的语音克隆,你需要提供一段说话人的音频,以及对应的准确文字内容。
真正颠覆的核心能力是片段级定向编辑
曾经那时, 你若想要更改配音之中的一个词语, 那就必定得将整段内容重新去进行生成, 如此一来, 时长、情绪以及呼吸等方面就全都乱了套。然而当下, 这项技术能够让你仅仅针对那一秒去做出更改, 而前后却全然不会发生改变。就好比是一段英文演讲, 你把中间的某个单词替换成别的词汇之后, 重新生成出来的效果, 演讲者的拖音、呼吸节奏以及情绪起伏是完全一模一样的。这般情况直接就把影视后期以及有声书录制过程里最为让人头疼的痛点给解决掉了——也就是补录成本高昂、周期漫长。
对影视后期和有声书是革命性改变
于影视后期之时, 导演若欲更改一句对白, 往昔之时需再次邀请演员进入棚内进行补录, 又或者耗费数小时以手动进行剪辑。目前呢, 你能够直接在时间线上确定位置予以修改, 这就如同修改字幕那般简易。长达几十小时的音频, 其修音时间从数天被压缩至几十分钟。在录制有声书时, 要是专有名词录错了, 亦或者出现口误的情况, 也无需重新录制整章, 仅仅只需针对那一两秒进行定向修改。其音色以及呼吸节奏始终维持着一致。
短剧出海从此不再头疼多语言问题
短剧向巴西、中东等小语种市场进行出海, 传统的做法乃是重新寻觅当地配音演员进入棚内进行录制, 其成本高昂, 周期漫长。如今你纯粹只需于原始录音之上替换特定用词, 便能够产出多个语言版本。每一个版本的听感皆如同原生表演一般, 不存在机器感。这背后是技术团队处于底层架构方面做出的反常识选择, 有别于市面上的主流自回归模型。
自回归模型做不到局部编辑
当下最为火爆的语音模型, 多数采用自回归架构, 是逐帧进行生成的, 其目的在于预测下一个Token究竟是什么。这种模式所具备的好处是合乎情理的, 然而其致命的弱点则在于不能够进行局部编辑。要是你改动中间的一个词, 那么后续所有的Token都会随之发生变化, 这是由于存在链式反应的缘故。另外, 逐帧生成致使推理延迟较高, 对于长文本而言容易出现瑕疵。研发团队运用了精妙的比喻用于解释他们的技术路径, 也就是完形填空标点。
完形填空式技术让模型同时看到前后文
用户有修改音频中间两到三秒需求时, 系统会将这部分挖空, 模型依据前后上下文精确填补空缺, 因能同时看到前后文,填入的词不但音色完全一致, 就连情绪衔接也毫无破绽, 同时生成所有时间点Token, 极大压缩首帧延迟, 结合推理结构与算子深度定制优化, 以及一致性蒸馏把推理步数从三十二步压缩到四步或八步, 海量高并发情况下计算成本极低。
情绪控制和跨语种克隆是绝杀技
很多人在刷短视频之际, 一旦听到机器音便会划走, 当下的现有模型仅仅能够解决说什么的问题。而这项技术成功解决了怎么说的难题, 通过插入诸如笑声、叹气之类的特殊Token, 达成词级精准控制。它还引入了图像生成领域的CFG技术, 在推理的时候走两条路径做差值, 其成功率远远超越传统模型。另外存在首个可编辑、无参考文本的跨语种语音克隆。你只要上传一段纯音频, 模型就会自动提取音色, 进而生成中英日韩等多种语种的内容。目前每天能够稳定处理高达数十万小时的音频, 团队已然开源了1B参数模型以供开发者自由去使用。
你平常刷短视频或看短剧时,最受不了哪种AI配音?欢迎评论区聊聊,点赞关注支持一下!