AI资讯

Google Gemini 3.5 Live Translate:掀翻老规矩的语音翻译新宠

智能摘要

这是它最新的语音对语音翻译模型,一句话概括:把「等你说完再翻」的老规矩,直接掀了。多种语言组合——英语、普通话、瑞典语满桌子飞,谁说什么对方都能秒懂。谷歌官方自己也标了限制:目前只吃音频输入;遇上重口音、快速来回切语言、好几个人抢着说、或者长时间停顿,声音复刻还可能不稳。

一句话还没说完,译音已经响起

谷歌才刚抛出了3.5 Live, 这可是其最新的语音对语音翻译模型, 通过一句话来进行概括, 它将“等你说完再翻”的老规则径直推翻了, 首席科学家Jeff Dean亲自发帖子进行官宣, 字里行间流露着一股“二十年磨一剑”的底气, 语音翻译是谷歌运行时间最长的机器学习项目之一, 而在这一回, 它最终进入了耳机。

过去那种老式的翻译机, 想必大家都不陌生。你说出一句话后, 它就要停顿着, 等待你把话语全部讲完, 之后才吭哧吭哧地再翻译给对方听。这样一来一去, 整个节奏就完全被打断了, 两人交流起来就好像是在使用对讲机一样。更为关键的是, 在真实的对话当中, 从来都不是规规矩矩、安安静静地你说一句我回一句的——人在交流时会出现抢话的情况, 会有犹豫的时候, 还会说着半截就变动说法。而3.5 Live却不会这么做, 它能够一边听一边进行翻译, 话音未落之际, 翻译出来的声音就已经抢先传播到了。

边听边译的平衡术

这套技术的背后, 存在着一套颇为微妙的平衡措施。再多等待一小会儿, 上下文能够听得更加全面, 翻译也会更加准确;马上就开口说话, 能够紧密地跟住正在说话的人, 然而却有可能猜错后边的句子。模型就在这两种情况之间, 逐字逐句地进行反复的权衡, 最终呈现出的效果是输出连贯, 不存在尴尬的停顿, 整个过程仅仅会落后正在说话的人几秒钟。

越发奇妙的是声音自身, 它能够留存你的说话速度、声音高低以及语调, 被翻译出来的并非那种毫无感情的机器发出的声音, 而是带有你说话风格气息的声音, 你表现得着急时, 得到的译音也随之显得急迫, 你说话慢悠悠时, 译音同样会跟着以缓慢的节奏呈现, 这般同步感促使对话变得极其自然流畅。

技术细节与评测指标

被同步放出的模型卡将一些底细透露了出来,该模型是依据谷歌3 Pro构建而成的,它能够接纳最长达128K token的音频上下文。对于评测而言,只紧紧咬定三个指标不放——翻译的质量、延迟的状况、语音的自然程度。也就是说,谷歌为其设定的KPI并非“翻得准确无误”,而是“聊得顺畅自然”。

它具备一口气识别七十多种语言的能力, 并且是全自动进行识别的, 你在中途更换一种语言, 它也能够跟得上, 无需手动去设置, 即便环境嘈杂也不用担心, 在菜市场、机场、马路边这些地方都能够使用, 这些细节致使它在真实场景当中格外实用, 并非演示室里的玩具。

三条线同时铺开

此次谷歌行事极为狠辣, 三条线路同时展开。最让打工者深有感触的乃是谷歌Meet, 从前其语音翻译仅支持五种语言, 并且只能在英语与其他语言之间周旋。如今一下子增至七十多种, 单场会议能够支撑两千多种语言组合, 英语、普通话、瑞典语在桌上四处飞舞, 无论谁说什么, 对方都能瞬间明白。

安卓存有个细节, 名为“聆听模式”, 当你把手机如同打电话那般贴在耳边时, 译音会直接从听筒钻进, 旁人无法听到, 假设你跟班西语导游团, 临时没带耳机, 掏出手机贴到耳边便可救急, 此设计极为契合移动场景里的隐私需求。

真实场景的实战检验

净讲参数太虚幻, 瞧瞧真实情景。谷歌找来东南亚的Grab去试验。司机讲本地话, 乘客听着是自身的母语, 接驾常说的那几句“你在哪儿”、“我马上就到”, 不再是对牛弹琴。需晓得, Grab用户每月得打超1000万次语音电话——这可不是发布会上的演示, 而是真得塞入千万次日常对话里去运作的事务。

不在Grab的范畴内, CJ ENM、优步这类公司也在之前就着手进行了尝试 , 反馈均朝着同一个方向: 质量、准确度、低延迟。这些企业亲身的使用感受, 相较于任何实验室数据而言更具说服力。开发者这边也省去了大量精力, Agora、声网、Twilio一众平台已经接入谷歌Live API。

二十年长跑跑进耳机里

朝后面看那么一步, 你会发觉这件事情谷歌可是憋闷了相当长的时间。二十年前, 谷歌翻译仅仅是一个具有开创性的小小实验, 试图将语言这门学科转变成为人与人相互连接的神奇法术。现如今每个月, 它都要为几十亿用户翻译超过一万亿个单词。从“把文字转化成文字”, 到“拍摄一张照片来翻译菜单”, 再到如今“把你所说的话语即时变成另一种语言的声音”, 这条路已然走过了整整二十年。

固然, 言语切勿讲得过于绝对。谷歌官方自身也标明了限制: 当下仅支持音频输入。倘若碰上重口音、迅速来回切换语言、好几个人竞相发言、亦或是长时间停顿的情况, 声音复刻或许仍旧不够稳定。它并非是终点, 然而却是一个颇具竞争力的起点.方向已然清晰明了, 同声传译往昔是唯有顶尖译员方可承担的工作, 一小时要价几千元, 并且还得提前一周准备稿件。如今, 它正逐渐演变成耳机里一项默默运行的功能, 随时待命。

要是语言已不再成为那阻隔沟通的墙, 那么余下的, 便仅仅是人与人之间想不想展开交流这件事了。你会于出差之际或者旅游之时运用这种实时发挥作用的翻译功能吗? 诚挚欢迎在评论区域分享你所经历的感受, 通过点赞以及转发促使更多的人能够瞧见这个堪称黑科技的事物。

相关文章