新闻资讯
豆包语音大模型升级 边听边说更自然
基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升。全量上线,豆包打电话能力升级,在对话自然度、响应速度和抗干扰表现上都进一步提升,边听边讲,交流体验也更自然。更新至最新版本,在对话框内选择“打电话”,进入语音通话界面体验即可。
近日,豆包APP的一次更新,使好些用户观感一新。4月9日那天,字节跳动正式推出了原生全双工语音大模型,借助这项技术,语音助手达成了边听边说的效果。相较于先前版本,此次升级在对话流畅性以及自然度方面实现了质的跨越。
全双工模型是什么
简而言之,全双工语音模型具备使机器同时开展听与说这两项任务的能力。以往的半双工模型恰似对讲机,是你讲完后我才接着讲,其间会存在停顿等候的情况。然而当下的新模型更类似于真人对话,即使你尚未讲完,它已然开始着手准备做出回应了。
这种技术于行业内并非全新概念,然而真正落实到消费级产品内却是首次,那字节跳动的技术团队是在4月9日的发布会上透露的,再者他们运用了全新的框架设计去达成这个功能,随后用户于豆包APP里挑选桃子音色后,便可体验到这种更自然的对话方式。
两项核心突破技术

据官方介绍所显示的内容来看,新模型着重达成了两项重大的技术方面的突破,其一乃是,在对话流畅度以及节奏感上实现了提升,经由多维度评测证实,其显著地比传统半双工方案更为优越 ,其二是,在判停表现上更为精准,该模型能够更为出色地判定用户究竟何时讲完话,既不会过于急切地进行插嘴,也不会表现得反应迟缓。
具体公布的数据表明,全新的模型在判停这块儿所展现出来的表现,相较于半双工方案而言,实现了8%的提升幅度。该数字乍一听可能并不显著,然而在实际展开的对话进程当中,那种感受却是极为明显的。使用者再也不需要费心费力地刻意停顿下来,只为等待机器给出回应,而且也完全不必担忧自己话语尚未讲完,就会遭遇被打断的情况,整个对话的历程变得愈发像是在与真实的人类进行交流互动。
真实用户反馈数据
结果很能说明问题的是大规模A/B实验。新模型上线后用户通话时长有明显提升。新模型上线后留存率也明显提升。其是相比于之前的半双工模型而言的。整体通话满意度绝对值提高了8.34%。这意味着每100个用户里头就有8个多的人觉得体验变好了。
更为引人予以关注的是,负面反馈所产生的变化,在用户投诉里,有关抢话、响应慢以及误打断等方面问题的所占比例显著呈现出下行态势,而这些方面恰恰就是传统语音助手最为令人感到头疼的所在之处,依据2026年4月初的数据所展示的情况来看,在新模型上线一周过后,与之相关的负面评价减少了将近三成。
实际使用体验提升
于4月10日,记者对豆包APP的新功能展开了实际测试,在嘈杂的咖啡馆环境里,新模型依旧能够精准识别语音指令,当你说话时中途停顿进行思考,它不会马上抢先回答,而是会耐心等待数秒钟,这种分寸感着实是之前版本所没有的。
另一个显著的改进之处在于响应速度,先前讲完话后需等待一两秒才会有反应,如今基本上感觉不到延迟,其技术原理是模型并非要等到你全程讲完才着手处理,而是在聆听的同时进行分析,当你讲到一半的时候它已然理解了大半的意思,这样一种边听边讲的机制极大地削减了等待的时间。
如何体验新功能
现今这个全双工语音模型已在豆包 APP 全面上线了,用户得将应用更新至最新版本,接着在对话框里挑选打电话功能,进入语音通话界面后,要记得选取桃子音色方可体会到新模型的效果,其他音色目前暂时仍不支持。
字节跳动官方给出了供开发者参考的项目地址,对于普通用户而言,直接更新APP便可使用,无需任何额外设置,自4月9日上线以后,已有超过百万用户尝试了这个新功能,不少人在社交平台分享体验,称终于有了个能正常聊天的语音助手。

技术对比行业水平
跟行业主流App的语音通话功能相比较而言,豆包的新模型于多个维度之上俱呈现出更为优良的表现。举例来说的话,苹果的Siri仍旧是典型的半双工模式,讲完唤醒词之后得等待它作出回应。谷歌助手尽管反应快速。然而在复杂环境当中的抗干扰能力却比不上豆包的新模型。
评测得出的数据表明,豆包新模型于对话节奏的自然这一方面所获分数,较之行业平均水准要高出百分之十五,特别是在存在多人同时进行话语交流的那种场合里,它能够精准分辨出究竟谁属于用户且谁正与他人展开交谈,这般具备抗干扰特性的能力离不开模型历经的深度学习训练,其所运用的是超出十万小时的真实对话数据。
哪一个才是你认为语音助手最令你难以忍受的问题呢,是它反应迟缓还是老是抢先说话呢,欢迎于评论区域分享你的相关事儿,随手点个赞以便让更多人能够瞧见这篇文章。


