OpenAI正开发新语音模型BiDi，让ChatGPT对话更自然

该模型能够持续处理说话者的语音输入，因此在被打断时可以立即调整回应。相比之下，现有语音模型一旦开始生成回答，输出内容就基本固定，无法再根据新的输入进行变化。进行语音交流，而不是输入文字。模型在客服场景中可能尤其有价值。设备改进语音模型，并考虑开发一款智能音箱，通过语音指令即可查看邮件或预订服务。

你朝着手机讲话，AI才回复了一半，你便插入一句“不对”，它瞬间好似被按下静音键那般愣住，这种令人抓狂的对话感受或许很快就要成为过去之事了。3月5日传来的讯息表明，科技巨头正在研发一种能够真正听懂人言、准许你随时打断的“双向语音模型”，这并非是简单的升级，而是要彻底推翻人机交流的底层逻辑。

告别机器人式尬聊

对那些使用过语音助手的人而言，会有这样一种情形，当你刚刚不经意间说错了一个词汇，随即想要赶忙予以纠正时，它却好似装作丝毫没有听到一般，依旧自顾自地继续说着它自己的话语，一直到你大声吼叫出“暂停”这个指令，它才会一下子停下来。像这种回合制互动对话，状态差不多如同两个对讲机那般，必须得等待对方彻底讲完之后，你才能够张口说话，这和人类自然而然进行交流的习惯，是完全相互违背的。

当前呈现出的高级语音模式存在着生硬的状况，它那根本性的缘由就在于技术架构存在着缺陷，一旦AI着手去生成语音回复，整个展开的输出路径将会就此被锁死，这好比火车一旦驶上了轨道便只能朝着一个方向去行进，中途就算你竭尽全力呼喊甚至喊到喉干嗓破，它也都不能作出响应，最终就只能以一种简单粗暴的方式把所有的输出均予以中断。

双向模型打破僵局

正在开展研发工作的BiDi模型，其核心所取得的突破之处在于具备那般“边听边想”的能力，它并非是将对话分割成为一段段彼此分离、各自迥异的独立碎片，而是如同人一样能够持续不断地去接收以及处理语音流，你于它进行说话这一过程之中讲出的“嗯”、又或者“然后呢”，抑或是出现的突然的更正之举，均能够被以实时的状态予以捕捉处理，并会按照如此情况去影响接下来依之所给出的回答。

这表明，在未来，当你处于迟疑不决的状态时，AI客服能够依据你的全新思路进行灵活的调整。举例来说，倘若你原本打算退货，然而在讲述过程中改变主意想要换货，AI不会陷入迟钝而重新启动流程，反而是自然而然地回应：“嗯，那么这样的话，我们就转换为换货流程，您希望更换成哪种颜色呢？”。

技术攻关遇瓶颈

丰满的是理想，然而现实却有着些许骨感之况。有知情人进而透露说，那般原本规划在今年一季度就要予以亮相显现的原型模型之物，当下依旧是在实验室范围之内，和各类的bug展开着斗争之举。最为突出的问题在于，当进行对话持续高达几分钟以后，这个模型便极易出现“精神错乱”之状，进而开始发出诸多莫名其妙难以理解的声音了。

研究人员发觉，要使得AI维持长时间的双向对话而不中断线路，困难程度远远超出了预先的估计，它存在着多重要件，需要同时去处理语音识别、语义理解、实时生成以及动态调整，只要其中任何一个环节出现延迟状况，都会致使对话的节奏出现混乱不堪的局面，鉴于这种技术层面所呈现出的复杂程度，致使发布的时间不得不被迫延迟到二季度甚至进而推延到更晚的时段。

为何死磕语音交互

公司花费大量资金在这项技术上执着钻研，背后有着一个简单的认识：多数人实际上是不愿意打字的，讲话才是人类最为自然的表达形式。要是语音交互能够流畅得如同与真人交谈一模一样，AI的使用难度将会大幅下降，那些不擅长打字的老年人也能够便捷上手。

其更深层次的野心在于去抢占下一代交互入口，试想一下，未来你只需要朝着空气说出话语便能够操控所有设备，语音助手不再是手机当中的一个图标，而是恰似空气那般无所不在的交互界面，这样的愿景使得所有科技巨头都不敢落后。

智能硬件的新想象

这项技术最初实现应用的情景大概率不会是手机，而是一款传闻中的AI音箱。和当下只会播放音乐以及查询天气的简单设备不一样，新一代语音装置能够处理繁杂任务，当它帮你预订机票的过程中，你插入一句“顺便看看酒店”，它能够实现无缝链接！

用武之地更是BiDi模型在客服行业的发挥之处。现当下，那些令人恼火抓狂的AI客服，究其缘由，恰似一个仅会依照事先准备台词念诵毫无创意可言的机器人，面对稍微偏离既定脚本的情况就陷入死机状态。只有具备双向语音这种能力，AI客服才终于能够如同拥有正常思维逻辑可现场边倾听用户话语边进行思考的人类员工那般，以灵活多变的方式去应对各种各样随时可能突然发生的状况。

语音时代何时来

即使技术前景有着吸引人之处，然而从实验室迈向真正好用的产品仍需耗费时间，当前原型模型存在的稳定性问题揭示出AI在动态交互能力方面存在不足，要使得机器切实理解人类对话里潜藏的意思，其中语气的改变以及情绪上出现的起伏波动，距离达成目标还有很长一段路程要走。

然而方向已然清晰明确，在未来，AI不应是那种等着你下达指令的愚钝工具，而应是能够跟您实行自然对话的智能伙伴。等到您终于能够如同与朋友进行聊天那般随时打断对话、插入话语、予以纠正，并且AI还能够面带笑容将您抛出的所有梗都巧妙接住，在那个时候，人机交互的崭新时代才算是真正降临。

你有没有在跟AI对话时，被它无视你插话的行为气到想摔手机？

OpenAI正开发新语音模型BiDi，让ChatGPT对话更自然

告别机器人式尬聊

双向模型打破僵局

技术攻关遇瓶颈

为何死磕语音交互

智能硬件的新想象

语音时代何时来

相关文章

紫光展锐发布端边AI芯片平台N9系列及Agentic AI底座技术

AlphaEvolve发布一年，实力惊人，已成谷歌核心设施一部分

马斯克诉奥尔特曼案披露：微软与OpenAI早期AI合作内幕

马斯克官宣xAI解散并入SpaceX，Grok何去何从？