(资料图片仅供参考)
AIPress.com.cn报道
3月6日消息,据The Information报道,OpenAI正在秘密研发一款代号为“BiDi”(Bidirectional,双向)的全新音频模型。目标是让用户和ChatGPT的语音对话听起来不那么像机器人。核心改进点在于:当用户中途插话、打断时,AI能像真人聊天一样及时调整话术,而不是突然停住或重新来一遍。
目前ChatGPT的高级语音模式更像轮流发言的机制:用户必须把话说完,系统才会处理音频并生成回答。如果用户在AI说话时插入一些很自然的反馈,比如“好的”“嗯”“对”,模型往往会直接停止输出,难以做到人类对话那种边听边说、随时纠偏的节奏。
OpenAI正在做的下一代音频模型它的思路是持续处理说话者的声音流,一旦检测到用户插话,就能立刻改变自己的回应方向,实现更自然的对话流。相比现有音频模型一旦开口就很难修改、容易“照稿念完”,BiDi希望做到边说边调整,甚至在对话中途平滑转话题。
不过,这项技术距离上线还有一段距离。知情人士称,BiDi的原型在对话进行几分钟后,容易出现故障,或者发出听起来不太正常的声音。OpenAI研究团队原本希望在今年一季度推出,但目前看时间可能推迟到二季度甚至更晚。
OpenAI的判断是,如果语音模型的表现能更接近文本模型的速度和稳定性,AI的普及面会进一步扩大,因为对大多数人来说,开口说话比打字更自然。
落地场景方面,OpenAI预计BiDi在客服类应用会更有价值。比如用户打电话给零售商的AI客服,本来要退货,聊到一半临时改成换货,如果系统能实时理解并调整话术,就能顺畅接着聊,而不是卡顿、停顿或把流程重来一遍。知情人士还表示,BiDi在调用外部工具和第三方应用时也更擅长。
这也呼应了OpenAI更长期的硬件设想。此前OpenAI提过要改进音频模型,用于未来以语音交互为主的AI设备,并在考虑开发类似智能音箱的产品,让用户通过语音完成查邮件、订餐厅等任务。实时、可被打断的对话能力,被认为是这类“语音优先”设备的关键底层能力。
(AI普瑞斯编译)