首頁信用卡
消息稱OpenAI研發(fā)新語音模型BiDi
2026-03-06 12:23:45來源: 鞭牛士


(相關資料圖)

AIPress.com.cn報道

3月6日消息,據(jù)The Information報道,OpenAI正在秘密研發(fā)一款代號為“BiDi”(Bidirectional,雙向)的全新音頻模型。目標是讓用戶和ChatGPT的語音對話聽起來不那么像機器人。核心改進點在于:當用戶中途插話、打斷時,AI能像真人聊天一樣及時調(diào)整話術,而不是突然停住或重新來一遍。

目前ChatGPT的高級語音模式更像輪流發(fā)言的機制:用戶必須把話說完,系統(tǒng)才會處理音頻并生成回答。如果用戶在AI說話時插入一些很自然的反饋,比如“好的”“嗯”“對”,模型往往會直接停止輸出,難以做到人類對話那種邊聽邊說、隨時糾偏的節(jié)奏。

OpenAI正在做的下一代音頻模型它的思路是持續(xù)處理說話者的聲音流,一旦檢測到用戶插話,就能立刻改變自己的回應方向,實現(xiàn)更自然的對話流。相比現(xiàn)有音頻模型一旦開口就很難修改、容易“照稿念完”,BiDi希望做到邊說邊調(diào)整,甚至在對話中途平滑轉(zhuǎn)話題。

不過,這項技術距離上線還有一段距離。知情人士稱,BiDi的原型在對話進行幾分鐘后,容易出現(xiàn)故障,或者發(fā)出聽起來不太正常的聲音。OpenAI研究團隊原本希望在今年一季度推出,但目前看時間可能推遲到二季度甚至更晚。

OpenAI的判斷是,如果語音模型的表現(xiàn)能更接近文本模型的速度和穩(wěn)定性,AI的普及面會進一步擴大,因為對大多數(shù)人來說,開口說話比打字更自然。

落地場景方面,OpenAI預計BiDi在客服類應用會更有價值。比如用戶打電話給零售商的AI客服,本來要退貨,聊到一半臨時改成換貨,如果系統(tǒng)能實時理解并調(diào)整話術,就能順暢接著聊,而不是卡頓、停頓或把流程重來一遍。知情人士還表示,BiDi在調(diào)用外部工具和第三方應用時也更擅長。

這也呼應了OpenAI更長期的硬件設想。此前OpenAI提過要改進音頻模型,用于未來以語音交互為主的AI設備,并在考慮開發(fā)類似智能音箱的產(chǎn)品,讓用戶通過語音完成查郵件、訂餐廳等任務。實時、可被打斷的對話能力,被認為是這類“語音優(yōu)先”設備的關鍵底層能力。

(AI普瑞斯編譯)

關鍵詞:

京ICP備2021034106號-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com