123,123,123

(相關(guān)資料圖)

AIPress.com.cn報(bào)道

3月6日消息，據(jù)The Information報(bào)道，OpenAI正在秘密研發(fā)一款代號為“BiDi”（Bidirectional，雙向）的全新音頻模型。目標(biāo)是讓用戶和ChatGPT的語音對話聽起來不那么像機(jī)器人。核心改進(jìn)點(diǎn)在于：當(dāng)用戶中途插話、打斷時(shí)，AI能像真人聊天一樣及時(shí)調(diào)整話術(shù)，而不是突然停住或重新來一遍。

目前ChatGPT的高級語音模式更像輪流發(fā)言的機(jī)制：用戶必須把話說完，系統(tǒng)才會處理音頻并生成回答。如果用戶在AI說話時(shí)插入一些很自然的反饋，比如“好的”“嗯”“對”，模型往往會直接停止輸出，難以做到人類對話那種邊聽邊說、隨時(shí)糾偏的節(jié)奏。

OpenAI正在做的下一代音頻模型它的思路是持續(xù)處理說話者的聲音流，一旦檢測到用戶插話，就能立刻改變自己的回應(yīng)方向，實(shí)現(xiàn)更自然的對話流。相比現(xiàn)有音頻模型一旦開口就很難修改、容易“照稿念完”，BiDi希望做到邊說邊調(diào)整，甚至在對話中途平滑轉(zhuǎn)話題。

不過，這項(xiàng)技術(shù)距離上線還有一段距離。知情人士稱，BiDi的原型在對話進(jìn)行幾分鐘后，容易出現(xiàn)故障，或者發(fā)出聽起來不太正常的聲音。OpenAI研究團(tuán)隊(duì)原本希望在今年一季度推出，但目前看時(shí)間可能推遲到二季度甚至更晚。

OpenAI的判斷是，如果語音模型的表現(xiàn)能更接近文本模型的速度和穩(wěn)定性，AI的普及面會進(jìn)一步擴(kuò)大，因?yàn)閷Υ蠖鄶?shù)人來說，開口說話比打字更自然。

落地場景方面，OpenAI預(yù)計(jì)BiDi在客服類應(yīng)用會更有價(jià)值。比如用戶打電話給零售商的AI客服，本來要退貨，聊到一半臨時(shí)改成換貨，如果系統(tǒng)能實(shí)時(shí)理解并調(diào)整話術(shù)，就能順暢接著聊，而不是卡頓、停頓或把流程重來一遍。知情人士還表示，BiDi在調(diào)用外部工具和第三方應(yīng)用時(shí)也更擅長。

這也呼應(yīng)了OpenAI更長期的硬件設(shè)想。此前OpenAI提過要改進(jìn)音頻模型，用于未來以語音交互為主的AI設(shè)備，并在考慮開發(fā)類似智能音箱的產(chǎn)品，讓用戶通過語音完成查郵件、訂餐廳等任務(wù)。實(shí)時(shí)、可被打斷的對話能力，被認(rèn)為是這類“語音優(yōu)先”設(shè)備的關(guān)鍵底層能力。

（AI普瑞斯編譯）

關(guān)鍵詞：