繼 2022 年推出首個音頻模型 Whisper,OpenAI 于今日凌晨發布了 3 款全新語音模型——
gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts 。
OpenAI 表示,Operator、Deep Research、Computer-Using Agents 以及 Responses API 的發布,使得基于文本的 agent 在任務執行能力和實用性方面不斷突破。然而,要讓 agent 真正發揮作用,交互方式必須更加直觀,超越純文本輸入,支持自然語音交流。
OpenAI 表示,最新的語音轉文本(STT)模型在口音適應、嘈雜環境處理以及不同語速識別方面均優于現有解決方案,使其在呼叫中心、會議記錄等領域具備更高可靠性。
目前,3 款全新語音模型已經上線 API,開發者可以基于此打造更強大、更具個性化的語音 agent。
詳情鏈接:
https://platform.openai.com/docs/guides/audio
此外,開發者還可以為文本到語音(TTS)模型設定語音風格。例如,可以讓 AI 以“富有同理心的客戶服務代表”風格進行交流。這使得語音 agent 能夠提供更具溫度和表現力的語音體驗,廣泛應用于個性化客服、故事講述等領域。
先來感受兩個語音實例:
體驗地址:https://www.openai.fm/
據介紹,此次 OpenAI 通過使用真實音頻數據集進行預訓練、增強的蒸餾方法以及強化學習構建了全新的語音模型。具體而言:
使用真實音頻數據集預訓練:全新音頻模型以 GPT-4o 和 GPT-4o-mini 架構為基礎,在專門的音頻數據集上進行了廣泛的預訓練,這對優化模型性能至關重要。這種有針對性的方法能更深入地洞察語音的細微差別,并在與音頻相關的任務中實現強大性能。
增強的蒸餾方法:增強的蒸餾技術實現了從最大音頻模型到更小、更高效模型的知識轉移。利用先進的自我博弈方法,他們的蒸餾數據集能有效捕捉真實的會話動態,復制真正的用戶助手交互。這有助于小型模型提供出色的對話質量和響應能力。
強化學習:OpenAI 采用強化學習將全新語音模型的轉錄準確性提升到 SOTA 水平。這種方法大大提高了精確度,減少了幻覺,使新的語音到文本解決方案在復雜的語音識別場景中更具競爭力。
這些技術創新結合實際應用需求,不僅提升了語音建模能力,還大幅改善了 AI 在真實場景中的表現。
相較于原有的 Whisper,新語音模型在詞錯誤率(WER)、語言識別能力和準確性方面均有顯著提升。在多項基準測試中,新語音模型的 WER 均低于現有 Whisper 模型。 WER 衡量語音識別的準確性,數值越低表示轉錄質量越高。
gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在 FLEURS(少樣本多語言語音基準)測試中,覆蓋 100 多種語言,表現均優于 Whisper v2 和 Whisper v3,展現了更廣泛的語言適應能力和更精確的轉錄效果。
而且,在主要語言的評測中,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 超過了市場上的其他領先模型,為多語言語音應用提供了更可靠的技術支持。
OpenAI 推出的 gpt-4o-mini-tts 則具有增強的語音可控性(steerability)。開發人員首次不僅可以“指導”模型說什么,還可以“指導”它怎么說,從而為從客戶服務到創意故事等各種用例提供更多定制體驗。
值得注意的是,這些文本到語音模型僅限于人工預設語音,OpenAI 表示,他們會對其進行監控,以確保它們始終與合成預設語音相匹配。
OpenAI 也給出了一些官方使用建議 ,對于已經使用基于文本的模型構建對話體驗的開發人員來說,添加新的語音到文本和文本到語音模型是構建語音 agent 的最簡單方法, OpenAI 將發布與 Agents SDK 的集成,以簡化這一開發流程;對于希望構建低延遲語音到語音體驗的開發人員,可以使用實時 API 中的語音到語音模型進行構建。
未來,OpenAI 計劃繼續提高音頻模型的智能性和準確性,幫助開發者使用自己的自定義語音來構建更加個性化的體驗,以及開發其他模態(包括視頻)的 agent。
整理:學術君
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.