網易首頁 > 網易號 > 正文申請入駐

OpenAI深夜發布3個全新的語音模型，一手實測都在這了。

2025-03-21 06:12:54　來源: 數字生命卡茲克

天津舉報

分享至

OpenAI最近總是喜歡搞突襲。

昨晚11點的時候突然發了一個預告，4秒鐘的音頻的大概意思，就是太平洋時間10點我們發個產品。

然后就在北京時間凌晨1點，開了一場直播，發了一些新玩意。

總結一下就是：

2個比Whisper更好的語音轉文本的STT模型： gpt-4o-transcribe和gpt-4o-mini-transcribe ，1個文本生成語音的TTS模型 : gpt-4o-mini-tts 。這些模型都提供了API的接入方式。沒了。

一個一個說。

1. STT模型：gpt-4o-transcribe

gpt-4o-transcribe和gpt-4o-mini-transcribe說是兩個，其實也就是一個了，后者是前者的小參數版。

這個模型的作用跟當年的Whisper是一樣的，跟大家在剪映里用的一鍵生成字幕的作用也是一樣的，就是把一段語音，轉成對應的正確的文本。

我們一般把他們稱為，STT（Speech-to-Text）模型。

這個模型的核心，就是就是識別文字的準確率有多高，我相信大家在用剪映生成字幕的時候，一定會出現很多文字識別錯誤的情況，所以評判一個ASR模型效果咋樣，就看正確率。

他們的跑分是這樣的。

這個是OpenAI的幾個STT模型在FLEURS數據集上的詞錯率（Word Error Rate, WER）的對比表現?？v坐標表示詞錯率，越低代表模型的轉錄準確性越高；橫坐標代表不同語言。

詞錯率的意思就是用于衡量語音識別系統的準確性，它通過計算模型轉錄文本與人工參考文本之間的錯誤比例來得出，錯得越少，WER越低，模型的表現也就越好。

中文是從左往右數第五個，cmn，可以看到突出了一個小山丘，錯誤率一下子就都上來了，比隔壁幾個都要高一些，中文還是難。。。

最后那幾個一柱擎天的語言都比較小眾，比如bn是孟加拉語、mr是馬拉地與、最高的那個ml是馬拉雅拉姆語。。。

他們除了跟自己比外，又放了一個跟別人家模型相比的圖。

Gemini是google的，scribe是Anthropic的，在對比的這些里面，確實達到了SOTA，但是不知道沒比的模型里面，有沒有比OpenAI更強的。

我自己也做了一下實測，把我的兩個口播視頻去識別了一下，識別出來的效果在此，大家可以對比一下。標紅的就是識別錯誤的地方。

其實都大差不差，這么一看，GPT-4o- mini- transcribe的性價比感覺非常突出。

GPT-4o-transcribe這個系列的兩個模型，有一個蠻不錯的特點，就是會自動清噪和去除非主線人物的語音識別。

比如這個案例。

這個片段是剪輯完的成片，所以有音樂，甚至在19秒以后，還有BGM里面的別人唱歌的聲音，這些其實都是噪音， GPT-4o-transcribe幾乎全部剔除了，在整個轉錄里，我幾乎沒看到什么錯誤，除了把我的名字，卡茲克識別成了卡斯克。。。

我又試了一段粵語的，效果居然還可以，大致的好像是對的，就是細節這塊我不太能驗證了，有懂粵語的朋友可以看一下。

最后價格這塊提一下。

gpt-4o-transcribe是每分鐘大概$0.006，也就是人民幣0.004元/分鐘；

gpt-4o-mini-transcribe是每分鐘大概$0.003，也就是人民幣0.002元/分鐘.

整體不算貴了。

2. TTS模型：gpt-4o-mini-tts

OpenAI的一個新的TTS模型。

在英語效果和聲音上，聽了下，還算不錯，不過畢竟這是國內，所以其實我更關注的是中文的生成效果。

我隨手跑了一個，就，你們聽聽這個效果。。。

情緒什么的其實講道理，還可以的，就是這個中文發音，真的一股子大佐味，這到底用的什么數據集啊。。。

11Labs也有這個問題，中文根本沒法聽，太違和了。

對比一下海螺（現在產品也更名叫Minimax了），他們的Audio生成出來的同文字的中文是這個效果。

在發音上，根本就不是一個級別的，中國人的語音模型，還是得看中國制造。。。

英語上，感覺很純正，日語發音上，也感覺有點怪怪的。。。

這次OpenAI給gpt-4o-mini-tts做了一個小小的功能演示網站，約等于免費給大家用了。

還挺有意思的。

網址在此： https://www.openai.fm/

最上面的VOICE是固定的音色，音色你是沒辦法克隆也沒辦法自定義的，所以只能選這些。

下面的VIBE比較有意思，大概的意思就是情緒基調，有N多的預設模板，同時你也可以用Prompt自己捏。

OpenAI給了官方模板，是這個樣子的：

Voice: High-energy, upbeat, and encouraging, projecting enthusiasm and motivation. 
Punctuation: Short, punchy sentences with strategic pauses to maintain excitement and clarity.
Delivery: Fast-paced and dynamic, with rising intonation to build momentum and keep engagement high. 
Phrasing: Action-oriented and direct, using motivational cues to push participants forward. 
Tone: Positive, energetic, and empowering, creating an atmosphere of encouragement and achievement.

翻譯過來就是：

聲音（Voice）：充滿活力、熱情洋溢且積極鼓勵，聲音要能傳遞出熱情與動力。

標點（Punctuation）：使用短小有力的句子，并通過適當停頓，保持興奮感和清晰度。

語速（Delivery）：語速較快、富有變化，并用升調增加節奏感與吸引力，確保聽眾持續投入。

措辭（Phrasing）：直接明了、強調行動，使用鼓勵性的語言來推動聽眾積極參與。

語調（Tone）：積極向上、充滿能量與力量感，營造鼓勵與成功的氛圍。

所以我們是能看到，有5個可以自己去捏的參數。你可以隨便自定義。

但是這玩意，說實話寫起來也非常麻煩，我試了一下后，不如直接交給AI，這玩意誰特么手搓啊= =

幾秒鐘，一段定制好的prompt就OK了，我們扔到之前的網頁里。

再用一段我很喜歡的《反叛的魯魯修》里面的臺詞去試一下。

大家自己判別吧。

在價格上， gpt-4o-mini-tts是$0.015/分鐘，大概1毛錢人名幣1分鐘，說實話，已經幾乎是最低價了。

11labs的價格大概是每分鐘1塊3人民幣。

Minimax已經算是價格屠夫了，大概也要1毛8人民幣1分鐘。

這就是OpenAI今天的發布了。

如果你是開發者，想知道怎么接入，一切都在他們的API文檔里。

https://platform.openai.com/docs/guides/audio

這次還蠻方便的，10行代碼就可以接了。

STT模型gpt-4o-mini-transcribe我還是蠻推薦用的，實測下來感覺性價比最高，差距不是很大，價格還低一半。

TTS模型 gpt-4o-mini-tts如果你是做英文場景的語音，還是值得一用的，畢竟便宜是真便宜，效果也還不錯，中文的話不推薦用，因為沒法用，中文我還是無腦推薦Minimax的Audio模塊，不僅中文效果好，性價比高，海外版還可以語音克隆。

網址在此： https://www.minimax.io/audio

很久以前我也首發安利過一次，現在依然有效：

以上就是這一次OpenAI的全部發布了，熬夜肝完，為大家帶來最新鮮的實測。

好了，我要去睡兩小時了，預約的早上9點醫院做手術...

大家晚安~

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克、dongyi

>/ 投稿或爆料，請聯系郵箱：wzglyay@gmail.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.