OpenAI最近總是喜歡搞突襲。
昨晚11點的時候突然發了一個預告,4秒鐘的音頻的大概意思,就是太平洋時間10點我們發個產品。
然后就在北京時間凌晨1點,開了一場直播,發了一些新玩意。
總結一下就是:
2個比Whisper更好的語音轉文本的STT模型: gpt-4o-transcribe和gpt-4o-mini-transcribe ,1個文本生成語音的TTS模型 : gpt-4o-mini-tts 。這些模型都 提供了API的接入方式。沒了。
一個一個說。
1. STT模型:gpt-4o-transcribe
gpt-4o-transcribe和gpt-4o-mini-transcribe說是兩個,其實也就是一個了,后者是前者的小參數版。
這個模型的作用跟當年的Whisper是一樣的,跟大家在剪映里用的一鍵生成字幕的作用也是一樣的,就是把一段語音,轉成對應的正確的文本。
我們一般把他們稱為,STT(Speech-to-Text)模型。
這個模型的核心,就是就是識別文字的準確率有多高,我相信大家在用剪映生成字幕的時候,一定會出現很多文字識別錯誤的情況,所以評判一個ASR模型效果咋樣,就看正確率。
他們的跑分是這樣的。
這個是OpenAI的幾個STT模型在FLEURS數據集上的詞錯率(Word Error Rate, WER)的對比表現??v坐標表示詞錯率,越低代表模型的轉錄準確性越高;橫坐標代表不同語言。
詞錯率的意思就是用于衡量語音識別系統的準確性,它通過計算模型轉錄文本與人工參考文本之間的錯誤比例來得出,錯得越少,WER越低,模型的表現也就越好。
中文是從左往右數第五個,cmn,可以看到突出了一個小山丘,錯誤率一下子就都上來了,比隔壁幾個都要高一些,中文還是難。。。
最后那幾個一柱擎天的語言都比較小眾,比如bn是孟加拉語、mr是馬拉地與、最高的那個ml是馬拉雅拉姆語。。。
他們除了跟自己比外,又放了一個跟別人家模型相比的圖。
Gemini是google的,scribe是Anthropic的,在對比的這些里面,確實達到了SOTA,但是不知道沒比的模型里面,有沒有比OpenAI更強的。
我自己也做了一下實測,把我的兩個口播視頻去識別了一下,識別出來的效果在此,大家可以對比一下。標紅的就是識別錯誤的地方。
其實都大差不差,這么一看,GPT-4o- mini- transcribe的性價比感覺非常突出。
GPT-4o-transcribe這個系列的兩個模型,有一個蠻不錯的特點,就是會自動清噪和去除非主線人物的語音識別。
比如這個案例。
這個片段是剪輯完的成片,所以有音樂,甚至在19秒以后,還有BGM里面的別人唱歌的聲音,這些其實都是噪音, GPT-4o-transcribe幾乎全部剔除了,在整個轉錄里,我幾乎沒看到什么錯誤,除了把我的名字,卡茲克識別成了卡斯克。。。
我又試了一段粵語的,效果居然還可以,大致的好像是對的,就是細節這塊我不太能驗證了,有懂粵語的朋友可以看一下。
最后價格這塊提一下。
gpt-4o-transcribe是每分鐘大概$0.006,也就是人民幣0.004元/分鐘;
gpt-4o-mini-transcribe是 每分鐘大概$0.003, 也就是人民幣0.002元/分鐘.
整體不算貴了。
2. TTS模型:gpt-4o-mini-tts
OpenAI的一個新的TTS模型。
在英語效果和聲音上,聽了下,還算不錯,不過畢竟這是國內,所以其實我更關注的是中文的生成效果。
我隨手跑了一個,就,你們聽聽這個效果。。。
情緒什么的其實講道理,還可以的,就是這個中文發音,真的一股子大佐味,這到底用的什么數據集啊。。。
11Labs也有這個問題,中文根本沒法聽,太違和了。
對比一下海螺(現在產品也更名叫Minimax了),他們的Audio生成出來的同文字的中文是這個效果。
在發音上,根本就不是一個級別的,中國人的語音模型,還是得看中國制造。。。
英語上,感覺很純正,日語發音上,也感覺有點怪怪的。。。
這次OpenAI給gpt-4o-mini-tts做了一個小小的功能演示網站,約等于免費給大家用了。
還挺有意思的。
網址在此: https://www.openai.fm/
最上面的VOICE是固定的音色,音色你是沒辦法克隆也沒辦法自定義的,所以只能選這些。
下面的VIBE比較有意思,大概的意思就是情緒基調,有N多的預設模板,同時你也可以用Prompt自己捏。
OpenAI給了官方模板,是這個樣子的:
Voice: High-energy, upbeat, and encouraging, projecting enthusiasm and motivation.
Punctuation: Short, punchy sentences with strategic pauses to maintain excitement and clarity.
Delivery: Fast-paced and dynamic, with rising intonation to build momentum and keep engagement high.
Phrasing: Action-oriented and direct, using motivational cues to push participants forward.
Tone: Positive, energetic, and empowering, creating an atmosphere of encouragement and achievement.
翻譯過來就是:
聲音(Voice):充滿活力、熱情洋溢且積極鼓勵,聲音要能傳遞出熱情與動力。
標點(Punctuation):使用短小有力的句子,并通過適當停頓,保持興奮感和清晰度。
語速(Delivery):語速較快、富有變化,并用升調增加節奏感與吸引力,確保聽眾持續投入。
措辭(Phrasing):直接明了、強調行動,使用鼓勵性的語言來推動聽眾積極參與。
語調(Tone):積極向上、充滿能量與力量感,營造鼓勵與成功的氛圍。
所以我們是能看到,有5個可以自己去捏的參數。你可以隨便自定義。
但是這玩意,說實話寫起來也非常麻煩,我試了一下后,不如直接交給AI,這玩意誰特么手搓啊= =
幾秒鐘,一段定制好的prompt就OK了,我們扔到之前的網頁里。
再用一段我很喜歡的《反叛的魯魯修》里面的臺詞去試一下。
大家自己判別吧。
在價格上, gpt-4o-mini-tts是$0.015/分鐘,大概1毛錢人名幣1分鐘,說實話,已經幾乎是最低價了。
11labs的價格大概是每分鐘1塊3人民幣。
Minimax已經算是價格屠夫了,大概也要1毛8人民幣1分鐘。
這就是OpenAI今天的發布了。
如果你是開發者,想知道怎么接入,一切都在他們的API文檔里。
https://platform.openai.com/docs/guides/audio
這次還蠻方便的,10行代碼就可以接了。
STT模型gpt-4o-mini-transcribe我還是蠻推薦用的,實測下來感覺性價比最高,差距不是很大,價格還低一半。
TTS模型 gpt-4o-mini-tts如果你是做英文場景的語音,還是值得一用的,畢竟便宜是真便宜,效果也還不錯,中文的話不推薦用,因為沒法用,中文我還是無腦推薦Minimax的Audio模塊,不僅中文效果好,性價比高,海外版還可以語音克隆。
網址在此: https://www.minimax.io/audio
很久以前我也首發安利過一次,現在依然有效:
以上就是這一次OpenAI的全部發布了,熬夜肝完,為大家帶來最新鮮的實測。
好了,我要去睡兩小時了,預約的早上9點醫院做手術...
大家晚安~
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、dongyi
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.