文 | 闌夕
出道即巔峰,又一款純正中國血統的大模型,跑出了SOTA(當前最佳水平)的分數。
昆侖萬維發布的音樂大模型Mureka O1,在音樂生成品質的評測上,全面超越作為行業領頭羊的Suno——相當于ChatGPT在文本大模型的優勢地位——成了又一個空降而來的「新王」。
當然,和普通大模型通常通過做題的準確率來對比能力差異不同,音樂內容的好壞缺少完全客觀的評判標準,所以昆侖萬維也做到了力所能及的公平:
在最新的音樂評測中,Mureka O1展現出卓越的音樂品質,在最終的整體聽感評測超過了Suno V4。
圖丨Mureka O1在主觀測評中整體聽感超越Suno V4
而在 發音唱對率、樂段準確率、文本相關度、制作質量等客觀指標, 多個維度上,Mureka O1都完全勝過了目前市場份額最高的Sonu V4,讓海外的AI技術圈再次發出了靈魂三問:
圖丨Mureka O1在文本生成音樂的客觀測評中得分
這是誰?哪兒來的?怎么辦到的?
怎么說呢,疑惑的起點都是傲慢,從看不到中國AI的奮起,到不關心大廠以外的突破,這筆認知債務,還有很長時間要還。
作為一家上市公司,昆侖萬維沒有所謂「2VC」的敘事需求,它對AI的研究投入,一方面是對技術創新的敏感,另一方面也是自身業務的延伸。
早在3年前,昆侖萬維就用AI生成的音樂和圖形為旗下游戲業務做了降本增效——2萬塊錢的一首BGM版權,被5塊錢的AI成本頂替——這種基于現實需要的回報,客觀上也為昆侖萬維的AI版圖去掉了表演性質。
昆侖萬維的創始人周亞輝每年都會在朋友圈銳評各家公司的AI表現,并經常流傳出媒體喜聞樂見的金句,比如「字節跳動2023年的AI戰略不及格,但并不影響它在2024年的AI戰略能打滿分。」
而在對自家公司的評價上,周亞輝用了一個自創的詞組:「小而大美」。
昆侖萬維的市值,在500億人民幣左右,真要和全球互聯網大廠正面硬剛,顯然沒有多少勝算,但在周亞輝看來,昆侖萬維的AI進展不是「小而美」,而是「小而大美」,大在哪兒?
大在全球,大在對AI商業化上游的卡位。
如果在YouTube搜索Mureka,就能發現已經有很多創作者在用這款產品創作音樂了,這和很多AI概念產品的擴散路徑——先由技術社區引爆,再去尋找應用場景——還不太一樣,是市場先行、「炸裂」后至。
這和昆侖萬維的海外業務早已打下基底有關,語音社交應用StarMaker是中國互動娛樂出海的標志性產品,全球幾千萬人擠在里面唱歌打榜,對于音樂創作者會在多大程度上為生產力買單,熟念于心。
在這波AI浪潮襲來之前,StarMaker就在自己做語料庫了,單個小語種每個月要花幾百萬美元,這種積累,也相當于昆侖萬維在今天闖入音樂大模型的「合法外掛」,當一個高等級玩家出現在新手村,任何動作都會是降維打擊。
于是就有了Mureka O1的順利登頂。
某種程度上,Mureka O1會讓海外的AI從業者內心生出「快別卷了」的無奈,因為它是第一個引入思維鏈(Chain-of-Thought)的音樂大模型。
思維鏈就是OpenAI o1和DeepSeek-R1為大模型行業帶來的第二條進化曲線,通過教會大模型推理能力,在預訓練陷入瓶頸之后重新解決了智能不再提升的問題。
不過思維鏈幾乎只被用在文本大模型領域,從來沒有在音樂大模型有過嘗試,而昆侖萬維實現了讓Mureka O1像一個真實的唱作人那樣,用經驗和思考——而非直覺——來譜曲寫歌。
在已經發布的論文里,Mureka團隊意識到傳統自回歸模型在生成音頻時的局限性,也就是遵循Transformer的預測模式,只能按順序吐出音符(Token),而在開創了思維鏈之后,Mureka O1可以在生成之前就對整體作曲結構做出計劃和梳理,大幅提高音樂的連貫性。
而這正是現階段音樂大模型最深的痛點,沒有之一。
簡單來說,以Suno為代表的舊式音樂大模型,在創作音樂時很容易出現「有曲調而無旋律」的特點,有曲調意味著這確實可被辨識出是一首音樂作品,無旋律則說明和那些真正由人譜寫出來的音樂相比,AI的工作成果不夠動聽,沒有朗朗上口的藝術審美。
這和文本大模型被詬病的地方是一致的,看起來AI很能寫作,吐起詞句來連綿不絕,卻在很多時候經不起細看,因為堆砌痕跡過重,給人「AI味」太濃的觀感,更嚴重的指責,甚至將AI生成的作品稱作是「尸塊」。
而Mureka O1提供的推理能力,可以讓AI站在全局的視角規劃一首音樂從無到有的構建過程,避免「走一步算一步」的強行成分,這在實際體驗上再造了魔法般的美學功底。
比如這首放克風格的音樂作品「Hands up high」,你們聽完一定會和我產生同樣的驚訝,不止是完整度,連同旋律構思和歌詞卡點,包括逼真的人聲唱腔,幾乎都不再有AI生成時那種揮之不散的電子感,達到了可以發行的地步:
還有充滿自由氣息的歡快的鄉村歌曲:
置身于海灘的充滿激情的拉丁歌曲:
充滿未來感的賽博電子舞曲:
我自己 也用Mureka O1寫了一小段音樂,用電影「指環王」里阿拉貢在最終決戰前的陣前演講作為填詞,雖然做得簡單潦草,但是那句「But it is not this day」的停頓和轉折,已經相當驚艷了,我沒有輸入任何提示詞引導,純粹是Mureka O1自己做出的判斷。
從個人體感來看,Mureka生成一首完整音樂的速度在50秒左右,8美金/月的最低檔會員價格,對應400首音樂(V6模型)或者80首音樂(O1模型),平均「單曲成本」只有0.02美金或者0.1美金,可以說是白菜價了。
考慮到Mureka對于訂閱用戶生成的AI音樂都提供了商用授權,這是意味著普通人也能獲得每年超過5000首音樂的創作能力,無論是自用還是上傳到Spotify等流媒體平臺,對于數字音樂市場的沖擊將是空前絕后的。
這里可以插入一個也許有些反直覺的數據,那就是全球音樂市場的產值,其實是比全球電影市場還要略高的,這是一個300億美金的盤子,而且集中度偏高,僅是環球、索尼、華納三大唱片公司,就占到了錄制音樂市場份額的60%以上。
和視頻大模型的發展類似,音樂大模型的顛覆性也在于雙線作戰:不只是給素人創作者賦權,還能為專業創作者增效,還是那句老話,AI不會直接取代人,而是用AI的人會取代不會用AI的人。
就像今天幾乎已經沒有工程師不在用Cursor寫代碼,Mureka對于音樂制作人而言,有著純粹的暴力美學價值,比如基于一小段音符「填補」音樂,或是將歌曲反編譯為詞干,這些原本需要投入大量智力勞動的工作,都能交給Mureka以近乎無限的生成資源供給選用。
A16z曾經發過一篇關于AI音樂的前瞻報告,認為音樂產業非常適合AI的貨幣化,因為這里有著高度成熟化的商業鏈路,分賬模式也相對穩定,這種確定性,讓從業者們愿意為生產力的提高支付費用。
這大概就是周亞輝所說的「小而大美」真正的意思,以盡可能小的機會成本,切入相對大且確定的增值市場,和文本的量級相比,全世界古往今來的所有音樂曲目,只有4000萬首,對應繁榮的商業市場,訓練起來的性價比很高。
在Mureka之外,昆侖萬維還在海外做了AI短劇平臺SkyReels,同樣是以打掉90%以上生產成本的方法,刺激供給端的爆發。
加上TikTok等短視頻平臺已經新創了洗腦神曲和BGM模版的經濟體系,新的生產關系,一定會長出新的音樂創作者,他們所用的工具,也并非必須和傳統創作者保持一致。
畢竟,從智人時代開始,越早掌握先進工具的人類,越能取得物種進化的優勢,尼安特人的石器制作技術曾經一度領先,但在幾十萬年里沒有任何改進,但智人已經在舊石器晚期已經開發出了可投擲的標槍和箭矢等復合工具,最終幫助智人在競爭中取得了勝利。
兩年前,孫燕姿寫了一篇文章回應「AI孫燕姿」的泛濫,她的態度很有意思,混雜著自嘲和看戲——「此刻,我覺得自己就像一個吃爆米花、坐在電影院最好的位置上的人。」
當時,距離Suno的發布還有半年時間,所謂AI音樂的生產,主要還停留在「臨摹」的層面,也就是復制音樂人的聲線,讓「她」去唱別的歌曲,還沒有達到原創的地步。
但是孫燕姿已經敏銳察覺到技術發展的一日千里——這份敏銳甚至超過了大多數行業人士——她說可能有人會反對AI音樂的影響,認為自己能夠分辨出區別,因為它沒有情緒、音調和呼吸的變化,而孫燕姿則表示:「很抱歉,我懷疑這只是一個非常短期內的回應,人類無法超越它已指日可待。」
果然,從Suno的驚世登場,到Mureka的急起逆襲,音樂大模型能做的事情,正在驗證著孫燕姿的預判,所以她才主動選擇了接受,并相信音樂人做自己——也就是發揮人的那部分價值——才是最大的護城河。
不過,對于更多想要揚名立萬的創作者來說,AI才是能幫他們做自己的工具,Mureka O1的大受好評,就建立在這種濃得無法化開的需求之上,一次古登堡式的歌唱平權。
而在DeepSeek橫空出世之后,國產AI行業就開始呈現出類似工業領域的供應鏈溢出效應,讓音樂大模型學會推理創作,就是其中一個例證,更重要的是,從人才密度,到技術突破,中國的AI公司都開始騎臉輸出,反過來向全球貢獻經驗,并挨個占領所有榜單的前列位置。
波瀾壯闊的創新,永遠的科技發展史上最美麗的那道風景線。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.