(來源:MIT Technology Review)
1956 年,計算領域的頂尖科學家齊聚達特茅斯學院參加夏季會議時,“人工智能”一詞剛剛出現。
近 70 年后,在該領域經歷了數次興衰循環之后,處于蓬勃發展階段。過去三年,生成文本的大語言模型發展迅猛,而基于擴散模型的另一類人工智能,正以前所未有的態勢沖擊創意領域。擴散模型能將隨機噪聲轉化為有序模式,在文本提示或其他輸入數據的引導下,生成全新的圖像、視頻或語音。頂尖的擴散模型生成的內容,與人類創作難分伯仲,也能產出奇異、超現實,一看就不似人類創作的作品。
如今,這些模型正在進軍音樂領域。人工智能創作的音樂作品,從交響樂到重金屬,正全方位融入我們的生活。這些歌曲可能會出現在流行媒體平臺歌單、派對和婚禮播放列表、影視配樂中。
音樂形象
擴散模型在音樂創作中的原理與圖像生成類似,但它并非像樂隊創作那樣,從鋼琴和弦開始,逐步加入人聲、鼓等元素,而是一次性生成所有音樂元素。這一過程基于這樣一個事實:歌曲的諸多復雜特征可以在單個波形中直觀呈現,波形表示的是聲波幅度隨時間的變化,它實際上包含了所有不同樂器和音色的頻率總和。
由于波形或類似的頻譜圖可以像圖像一樣進行處理,因此可以基于它們創建擴散模型。訓練模型時,會向其輸入數百萬段現有歌曲片段,并為每個片段添加描述標簽。生成新歌曲時,模型從純隨機噪聲開始,根據提示詞中的描述反向生成新的波形。
人工智能音樂公司Udio與Suno 公司在音樂生成模型領域競爭激烈。兩家公司都致力于開發讓非專業音樂人也能創作音樂的 AI 工具。Suno 規模更大,用戶超過 1200 萬,并在 2024 年 5 月獲得了 1.25 億美元融資,還與知名音樂人 Timbaland 展開合作;Udio 則在 2024 年 4 月獲得了來自 Andreessen Horowitz 等知名投資機構以及音樂家的 1000 萬美元種子輪融資。
目前來看,Udio 和 Suno 的成果顯示,相當一部分人似乎并不在意自己聽的音樂是由人類創作還是機器生成。Suno 為創作者提供了藝術家頁面,部分頁面吸引了大量粉絲,這些創作者完全借助 AI 生成歌曲,還常常搭配 AI 生成的藝術家形象。他們并非傳統意義上的音樂人,而是精通提示詞輸入的高手,他們創作的作品很難歸屬于某一位作曲家或歌手。
(來源:MIT Technology Review)
然而,音樂產業對此持抵制態度。2024 年 6 月,這兩家公司被主要唱片公司起訴,相關訴訟仍在進行中。環球、索尼等唱片公司指控 AI 模型在訓練過程中使用了大量受版權保護的音樂,生成的歌曲“模仿真實人類錄音品質”。
在針對 Suno 的訴訟案例中,就提到了一首類似 ABBA 風格的歌曲《Prancing Queen》。Suno 未回應訴訟置評請求,但在 8 月發布的聲明中,首席執行官Mikey Shulman在公司博客上表示,公司在公開網絡獲取音樂用于訓練,其中確實包含受版權保護的內容,但他認為“學習并不構成侵權”;Udio 的代表則表示,公司不會對未決訴訟發表評論。訴訟發生時,Udio 發布聲明稱,其模型設有過濾器,可確保不會復制受版權保護的作品或模仿藝術家的聲音。
美國版權局在 1 月份發布的指導意見讓情況更加復雜。該意見指出,如果人工智能生成的作品融入了大量人類投入,就可以獲得版權。一個月后,紐約的一位藝術家獲得了在 AI 輔助下創作的視覺藝術作品的首個版權。或許不久后,第一首 AI 生成的歌曲也將獲得版權。
新穎性和模仿性
這些法律案件陷入了一個模糊地帶,與其他 AI 相關的法庭爭端類似。核心問題在于,是否允許 AI 模型使用受版權保護的內容進行訓練,以及生成的歌曲是否構成對人類藝術家風格的不當復制。
無論法院最終如何判決,AI 音樂都有可能以某種形式蓬勃發展。有報道稱,YouTube 一直在與主要唱片公司洽談,希望獲得音樂授權用于 AI 訓練。Meta 近期也擴大了與環球音樂集團的合作協議,這意味著 AI 生成音樂的授權或許已提上日程。
如果 AI 音樂持續發展,它究竟有哪些價值?這涉及3個關鍵因素:訓練數據、擴散模型本身以及提示詞。模型的質量取決于其學習的音樂庫及其描述的豐富程度,描述越精準,模型效果越好。模型的架構決定了它如何運用所學知識生成歌曲。而輸入模型的提示詞,以及模型對提示詞的“理解”程度,同樣至關重要。
AI 生成的音樂究竟是創作還是簡單復制訓練數據?可以說,最關鍵的問題在于訓練數據的廣泛性、多樣性以及標注的準確性。Suno 和 Udio 都未公開其訓練集中包含哪些音樂,不過在訴訟過程中,這些細節可能會被披露。
Udio 表示,歌曲的標注方式對模型極為重要。簡單的描述可能只是確定歌曲的流派,而更細致的描述還可以包括歌曲的情感基調,比如憂郁、振奮或平靜等,專業描述則可能涉及 2-5-1 和弦進行或特定音階。Udio 稱,他們通過機器標注和人工標注相結合的方式來實現。
競爭激烈的 AI 音樂生成平臺還需要不斷學習新的歌曲,否則其生成的作品會逐漸過時。目前,AI 生成的音樂依賴于人類創作的藝術作品,但未來,AI 音樂模型或許會利用自身的輸出成果進行訓練,這一方法已在其他 AI 領域展開試驗。
由于模型從隨機噪聲采樣開始生成音樂,結果具有不確定性,即便輸入相同的提示詞,每次生成的歌曲也會不同。許多擴散模型開發者,包括 Udio,還會在生成過程中額外添加隨機性,即對每一步生成的波形進行微調,希望借此讓輸出結果更具趣味性或真實感。
(來源:MIT Technology Review)
如果創造性產出的定義是既新穎又有用,那么機器或許能在“有用”這一標準上與人類媲美,但在“新穎性”方面,人類更勝一籌。
為了驗證這一觀點,我花了幾天時間體驗 Udio 的模型。使用該模型生成 30 秒的音樂樣本大約需要一兩分鐘,如果是付費版本,則可以生成完整的歌曲。我選擇了 12 種音樂流派,為每種流派生成歌曲樣本,并找到人類創作的類似風格歌曲。然后我設計了一個測驗,讓同事們分辨哪些歌曲是 AI 創作的。
最終測試結果的平均正確率為 46%。對于某些流派,尤其是器樂曲,聽眾常常判斷錯誤。在觀察大家測試的過程中我發現,他們認為是 AI 合成歌曲的特征,比如奇怪的發聲效果、詭異的歌詞,往往并不可靠。不出所料,人們對不太熟悉的音樂流派判斷準確率更低。有些人對鄉村音樂或靈魂樂的判斷比較準確,但很多人在爵士樂、古典鋼琴曲或流行樂的判斷上表現不佳。創造力研究專家Beaty的測試正確率為 66%,作曲家Brandt的正確率為 50%(不過他在管弦樂和鋼琴奏鳴曲的測試中回答得很準確)。
需要明確的是,這些 AI 生成的歌曲并非完全歸功于模型本身,如果沒有人類藝術家的作品作為訓練數據,這些歌曲根本無法誕生。但僅通過簡單的提示詞,該模型就能生成很多人難以辨別是否為機器創作的歌曲。在聚會上播放這些歌曲,也不太容易被人察覺異樣。我還發現了兩首自己很喜歡的歌曲,即使是專業音樂人或對音樂很挑剔的人,也不會覺得突兀。不過,聽起來真實并不等同于聽起來有創意。這些歌曲缺乏獨特的風格,沒有貝多芬式的“神來之筆”,也沒有突破流派限制或展現出主題上的大膽創新。在測試中,人們有時很難判斷一首歌究竟是 AI 生成的,還是質量欠佳的人類作品。
人們或許會好奇這些音樂背后的創作者是誰。但歸根結底,無論其中有多少人工智能成分,也無論有多少人類成分,它終究是藝術,人們會根據其美學價值的優劣來評判它。
https://www.technologyreview.com/2025/04/16/1114433/ai-artificial-intelligence-music-diffusion-creativity-songs-writer/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.