數(shù)據(jù)枯竭:AI面臨的未知挑戰(zhàn)
人工智能公司幾乎已經(jīng)用盡了整個開放互聯(lián)網(wǎng)的數(shù)據(jù),為了使每個大型語言模型(LLM)比前一個更強(qiáng)大,我們幾乎耗盡了整個網(wǎng)絡(luò)的數(shù)據(jù)寶庫。如今,隨著開放互聯(lián)網(wǎng)的數(shù)據(jù)瀕臨枯竭,AI界面臨了一個前所未有的挑戰(zhàn)。為了打造出比前代更強(qiáng)大的大型語言模型(LLM),我們可能不得不轉(zhuǎn)向使用AI自身生成的數(shù)據(jù),這是一把雙刃劍?!度A爾街日報(bào)》的報(bào)告指出,這種做法不僅可能引發(fā)模型的幻覺,而且還可能導(dǎo)致“數(shù)字近親繁殖”,最終令模型崩潰。
創(chuàng)新還是風(fēng)險(xiǎn)?新的數(shù)據(jù)訓(xùn)練方法
由前Meta和Google DeepMind的研究員Ari Morcos創(chuàng)立的Dataology,開始探索如何用更少的數(shù)據(jù)和資源來訓(xùn)練這些龐大的模型。
與此同時(shí),OpenAI等大玩家也在嘗試一些創(chuàng)新且具有爭議的數(shù)據(jù)訓(xùn)練方法,例如考慮利用YouTube視頻的公開轉(zhuǎn)錄來訓(xùn)練GPT-5模型。這種做法雖然創(chuàng)新,但也面臨著版權(quán)和倫理的挑戰(zhàn)。
向合成數(shù)據(jù)的轉(zhuǎn)變,策略調(diào)整:追求可持續(xù)的技術(shù)發(fā)展
盡管我們正處在一個數(shù)據(jù)匱乏的時(shí)代,但OpenAI和Anthropic等公司正在積極開發(fā)更優(yōu)質(zhì)的合成數(shù)據(jù),以此來克服挑戰(zhàn)。他們的方法雖然還不完全透明,但意味著我們可能不遠(yuǎn)的將來會看到一些重大的技術(shù)突破。
關(guān)于人工智能公司可能面臨的問題的擔(dān)憂已經(jīng)存在一段時(shí)間了。Epoch的研究員Pablo Villalobos等專家預(yù)測,如果當(dāng)前趨勢持續(xù),人工智能可能很快就會耗盡其可用的訓(xùn)練數(shù)據(jù)。面對這種情況,一個可行的方案浮現(xiàn),AI公司可以選擇停止追求規(guī)模更大、更復(fù)雜的模型。這不僅能減少對稀土礦物和巨大能源消耗的依賴,還可能引領(lǐng)我們走向更加可持續(xù)和負(fù)責(zé)任的技術(shù)發(fā)展道路。
在這個充滿挑戰(zhàn)和機(jī)遇的時(shí)代,我們正站在一個關(guān)鍵的十字路口。我們的選擇不僅會影響技術(shù)的未來,更會觸及我們與這個世界共存的方式。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.