99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「小模型」有更多機(jī)會(huì)點(diǎn)

0
分享至


文:王智遠(yuǎn) | ID:Z201440

昨天有提到,為什么要研究語言模型。

原因主要有兩點(diǎn):

一,喬姆斯基認(rèn)為,語言是思考的工具。要理解人類的心智,必須研究語言,語言和心智是密切相關(guān),我們的主要觀點(diǎn)是“壓縮論”,人工智能可以表現(xiàn)為一種壓縮的形式。

二,語言非常重要。沒有語言,人類的高級思考就無法進(jìn)行。因此,語言不僅是知識(shí)的載體,還是一種高度抽象的符號系統(tǒng)。

那么,為什么選擇語言模型進(jìn)行研究,而不是研究圖像、聲音或其他類型的數(shù)據(jù)呢?很簡單,語言文本的數(shù)據(jù)壓縮更方便,也更省錢。

我把聽課的內(nèi)容總結(jié)了一下,仔細(xì)看后發(fā)現(xiàn),歷史發(fā)展脈絡(luò)非常有趣,總結(jié)起來就是四個(gè)字:壓縮即智能。

01

為什么這么說呢?14世紀(jì),英格蘭有個(gè)邏輯學(xué)家,名叫威廉·奧卡姆(約1285年至1349年),他提出了一個(gè)很有名的原則,叫做「奧卡姆剃刀」

這個(gè)原則的意思是:

如果可以用簡單的規(guī)則來解釋一件事情,那么這個(gè)簡單的解釋通常是正確的;聽起來可能有點(diǎn)抽象,但很容易懂。中文里有句老話:“如無必要,勿增實(shí)體”,講的就是這個(gè)道理。

舉個(gè)例子:

在數(shù)學(xué)里,如果我給你一個(gè)數(shù)列:1, 2, 3, 5, 8,讓你猜下一個(gè)數(shù)字,你可能會(huì)想到是13。因?yàn)檫@個(gè)數(shù)列是斐波那契數(shù)列,每個(gè)數(shù)字都是前兩個(gè)數(shù)字的和。這個(gè)解釋很簡單,也很合理。

那為什么我們覺得13是對的,而不是隨便猜一個(gè)數(shù)呢?

我隨便說一個(gè)數(shù),然后編一個(gè)很復(fù)雜的理由來解釋它,雖然我也可以寫一個(gè)程序來證明這個(gè)數(shù)是對的,但這會(huì)很復(fù)雜。

奧卡姆剃刀告訴我們的就是,如果一個(gè)現(xiàn)象可以用簡單的規(guī)則來解釋,那它通常就是對的;因此,最初的研究者普遍遵循奧卡姆剃刀的原則。

后來,有個(gè)人提出了不同的看法。

這個(gè)人叫雷·所羅門諾夫(1926-2009)他曾經(jīng)參加過達(dá)特茅斯會(huì)議,也是會(huì)議的發(fā)起者之一,他的研究相對冷門,他覺得,按照奧卡姆剃刀的原理,并不是所有數(shù)字都有可能成為正確答案。

通常情況下,如果一個(gè)規(guī)律更容易描述,那它就更可能是正確的。因?yàn)槲覀兊氖澜缈赡鼙举|(zhì)上是簡單的。宇宙的底層規(guī)則,很可能是一個(gè)簡單的原理,而不是復(fù)雜的。

因此,生活中的大多數(shù)現(xiàn)象都可以通過規(guī)律來預(yù)測。但具體怎么做呢?

我們可以把這些規(guī)律寫成圖靈機(jī)(模型、公式)的形式,然后同時(shí)模擬所有可能的圖靈機(jī);簡單的圖靈機(jī),我們給它更多時(shí)間去運(yùn)行;復(fù)雜的,就給它更少時(shí)間。

通過這種方法,我們可以構(gòu)建一個(gè)“普世分布”,這意味著,如果你給我一個(gè)數(shù)列,讓我預(yù)測下一個(gè)數(shù)字,我雖然不能確定具體是哪個(gè)數(shù),但我可以給出一個(gè)概率。

這個(gè)“普世分布”可以說是對任何序列推理問題的最佳預(yù)測;不過,雖然這個(gè)東西客觀存在,也能被理解,但它實(shí)際上是不可計(jì)算的。因此,它更多是一種哲學(xué)上的思考,而非實(shí)際應(yīng)用的工具。

后來,有一個(gè)人叫柯爾莫果洛夫(1903-1987),他說:

所羅門諾夫說得對,但我們怎么判斷一個(gè)圖靈機(jī)或者一個(gè)模型是簡單的還是復(fù)雜的呢?不能只靠概率分布吧。

于是,他提出了柯氏復(fù)雜度的公式概念。簡單來說,如果一個(gè)序列是正確的,那么可以用一個(gè)圖靈機(jī)來描述它。圖靈機(jī)越簡單,這個(gè)序列的復(fù)雜度就越低。

柯氏復(fù)雜度的公式是這樣的:

K(x) = min{|p| : T(p) = x}

這個(gè)公式里的 KK是用來預(yù)測某個(gè)東西 xx的圖靈機(jī) CC的長度。如果 CC運(yùn)行后結(jié)果是 xx,那么 CC的長度越短,復(fù)雜度 KK就越低。

舉個(gè)例子:

設(shè)你有一個(gè)數(shù)列:2, 4, 6, 8, 10。你發(fā)現(xiàn)這個(gè)數(shù)列的規(guī)律是“每次加2”。于是,你可以用一句話來描述它:“從2開始,每次加2?!边@句話很短,所以這個(gè)數(shù)列的“復(fù)雜度”很低。

再看另一個(gè)數(shù)列:3, 1, 4, 1, 5。這個(gè)數(shù)列看起來沒有規(guī)律,你只能用笨辦法描述它:“第一個(gè)數(shù)是3,第二個(gè)是1,第三個(gè)是4,第四個(gè)是1,第五個(gè)是5?!边@句話很長,這個(gè)數(shù)列的“復(fù)雜度”很高。

需要注意的是,柯氏復(fù)雜度是一個(gè)理論上的概念,雖然可以定義,但在實(shí)際中無法精確計(jì)算。

02

后來,有個(gè)人對柯爾莫果洛夫的理論提出了質(zhì)疑,他叫尤爾根·施密德胡伯,人們稱他為長短期記憶(LSTM)之父。

他說:

柯爾莫果洛夫的理論并不完全正確。簡單性不僅僅是用一個(gè)簡單的圖靈機(jī)生成序列,如果這個(gè)圖靈機(jī)需要運(yùn)行100年才能生成結(jié)果,那這還能算是成功的描述嗎?

簡單性應(yīng)該包括圖靈機(jī)的運(yùn)行速度。

也就是說,生成序列所需的計(jì)算時(shí)間越短,復(fù)雜度就越低?!边@就是他提出的“速度優(yōu)先”原則。因此,計(jì)算的速度優(yōu)先是很重要的。

為什么要速度優(yōu)先呢?

還有一點(diǎn),因?yàn)橐郧暗难芯渴腔诜栔髁x的。什么是符號主義(Symbolic AI 或 Logical AI)?簡單來說,用符號和規(guī)則來表示知識(shí),然后通過邏輯推理來解決問題。

舉個(gè)例子,如果我們知道“鳥會(huì)飛”和“企鵝是鳥”,符號主義會(huì)推理出“企鵝會(huì)飛”。但實(shí)際上,企鵝是不會(huì)飛的。這就出問題了。

這里有兩個(gè)主要困難:

一,柯爾莫果洛夫復(fù)雜度的限制。復(fù)雜的系統(tǒng)可以生成簡單的東西,但簡單的系統(tǒng)無法生成復(fù)雜的東西。這是一個(gè)基本的不等式。比如,一個(gè)復(fù)雜的程序可以生成簡單的數(shù)列,但一個(gè)簡單的程序無法生成復(fù)雜的數(shù)列。

第二,人類大腦是一個(gè)黑盒,要模擬人類大腦的功能,需要多高的復(fù)雜度呢?我們猜它應(yīng)該是很高的復(fù)雜度,因?yàn)槿祟愌芯苛诉@么多年,還沒完全搞明白。這說明大腦的復(fù)雜度非常高,可能是一串很大的數(shù)字。

如果我們試圖用符號主義的方法,通過編寫規(guī)則或程序來模擬人類智能,這幾乎是不可能的。

舉個(gè)例子:

我們從互聯(lián)網(wǎng)上抓取大量數(shù)據(jù),把世界上所有網(wǎng)頁的文字都抓下來。這些數(shù)據(jù)有多大呢?可能是幾百PB(一種很大的數(shù)據(jù)單位)。它的復(fù)雜度非常高。

雖然這些文字是人類寫的,可能有一定的規(guī)律,可以壓縮得小一些,但它仍然有很大的復(fù)雜度。這個(gè)復(fù)雜度,甚至可能超過人腦的復(fù)雜度。

如果我們把這些數(shù)據(jù)加上某種模型,就有可能達(dá)到和人腦類似的智能功能,這樣,就解決了符號主義的一個(gè)根本缺陷。因此,轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的方法是必然的。如果沒有數(shù)據(jù),你根本不知道復(fù)雜度從哪里來。

既然復(fù)雜度已經(jīng)很高了,我們還希望它是可解釋的,這就比較難了。

你只能在某些特定方面解釋它,但無法完全搞清楚它的原理。就像研究人腦,你可以研究一些局部的機(jī)制,但要想完全弄清楚整體原理,幾乎是不可能的。因?yàn)槿祟愔荒芾斫夂唵蔚臇|西。

03

我們今天的大語言模型是什么呢?它就是用很高復(fù)雜度的數(shù)據(jù),通過算法壓縮,得到一個(gè)相對較小但仍然復(fù)雜的模型。這個(gè)模型可以比較準(zhǔn)確地預(yù)測語言。

有了這個(gè)模型,我們只需要補(bǔ)充一點(diǎn)點(diǎn)信息,就能恢復(fù)原始數(shù)據(jù)。所以,大語言模型其實(shí)是一個(gè)數(shù)據(jù)壓縮的過程,而模型本身是數(shù)據(jù)壓縮的結(jié)果。

直到2019年3月,強(qiáng)化學(xué)習(xí)領(lǐng)域的重要人物,加拿大阿爾伯塔大學(xué)教授的Rich Sutton寫了一篇文章,叫做《The Bitter Lesson》,中文翻譯成“苦澀的教訓(xùn)”。

這篇文章總結(jié)了人工智能領(lǐng)域過去70年的發(fā)展歷程。很多公司,比如OpenAI,都遵循這篇文章里的原理,Rich Sutton講了一個(gè)重要的觀點(diǎn):

從1950年代開始,在人工智能的研究中,研究者們經(jīng)常覺得自己很聰明,發(fā)現(xiàn)了一些巧妙的方法,然后把這些方法設(shè)計(jì)到智能算法里,短期內(nèi),這種做法確實(shí)有用,能帶來一些提升,還能讓人感到自豪,覺得自己特別厲害。

但長期來看,這種做法是行不通的,因?yàn)樵俾斆鞯娜耍膊豢赡芤恢甭斆飨氯?。如果只做這種研究,最終反而會(huì)阻礙進(jìn)步。

真正取得巨大突破的,往往不是那些精巧的設(shè)計(jì),而是在計(jì)算和學(xué)習(xí)上投入更多資源。這種方法雖然看起來笨,卻能帶來革命性的提升。

歷史上,每次人工智能的重大進(jìn)步,都伴隨著這種“苦澀的教訓(xùn)”。但人們往往不喜歡吸取這種教訓(xùn),因?yàn)樗悬c(diǎn)反人性。

我們更喜歡贊美人類的智慧,設(shè)計(jì)一些巧妙的算法,覺得這樣才高級。而用大量數(shù)據(jù)和算力去訓(xùn)練模型,雖然能成功,卻讓人覺得不夠“聰明”。

這種“大力出奇跡”的成功,常常被人看不起。但事實(shí)一次又一次證明,這種看似笨的方法,才是真正有效的;這也解釋了為什么我們要做大模型——因?yàn)橹挥型ㄟ^大規(guī)模的計(jì)算和學(xué)習(xí),才能實(shí)現(xiàn)真正的突破。

因此,開發(fā)大模型并非為了展示技術(shù)實(shí)力,而是因?yàn)樗_實(shí)能帶來顯著的成果,這就是為什么我們要在基礎(chǔ)設(shè)施上投入更多資源,去支持這些大模型的訓(xùn)練和發(fā)展。

04

所以,壓縮即智能。通過壓縮數(shù)據(jù),模型能夠提取出更高層次的特征和規(guī)律,從而表現(xiàn)出智能行為。那么,這個(gè)“壓縮即智能”的說法是誰提出的呢?

從2006年開始,德國人工智能研究員Hutter Prize每年都會(huì)舉辦一個(gè)比賽。這個(gè)項(xiàng)目叫,Hutter Prize for Lossless Compression of Human Knowledge(簡稱 Hutter 獎(jiǎng))

比賽的目標(biāo)是:把1GB的維基百科數(shù)據(jù)壓縮到110兆。


截圖來源:hutter獎(jiǎng)官網(wǎng),地址:http://prize.hutter1.net

如果你能壓縮得比這個(gè)更小,就說明你的壓縮方法更聰明,這個(gè)比賽的總獎(jiǎng)金是50萬美元,目前已經(jīng)支付了29萬多美元。

不過,放在七八年前,這個(gè)比賽可能還挺有意義的。但今天再看,1GB的數(shù)據(jù)量顯得有點(diǎn)小了,畢竟,現(xiàn)在的模型動(dòng)不動(dòng)就處理幾百GB甚至更多的數(shù)據(jù)。

如果你有興趣,可以去試試這個(gè)比賽,里面還有很多符號主義的方法,大模型的思路還沒完全用上。

那么,怎么提高壓縮的效果呢?主要有幾條路:

一,更聰明的算法;以前用n-gram這種統(tǒng)計(jì)方法,效率很低。雖然數(shù)據(jù)量大,但模型效果一般?,F(xiàn)在有了更聰明的算法,比如深度學(xué)習(xí),能更高效地利用數(shù)據(jù),訓(xùn)練出更大的模型,而且不會(huì)過擬合。

二,更多的數(shù)據(jù);數(shù)據(jù)越多,模型效果越好。但問題是,互聯(lián)網(wǎng)上的數(shù)據(jù)已經(jīng)抓得差不多了,還能從哪里找更多數(shù)據(jù)呢?

兩個(gè)維度,用更小的模型垂直到行業(yè)的本地知識(shí)(local knowledge)中讓所有人用起來,然后,小模型投喂給大模型,最終加上訓(xùn)練時(shí)間。

尤爾根·施密德胡伯(LSTM之父)提出,速度也很關(guān)鍵。如果投入更多時(shí)間訓(xùn)練,模型的效果可能會(huì)更好。這也是OpenAI等公司走的路線。

所以,如果你相信“壓縮即智能”的觀點(diǎn),那么在同樣的數(shù)據(jù)量下,小模型如果能達(dá)到和大模型一樣的效果,那小模型顯然更聰明。

說到這,不妨思考下:為什么今天還要研究大模型?

因?yàn)楦鶕?jù)柯爾莫果洛夫復(fù)雜度,只有足夠大的模型,才有可能接近通用人工智能的目標(biāo),雖然小模型的研究也有意義,但最終要實(shí)現(xiàn)通用人工智能,大模型是不可避免的。

因此,一個(gè)結(jié)論是:如果你的目標(biāo)是AGI,那做大無疑是最佳選擇,你的目標(biāo)是細(xì)分垂直,小模型最劃算。理解這一點(diǎn),也就理解了,大廠為什么追求大模型,但往往,小模型,有更多機(jī)會(huì)點(diǎn)。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“生母繼父殺子案”發(fā)生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

“生母繼父殺子案”發(fā)生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

紅星新聞
2025-04-26 01:24:18
女人不怕你占她便宜,而是怕…

女人不怕你占她便宜,而是怕…

青蘋果sht
2025-04-18 05:59:47
A股:周末重磅!國務(wù)院同意建立,財(cái)政部、證監(jiān)會(huì)集體發(fā)聲!

A股:周末重磅!國務(wù)院同意建立,財(cái)政部、證監(jiān)會(huì)集體發(fā)聲!

虎哥閑聊
2025-04-26 10:20:57
鄭欽文0-2慘?。】膳虏皇禽斍?,而是賽后鄭欽文這番話,心氣沒了

鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

振華觀史
2025-04-26 11:03:21
北京知名外科醫(yī)生出軌多人:護(hù)士長3月兩懷孕,大量骯臟細(xì)節(jié)披露

北京知名外科醫(yī)生出軌多人:護(hù)士長3月兩懷孕,大量骯臟細(xì)節(jié)披露

博士觀察
2025-04-26 10:30:20
男子炒股11年賺6000萬,曾1天虧1100萬,當(dāng)事人:不建議模仿

男子炒股11年賺6000萬,曾1天虧1100萬,當(dāng)事人:不建議模仿

瀟湘晨報(bào)
2025-04-26 15:00:07
劉強(qiáng)東:我還有一個(gè)領(lǐng)養(yǎng)的妹妹,并不熟悉,但每年都給她很多錢

劉強(qiáng)東:我還有一個(gè)領(lǐng)養(yǎng)的妹妹,并不熟悉,但每年都給她很多錢

慢看世界
2025-04-26 10:01:12
名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現(xiàn)在球隊(duì)更衣室內(nèi)的氛圍非常凝重

名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現(xiàn)在球隊(duì)更衣室內(nèi)的氛圍非常凝重

雷速體育
2025-04-26 12:53:55
北京上海大跌,千萬要警惕了!

北京上海大跌,千萬要警惕了!

七叔東山再起
2025-04-25 20:49:46
太行山懸崖摩天筒梯走紅,景區(qū)回應(yīng):每年“體檢”已運(yùn)營近25年

太行山懸崖摩天筒梯走紅,景區(qū)回應(yīng):每年“體檢”已運(yùn)營近25年

上游新聞
2025-04-26 12:45:11
王菲現(xiàn)身謝霆鋒演唱會(huì)!安靜地坐在角落聽歌,55歲的年紀(jì)看起來像30

王菲現(xiàn)身謝霆鋒演唱會(huì)!安靜地坐在角落聽歌,55歲的年紀(jì)看起來像30

二月侃事
2025-04-26 08:38:27
江西一家三口被開快車泄憤男子撞死后 失獨(dú)老人發(fā)現(xiàn)兒子的獻(xiàn)血證和聯(lián)合國兒童基金會(huì)“月捐”證書

江西一家三口被開快車泄憤男子撞死后 失獨(dú)老人發(fā)現(xiàn)兒子的獻(xiàn)血證和聯(lián)合國兒童基金會(huì)“月捐”證書

閃電新聞
2025-04-25 22:54:13
四川一國企“80后”掌門人為報(bào)領(lǐng)導(dǎo)“知遇之恩”,盲目決策致數(shù)億損失

四川一國企“80后”掌門人為報(bào)領(lǐng)導(dǎo)“知遇之恩”,盲目決策致數(shù)億損失

澎湃新聞
2025-04-26 15:18:26
“愛潑斯坦案”關(guān)鍵證人弗吉尼亞·朱弗雷自殺身亡

“愛潑斯坦案”關(guān)鍵證人弗吉尼亞·朱弗雷自殺身亡

新京報(bào)
2025-04-26 10:14:08
波音總裁回應(yīng):波音不會(huì)繼續(xù)為不接收飛機(jī)的客戶制造飛機(jī)!

波音總裁回應(yīng):波音不會(huì)繼續(xù)為不接收飛機(jī)的客戶制造飛機(jī)!

翻開歷史和現(xiàn)實(shí)
2025-04-24 21:48:17
心智障礙者做100杯咖啡上崗0投訴,創(chuàng)始人回應(yīng):殘次品半價(jià)銷售,客人整體包容度很高

心智障礙者做100杯咖啡上崗0投訴,創(chuàng)始人回應(yīng):殘次品半價(jià)銷售,客人整體包容度很高

觀威海
2025-04-25 15:19:29
字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

湖人崛起
2025-04-26 10:29:17
“想不到他深情到這個(gè)地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個(gè)地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報(bào)
2025-04-25 17:58:08
外籍學(xué)生群毆中國人后續(xù):受害者已毀容,畫面不忍直視,官方介入

外籍學(xué)生群毆中國人后續(xù):受害者已毀容,畫面不忍直視,官方介入

歸史
2025-04-26 11:25:34
“五一花100塊買票回家”引全網(wǎng)群嘲:貧窮,是父母最失敗的教育

“五一花100塊買票回家”引全網(wǎng)群嘲:貧窮,是父母最失敗的教育

熙熙說教
2025-04-25 20:40:56
2025-04-26 15:35:00
智遠(yuǎn)同學(xué) incentive-icons
智遠(yuǎn)同學(xué)
暢銷書《復(fù)利思維》作者;精神生活與商業(yè)探索,關(guān)注科技人文、消費(fèi)電商、品牌營銷、商業(yè)認(rèn)知思維等方面。
408文章數(shù) 88關(guān)注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價(jià)

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價(jià)

體育要聞

去更大的舞臺(tái)追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎(jiǎng)出爐,包貝爾意外獲“影帝”

財(cái)經(jīng)要聞

韓國的"宇樹科技" 是怎樣被財(cái)閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

本地
藝術(shù)
家居
親子
軍事航空

本地新聞

云游湖北 | 漢川文旅新體驗(yàn):千年陶藝邂逅湖光

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

清徐現(xiàn)代 有溫度有態(tài)度

親子要聞

孩子的教育要正確,家長和老師共同配合

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 原平市| 雅安市| 海兴县| 瑞丽市| 海淀区| 宁化县| 贺州市| 利津县| 灵川县| 左贡县| 八宿县| 荔浦县| 汶上县| 长岛县| 柳河县| 乌拉特中旗| 井陉县| 于田县| 台东市| 和政县| 黄梅县| 宣汉县| 桂林市| 东辽县| 广饶县| 阜城县| 类乌齐县| 平潭县| 东乌| 华宁县| 景泰县| 六盘水市| 沭阳县| 高尔夫| 福海县| 石门县| 天长市| 时尚| 济阳县| 苍山县| 阜平县|