99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

語言模型到底是什么?

0
分享至


文:王智遠 | ID:Z201440

有人問你:語言模型到底是什么?怎么解釋?

如果說,它是一種預測生成自然語言的模型,能夠理解一個人標的問題,然后給出答案。你可能略聽懂一二,但想深入理解就難了。怎么辦?

我們不妨從研究者視角,來看看他們眼中的語言模型。

01

以前,人們研究語言時,常使用「自動機」這個概念。

喬姆斯基就提倡大家用自動機來研究語言,自動機的工作原理是:如果你說的一句話是對的,它就接受;如果是錯的,它就拒絕。這就像寫一個程序,用來判斷句子是否正確。

但語言模型的想法有些不同,它認為,句子并不是非黑即白的,而是有一定的“軟性”。

比如:你說“中國的首都是北京”,這句話是對的,概率很高。但如果你說“美國的首都是北京”,雖然這句話在語法上沒問題,但事實是錯誤的。

語言模型不會直接拒絕它,而是認為它的概率比較低。

語言模型會把句子中的每個詞(比如“中國”、“首都”、“北京”)組合起來,計算它們的聯合概率。如果我們能準確預測這個聯合概率,就說明我們對語言的理解比較準確。

這里有一個重要的信念:如果我們能通過聯合概率模型判斷出“中國的首都是北京”是對的,而“美國的首都是北京”是錯的,那么這個模型就具備了一些類似人類的知識。

也就是說,人工智能可能就隱藏在準確預測聯合概率的過程中。所以,如果我們能把語言模型做好,就相當于獲得了人工智能的能力。

當然,關于這方面,有不同的觀點。

比如,伊利亞(OpenAI的ChatGPT團隊)認為,只要你能準確預測下一個詞,就意味著你對現實世界的理解非常準確。

但也有反對的聲音,比如圖靈獎得主Judea Pearl,他研究的是因果推理,他認為僅僅通過統計來預測語言是不夠的,真正的理解需要通過因果推理來實現。

所以,語言模型爭論從1960年的符號主義出現,到1980年,一直在爭論。

后來,基于統計學的NPL出現后,后來人們稱它為“自回歸模型”,它的目標不是直接預測整個句子的聯合概率,而是把這個聯合概率拆分成多個條件概率。

簡單來說,就是通過前面的詞來預測下一個詞。比如,我們要說一句話:“Today is Monday。”這句話沒問題,那么它的概率是怎么算的呢?

首先,第一個詞“Today”出現的概率是多少?然后,在已知第一個詞是“Today”的情況下,第二個詞“is”出現的概率是多少?接著,在已知前兩個詞是“Today is”的情況下,第三個詞“Monday”出現的概率是多少?

把這些概率乘起來,就得到了整個句子的概率。這種方法叫做「自回歸」。

自回歸模型概念最早可以追溯到喬治·尤爾(George Udny Yule)在1927年的研究工作,直到20世紀70年代這個想法才進一步得到驗證。

不過,實際操作中,這種建模方式有點難。

因為如果句子特別長,后面的詞需要依賴前面很多詞,而語料庫中恰好出現一模一樣句子的概率很低。

所以,大家通常會用“n-gram”語言模型來簡化問題。“n-gram”模型是什么意思呢?就是限制一下,只看前面的幾個詞。比如,1-gram就是只看當前詞,每個詞獨立統計概率。

舉個例子:

如果我們用《人民日報》的語料來建模型,統計每個字出現的概率,然后按這個概率隨機生成句子。這樣生成的句子可能不太通順,但如果逐漸增加n-gram的長度,比如到4-gram或5-gram,生成的句子就會更通順,甚至有點《人民日報》的味道。

不過,n-gram模型也有問題。如果n設得太大,比如5-gram或6-gram,需要的語料量會非常大;因為連續五六個詞一起出現的情況比較少見,必須有足夠多的數據才能支持這種模型。

后來,人們基于自回歸發明了更好的方法。

1966年,鮑姆和韋爾奇提出了隱馬爾可夫模型(HMM)及其訓練方法;其實,n-gram模型很早就有,1913年馬爾可夫就用它來預測詞了;但HMM直到1966年才被發明出來,真正應用到自然語言處理中已經是1989年了。

再后來,Rabiner等人寫了一篇經典文章,教大家如何在語音識別中使用HMM,這篇文章被引用了很多次,成為了非常經典的工作。

這說明,從技術發明到實際應用,往往需要很長時間。

02

到了2000年,語言模型的發展逐漸進入快車道,人們發現,越來越多的模型效率更高,效果更好,能夠更好地建模語言。比如,2000年時,有人開始用神經網絡來預測n-gram的概率。

具體來說,就是把前面N個詞輸入神經網絡,得到一個中間結果,再把這些結果拼起來,通過另一個神經網絡預測下一個詞。

這聽起來有點“暴力”,但效果確實不錯。這篇文章也成為用神經網絡建模語言模型的開山之作,被引用了上萬次,非常重要。

再過十年,到了2010年,人們開始用循環神經網絡(RNN)來建模語言模型。

RNN好處是,它不受n-gram的限制。n-gram只能看到前面N個詞,而RNN理論上可以記住歷史上所有的詞,雖然實際使用時,由于梯度消失等問題,效果并不理想。

RNN的模型也很難訓練和調試。這一年,Mikolov等人做了一些經典工作,推動了RNN的應用。

到了2014年,序列到序列學習(seq2seq)出現了。它用LSTM(長短期記憶網絡)來解決語言模型中的梯度消失問題。LSTM通過增加記憶單元,能夠記住更久遠的信息。seq2seq與之前的模型不同,它有一個“讀”的過程。比如:

用戶輸入一個句子“ABC”,模型會從這個句子開始預測回答。這種模型引入了編碼器和解碼器的概念,為后來的語言模型奠定了基礎。

2017年,Transformer模型出現了。

它的核心是注意力機制,但更重要的是,它找到了一種適合大規模擴展的神經網絡結構。以前的RNN和LSTM很難做大,訓練速度慢,而Transformer訓練速度快,容易擴展。這使得模型規模可以變得非常大。

到了2020年,大家熟悉的GPT-3和GPT-4出現了。

他們的一個重要貢獻是提出了“縮放定律”:模型越大,效果越好。另一個突破是,它將所有自然語言處理(NLP)任務統一到一個模型中。

以前,不同的任務(比如分類、實體識別)需要不同的模型,而GPT-3認為,所有任務都可以看作語言模型問題。這為探索通用人工智能提供了新的思路。

總的來說,語言模型的發展經歷了從神經網絡到RNN,再到LSTM、Transformer,最后到GPT的過程。每一步都在推動技術的進步,讓我們離通用人工智能更近了一步。

簡單講,大語言模型從出現到現在主要的三個時期是:

一,結構主義語言學邁向行為主義語言學;二,基于喬姆斯基啟發,符號主義NLP出現;三,大家發現符號主義不是正確路線后,統計NLP才開始出現,最后,技術的各種研究到了奇點時,Transformer架構出現。

實際上,語言模型的發展過程中,我們受到了喬姆斯基的影響。

中間有一段時間,大家主要研究“生成語言學”,也就是用符號邏輯來分析語言,這種研究方式持續了一段時間,但也導致了發展速度的放緩,甚至可以說是一個低潮期。

后來,人們發現統計方法才是正確的方向。

于是,語言模型的發展速度逐漸加快,特別是最近幾年,隨著計算能力的提升,我們可以訓練越來越大的模型,也找到了更適合的模型結構。這使得語言模型的發展速度在近幾年呈現出爆炸式的增長。

03

了解完整個模型歷史脈絡后,我們不妨思考下:為什么要研究語言呢?

首先,我們要理解語言與其他信息形式的不同之處。

在研究通用人工智能時,語言為何成為重點?這是因為語言與智能之間有著獨特的緊密聯系,這種聯系是其他信息形式所不具備的。

喬姆斯基認為,語言是思考的工具。

他提出,要理解人類心智,必須研究語言,因為語言與心智密切相關。他的觀點與我們有所不同。

盡管人類的語言機制存在許多歧義和低效之處,但如果將其視為思考的工具,就會發現它實際上非常有效。因此,喬姆斯基認為語言是思考的工具。

而我們的主要觀點是“壓縮論”。

人工智能可以表現為一種壓縮的形式,語言之所以重要,是因為人類之間的交流主要依賴于語言,我們沒有更好的替代方法。然而,語言交流的帶寬其實非常低。

有一項研究指出,無論使用何種語言,人與人之間交換信息的速度大約為每秒40個比特,這個速度相當低。你可以想象,以這種速度下載一部電影需要多長時間。

因此,為了有效地交流,人類必須對信息進行壓縮。壓縮信息會損失很多細節,這促使我們形成了許多抽象概念。

這些概念使我們對世界的認知變得更加概念化,換句話說,語言是推動我們產生抽象認知的環境壓力來源。為了與他人交流,我們必須思考事物背后的規律和本質。這就是語言如此重要的原因。

舉個例子:

謝氏家錄講的是謝靈運。謝靈運生活在魏晉南北朝時期,當時他在官場上不太順利,被貶到了溫州,也就是現在的永嘉。據說,謝靈運每次見到他的弟弟慧蓮,就能寫出優美的詩篇。

有一次,他在溫州的屋子里待了好幾天,怎么也寫不出詩來。突然有一天,在迷糊的狀態下,他見到了弟弟,靈感一來,就寫出了“池塘生春草”這句詩。他說這是神助,不是他自己的話。

我們可以想象一下,謝靈運被貶到溫州后,心里很苦悶,有很多情感想要表達,他見到弟弟時,弟弟并不知道他的心情。

于是,謝靈運通過提煉,寫出了簡短的詩句,通過這種方式,用很低的信息傳遞量,把情感傳達給了弟弟,雖然弟弟理解的場景可能和實際的不一樣,但精神是一致的。這體現了人類在信息壓縮上的高智能。

再比如,不同語言對顏色的描述也有所不同。

現在大家都知道,顏色可以用色相、飽和度和亮度這三個維度來描述。

有人統計過,世界上不同的語言用哪些詞來描述顏色;比如,我們有紅色、黃色、粉色等詞匯。但在自然界中較少的藍色和紫色,我們用的詞匯就比較少,這反映了概念化的過程。

語言對我們的認知也有直接影響,這一點可以通過實驗來測量。有人研究過俄國人對顏色的認識,因為俄語和英語在描述藍色時有所不同。英語中,我們通常把藍色都稱為“blue”,然后說這是淺藍或深藍。

而俄語中,深藍和淺藍是兩個完全不同的詞。實驗發現,當給俄國人看兩個顏色時,如果兩個都是深藍或淺藍,他們分辨起來比較慢。

但如果一個是深藍一個是淺藍,他們分辨得就比較快。這說明語言對認知有影響。如果在他們分辨顏色時,再給他們一些語言上的干擾,這種速度優勢就會消失,分辨速度會變慢。

所以,通過實驗可以觀察到,語言確實對我們的認知功能有深刻的影響。

04

其二,語言的重要性不可言喻。

如果沒有語言,人類的高級思考活動可能就無法進行,語言是思考的基礎工具,它與我們人類的知識和文化有著深刻的聯系。

比如,我們的文化和科技成就都是通過語言來傳承的。你可以看到,很多知識和智慧都蘊含在語言中。

以我們中國人和美國人的思考方式為例,他們是不同的。為什么呢?

因為我們有很多成語和典故,這些都影響了我們的思維方式。比如,當一個同學在研究中遇到困難,轉而去打游戲時,我們可能會說他“玩物喪志”。

雖然大家都知道這個詞,但你知道它背后的故事嗎?它源自周武王滅商后,西呂國送給他一條藏獒,他沉迷其中,大臣勸諫說“玩物喪志”,提醒他要專心工作。這些成語雖然簡單,卻飽含了豐富的歷史和智慧。

所以,語言不僅是知識的載體,還是一種高度抽象的符號系統,它對我們的認知有深刻的影響,參與了我們的各種活動。

我們通常認為,語言能力強的人,智能也較高。比如,在招學生時,我們更喜歡口齒伶俐的同學,因為他們通常能更好地表達自己的想法,做科研時也會更順利.

另外,從可行性角度來看,相比語音、視覺或視頻數據,文本數據的收集成本要低得多,因此,以語言為中心構建人工智能模型更為方便。

這是前幾天學習筆記,分享給你,總結時間留給你。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“生母繼父殺子案”發生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

“生母繼父殺子案”發生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

紅星新聞
2025-04-26 01:24:18
女人不怕你占她便宜,而是怕…

女人不怕你占她便宜,而是怕…

青蘋果sht
2025-04-18 05:59:47
A股:周末重磅!國務院同意建立,財政部、證監會集體發聲!

A股:周末重磅!國務院同意建立,財政部、證監會集體發聲!

虎哥閑聊
2025-04-26 10:20:57
鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

振華觀史
2025-04-26 11:03:21
北京知名外科醫生出軌多人:護士長3月兩懷孕,大量骯臟細節披露

北京知名外科醫生出軌多人:護士長3月兩懷孕,大量骯臟細節披露

博士觀察
2025-04-26 10:30:20
男子炒股11年賺6000萬,曾1天虧1100萬,當事人:不建議模仿

男子炒股11年賺6000萬,曾1天虧1100萬,當事人:不建議模仿

瀟湘晨報
2025-04-26 15:00:07
劉強東:我還有一個領養的妹妹,并不熟悉,但每年都給她很多錢

劉強東:我還有一個領養的妹妹,并不熟悉,但每年都給她很多錢

慢看世界
2025-04-26 10:01:12
名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

雷速體育
2025-04-26 12:53:55
北京上海大跌,千萬要警惕了!

北京上海大跌,千萬要警惕了!

七叔東山再起
2025-04-25 20:49:46
太行山懸崖摩天筒梯走紅,景區回應:每年“體檢”已運營近25年

太行山懸崖摩天筒梯走紅,景區回應:每年“體檢”已運營近25年

上游新聞
2025-04-26 12:45:11
王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

二月侃事
2025-04-26 08:38:27
江西一家三口被開快車泄憤男子撞死后 失獨老人發現兒子的獻血證和聯合國兒童基金會“月捐”證書

江西一家三口被開快車泄憤男子撞死后 失獨老人發現兒子的獻血證和聯合國兒童基金會“月捐”證書

閃電新聞
2025-04-25 22:54:13
四川一國企“80后”掌門人為報領導“知遇之恩”,盲目決策致數億損失

四川一國企“80后”掌門人為報領導“知遇之恩”,盲目決策致數億損失

澎湃新聞
2025-04-26 15:18:26
“愛潑斯坦案”關鍵證人弗吉尼亞·朱弗雷自殺身亡

“愛潑斯坦案”關鍵證人弗吉尼亞·朱弗雷自殺身亡

新京報
2025-04-26 10:14:08
波音總裁回應:波音不會繼續為不接收飛機的客戶制造飛機!

波音總裁回應:波音不會繼續為不接收飛機的客戶制造飛機!

翻開歷史和現實
2025-04-24 21:48:17
心智障礙者做100杯咖啡上崗0投訴,創始人回應:殘次品半價銷售,客人整體包容度很高

心智障礙者做100杯咖啡上崗0投訴,創始人回應:殘次品半價銷售,客人整體包容度很高

觀威海
2025-04-25 15:19:29
字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

湖人崛起
2025-04-26 10:29:17
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
外籍學生群毆中國人后續:受害者已毀容,畫面不忍直視,官方介入

外籍學生群毆中國人后續:受害者已毀容,畫面不忍直視,官方介入

歸史
2025-04-26 11:25:34
“五一花100塊買票回家”引全網群嘲:貧窮,是父母最失敗的教育

“五一花100塊買票回家”引全網群嘲:貧窮,是父母最失敗的教育

熙熙說教
2025-04-25 20:40:56
2025-04-26 15:35:00
智遠同學 incentive-icons
智遠同學
暢銷書《復利思維》作者;精神生活與商業探索,關注科技人文、消費電商、品牌營銷、商業認知思維等方面。
408文章數 88關注度
往期回顧 全部

教育要聞

聚焦教育數字化,探索單元整體教學——中國教師報課改中國行(英語)公益教研會在莆田舉辦

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

家居
房產
親子
旅游
軍事航空

家居要聞

清徐現代 有溫度有態度

房產要聞

逆勢大幅漲價!最高2.8萬/平!長天雲汀開盤又賣爆了!

親子要聞

孩子的教育要正確,家長和老師共同配合

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 潢川县| 扶沟县| 龙门县| 安丘市| 酒泉市| 扎兰屯市| 东乡族自治县| 合山市| 乌鲁木齐市| 三亚市| 贺兰县| 卓尼县| 陆良县| 宁河县| 景谷| 门头沟区| 黔南| 渭南市| 阿合奇县| 丁青县| 大姚县| 汉寿县| 涡阳县| 阿巴嘎旗| 秦安县| 天等县| 南汇区| 柏乡县| 陕西省| 新化县| 浦东新区| 丽江市| 齐河县| 镇江市| 阿拉尔市| 汶川县| 平原县| 永昌县| 天全县| 来安县| 合作市|