(關注公眾號設為標,獲取AI深度洞察)
全文3,000字 | 閱讀約12 分鐘
想一想這個簡單的問題:小紅有兩個姐姐和一個兄弟。那么,她的兄弟小明有幾個姐姐呢?
停下來想一想...答案是什么?
你可能會在腦海中想象一個家庭:三個女孩和一個男孩。然后很快就明白,作為家里唯一的男孩,小明實際上有三個姐姐(包括小紅和她的兩個姐姐)。
看起來很簡單,對吧?但你剛才其實做了一件很厲害的事——推理!這不像記住"北京是中國首都"這樣的事實,而是通過已知信息思考出新的結論。
有趣的是,即使現在最先進的人工智能,如GPT-4,在遇到這類需要推理的問題時仍然會犯錯。研究者多次向最新版GPT-4提出這個問題,它卻總是錯誤地回答"小明有兩個姐姐"。
為什么看似簡單的問題對AI來說這么難?為什么最近各大科技公司都在拼命開發所謂的"推理AI"?這篇文章將用通俗易懂的語言,帶你了解AI推理的奧秘和它為何突然成為科技圈的焦點。。
雖然有些小技巧(如在問題后加上"讓我們一步一步思考")可以幫助人工智能提高推理表現,但這些方法還遠遠不夠完善,不能保證它們像人類一樣穩定地進行有效推理。
大型推理模型
為了解決推理能力不足的問題,多家頂尖AI公司最近推出了一種新型系統,叫做"大型推理模型"(LRM)。這些模型專門接受了推理類任務的訓練。主要產品包括:OpenAI的o1和o3模型、Anthropic的Claude"擴展思維模式"、谷歌的Gemini 2.0 Flash Thinking實驗版,以及DeepSeek推出的R1模型。
當你向LRM提出像"小明有幾個姐姐"這類邏輯題時,它會生成"思維鏈條"——用自然語言一步步展示推理過程。例如,OpenAI的o1模型會這樣分析:
小紅有兩個姐姐,所以這個家庭里共有三個女孩(小紅和她的兩個姐姐)
她還有一個兄弟,名叫小明
所以這個家庭一共有四個孩子:三個女孩,一個男孩(小明)
對小明來說,小紅和她的兩個姐姐都是他的姐姐
因此,小明有三個姐姐
這種過程就像人在"自言自語"地思考。實際上,o1和其他LRM的訓練數據中包含了大量類似的"思維鏈條"示例。正是這種訓練方式,使它們在科學、數學、編程等難題上表現突出。據OpenAI介紹,o1模型在美國數學奧賽預選中能排進全國前500名,在物理、生物、化學題目的準確率上甚至超過了博士級科研人員。其他公司的LRM也取得了類似成績。
一些公司正把LRM作為商業AI助手的核心功能。比如,OpenAI已將最強大的LRM和配套的"深度研究"工具提供給每月支付200美元的高級用戶,據說還考慮推出每月收費高達2萬美元的"博士級"推理服務。
不過,也有學者對此持謹慎態度。他們質疑:這些模型真的在"思考"嗎?還是只是模仿人類推理的樣子?換句話說,這種"思維鏈條"訓練,究竟是讓模型真正學會了穩健、通用的推理能力,還是只是學會了在特定測試中看起來像會推理? 關于這些模型的構建原理:LRM通常是在已預訓練好的"大語言模型"基礎上構建的,比如GPT-4o。以深度求索為例,他們使用自研的預訓練模型V3作為基礎。AI模型的命名確實常讓人摸不著頭腦。這些基礎模型通過學習海量人類文本,訓練目標是預測文本中的下一個詞或詞的一部分。
思維鏈條展示
基礎模型完成初步訓練后,還會進行"后訓練",也就是進一步優化模型的能力。這個階段主要是讓模型學會如何生成完整的"思維鏈條"。
想象一下:普通語言模型(如GPT-4o)就像一個只會直接給答案的學生,而LRM則像一個會在草稿紙上寫下詳細解題步驟的學生。就像我們在解一道復雜的數學題時,會先在草稿紙上列出幾個步驟,再得出最終答案。
這些"思維鏈條"有時非常長,就像我們解決一個難題時可能要寫滿好幾頁草稿紙。由于AI的計算成本通常按文字量計算,這種方式的成本很高。
舉個生活例子:如果普通AI像是直接告訴你去北京最快的路線,那么LRM就像是一位導航軟件,它會在后臺計算多條路線,考慮各種因素(擁堵情況、路況、距離等),最后才推薦最優選擇,而用戶只看到最終建議。
為了訓練這種能力,LRM主要使用兩種方法:
1、監督學習:就像老師手把手教學生解題。比如請專家寫出解題步驟,然后訓練AI模仿這些步驟。這就像家長教孩子洗衣服時,會一步步示范:先分類、再加洗衣粉、設定溫度等。
2、強化學習:不直接告訴AI怎么做,而是通過獎勵機制引導它。這就像訓練寵物狗:它做對了就給零食獎勵,做錯了就不獎勵,久而久之它就明白該怎么做了。對AI來說,只有當它通過自己的推理得出正確答案時才會獲得"獎勵"。
有趣的是,DeepSeek證明僅用強化學習就能訓練出推理能力很強的模型。這就像不用專門教孩子怎么玩積木,只要在他搭出漂亮作品時給予表揚,孩子自己就能探索出各種技巧。
正是因為更多使用強化學習而非昂貴的監督學習,深度求索才能以較低成本開發自己的推理模型。這就像一家餐廳找到了既美味又經濟的食材替代品,既保證了菜品品質,又控制了成本。
AI真的會推理嗎?
在AI領域,專家們一直在討論一個核心問題:這些新型推理模型是真的在"思考",還是只是在模仿人類的推理過程?有人稱o1是"第一個擁有通用推理能力的模型",但也有不少人持保留態度。有些哲學家認為,這些模型的思維鏈條更像是一種"模仿秀"——它們只是在復制人類思考的表面形式,而不是真正擁有解決問題的能力。
我們可以打個比方:想象一個從未學過廚藝的人,只是通過觀看大量烹飪視頻,學會了模仿廚師的動作和語言。他可能會像專業廚師一樣說"我們先將食材切成丁","現在加入適量的鹽調味",但這并不意味著他真正理解烹飪的原理。同樣,AI模型可能會生成看起來很合理的推理步驟,但它是否真正"理解"這些步驟呢?
首先,我們需要問:"真正的推理"是什么?這就像問"什么是真正的駕駛技術"—有人依靠經驗和直覺,有人則嚴格遵循駕駛手冊的每一條規則。人類解決問題時會用到記憶、經驗法則、類比或邏輯推導等多種方法。
而這些AI模型的"推理"似乎變成了"寫出一段聽起來合理的解題過程"。這就像一個學生可能寫出很完美的解題步驟,卻不一定真正理解其中的原理。這些模型在標準考試中表現確實很好,但這些考試通常有標準答案。現實世界中的復雜問題,比如"如何應對氣候變化"或"如何建立太空基地",往往沒有標準解法。 此外,雖然這些模型的推理過程被稱為"人類可讀",但這些語言化的"思考"是否真的反映了模型內部的實際計算過程?這就像汽車導航給你規劃路線—你看到的是簡潔的指示,而背后卻是復雜的計算過程。有研究發現,AI生成的"解釋"很多時候只是表象,并不代表它們實際的"思維"過程。
更值得警惕的是,這些模型使用的擬人化語言可能讓人錯誤地信任它們。它們會說"我在思考",還會加入"嗯..."、"啊哈!"等模仿人類思維的表達。這就像一個銷售員穿著專業西裝、說著專業術語,就容易讓人相信他的建議,即使這些建議可能不完全正確。
評估這些模型的實際能力并不容易,因為大多數公司既不開放模型,也很少公布技術細節。這就像餐廳不告訴你菜品的完整配方和烹飪過程,你很難判斷食物的真實質量。
值得一提的是,DeepSeek采取了更開放的態度。他們不僅開源了R1模型的核心技術,還公布了詳細的訓練過程,并允許用戶完整查看模型的推理過程。這種開放態度將有助于推動相關研究的深入發展,就像一家餐廳公開自己的菜譜和烹飪過程,讓顧客能更全面地了解和評價他們的菜品。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://www.science.org/doi/10.1126/science.adw5211
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.