99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

小明有幾個姐姐?通俗講講AI推理是什么,為啥最近這么火

0
分享至

(關注公眾號設為標,獲取AI深度洞察)

全文3,000字 | 閱讀約12 分鐘



想一想這個簡單的問題:小紅有兩個姐姐和一個兄弟。那么,她的兄弟小明有幾個姐姐呢?

停下來想一想...答案是什么?

你可能會在腦海中想象一個家庭:三個女孩和一個男孩。然后很快就明白,作為家里唯一的男孩,小明實際上有三個姐姐(包括小紅和她的兩個姐姐)。

看起來很簡單,對吧?但你剛才其實做了一件很厲害的事——推理!這不像記住"北京是中國首都"這樣的事實,而是通過已知信息思考出新的結論。

有趣的是,即使現在最先進的人工智能,如GPT-4,在遇到這類需要推理的問題時仍然會犯錯。研究者多次向最新版GPT-4提出這個問題,它卻總是錯誤地回答"小明有兩個姐姐"。

為什么看似簡單的問題對AI來說這么難?為什么最近各大科技公司都在拼命開發所謂的"推理AI"?這篇文章將用通俗易懂的語言,帶你了解AI推理的奧秘和它為何突然成為科技圈的焦點。。

雖然有些小技巧(如在問題后加上"讓我們一步一步思考")可以幫助人工智能提高推理表現,但這些方法還遠遠不夠完善,不能保證它們像人類一樣穩定地進行有效推理。

大型推理模型

為了解決推理能力不足的問題,多家頂尖AI公司最近推出了一種新型系統,叫做"大型推理模型"(LRM)。這些模型專門接受了推理類任務的訓練。主要產品包括:OpenAI的o1和o3模型、Anthropic的Claude"擴展思維模式"、谷歌的Gemini 2.0 Flash Thinking實驗版,以及DeepSeek推出的R1模型。

當你向LRM提出像"小明有幾個姐姐"這類邏輯題時,它會生成"思維鏈條"——用自然語言一步步展示推理過程。例如,OpenAI的o1模型會這樣分析:

  • 小紅有兩個姐姐,所以這個家庭里共有三個女孩(小紅和她的兩個姐姐)

  • 她還有一個兄弟,名叫小明

  • 所以這個家庭一共有四個孩子:三個女孩,一個男孩(小明)

  • 對小明來說,小紅和她的兩個姐姐都是他的姐姐

  • 因此,小明有三個姐姐

這種過程就像人在"自言自語"地思考。實際上,o1和其他LRM的訓練數據中包含了大量類似的"思維鏈條"示例。正是這種訓練方式,使它們在科學、數學、編程等難題上表現突出。據OpenAI介紹,o1模型在美國數學奧賽預選中能排進全國前500名,在物理、生物、化學題目的準確率上甚至超過了博士級科研人員。其他公司的LRM也取得了類似成績。

一些公司正把LRM作為商業AI助手的核心功能。比如,OpenAI已將最強大的LRM和配套的"深度研究"工具提供給每月支付200美元的高級用戶,據說還考慮推出每月收費高達2萬美元的"博士級"推理服務。

不過,也有學者對此持謹慎態度。他們質疑:這些模型真的在"思考"嗎?還是只是模仿人類推理的樣子?換句話說,這種"思維鏈條"訓練,究竟是讓模型真正學會了穩健、通用的推理能力,還是只是學會了在特定測試中看起來像會推理? 關于這些模型的構建原理:LRM通常是在已預訓練好的"大語言模型"基礎上構建的,比如GPT-4o。以深度求索為例,他們使用自研的預訓練模型V3作為基礎。AI模型的命名確實常讓人摸不著頭腦。這些基礎模型通過學習海量人類文本,訓練目標是預測文本中的下一個詞或詞的一部分。

思維鏈條展示

基礎模型完成初步訓練后,還會進行"后訓練",也就是進一步優化模型的能力。這個階段主要是讓模型學會如何生成完整的"思維鏈條"。

想象一下:普通語言模型(如GPT-4o)就像一個只會直接給答案的學生,而LRM則像一個會在草稿紙上寫下詳細解題步驟的學生。就像我們在解一道復雜的數學題時,會先在草稿紙上列出幾個步驟,再得出最終答案。

這些"思維鏈條"有時非常長,就像我們解決一個難題時可能要寫滿好幾頁草稿紙。由于AI的計算成本通常按文字量計算,這種方式的成本很高。

舉個生活例子:如果普通AI像是直接告訴你去北京最快的路線,那么LRM就像是一位導航軟件,它會在后臺計算多條路線,考慮各種因素(擁堵情況、路況、距離等),最后才推薦最優選擇,而用戶只看到最終建議。

為了訓練這種能力,LRM主要使用兩種方法:

  • 1、監督學習:就像老師手把手教學生解題。比如請專家寫出解題步驟,然后訓練AI模仿這些步驟。這就像家長教孩子洗衣服時,會一步步示范:先分類、再加洗衣粉、設定溫度等。

  • 2、強化學習:不直接告訴AI怎么做,而是通過獎勵機制引導它。這就像訓練寵物狗:它做對了就給零食獎勵,做錯了就不獎勵,久而久之它就明白該怎么做了。對AI來說,只有當它通過自己的推理得出正確答案時才會獲得"獎勵"。

有趣的是,DeepSeek證明僅用強化學習就能訓練出推理能力很強的模型。這就像不用專門教孩子怎么玩積木,只要在他搭出漂亮作品時給予表揚,孩子自己就能探索出各種技巧。

正是因為更多使用強化學習而非昂貴的監督學習,深度求索才能以較低成本開發自己的推理模型。這就像一家餐廳找到了既美味又經濟的食材替代品,既保證了菜品品質,又控制了成本。

AI真的會推理嗎?

在AI領域,專家們一直在討論一個核心問題:這些新型推理模型是真的在"思考",還是只是在模仿人類的推理過程?有人稱o1是"第一個擁有通用推理能力的模型",但也有不少人持保留態度。有些哲學家認為,這些模型的思維鏈條更像是一種"模仿秀"——它們只是在復制人類思考的表面形式,而不是真正擁有解決問題的能力。

我們可以打個比方:想象一個從未學過廚藝的人,只是通過觀看大量烹飪視頻,學會了模仿廚師的動作和語言。他可能會像專業廚師一樣說"我們先將食材切成丁","現在加入適量的鹽調味",但這并不意味著他真正理解烹飪的原理。同樣,AI模型可能會生成看起來很合理的推理步驟,但它是否真正"理解"這些步驟呢?

首先,我們需要問:"真正的推理"是什么?這就像問"什么是真正的駕駛技術"—有人依靠經驗和直覺,有人則嚴格遵循駕駛手冊的每一條規則。人類解決問題時會用到記憶、經驗法則、類比或邏輯推導等多種方法。

而這些AI模型的"推理"似乎變成了"寫出一段聽起來合理的解題過程"。這就像一個學生可能寫出很完美的解題步驟,卻不一定真正理解其中的原理。這些模型在標準考試中表現確實很好,但這些考試通常有標準答案。現實世界中的復雜問題,比如"如何應對氣候變化"或"如何建立太空基地",往往沒有標準解法。 此外,雖然這些模型的推理過程被稱為"人類可讀",但這些語言化的"思考"是否真的反映了模型內部的實際計算過程?這就像汽車導航給你規劃路線—你看到的是簡潔的指示,而背后卻是復雜的計算過程。有研究發現,AI生成的"解釋"很多時候只是表象,并不代表它們實際的"思維"過程。

更值得警惕的是,這些模型使用的擬人化語言可能讓人錯誤地信任它們。它們會說"我在思考",還會加入"嗯..."、"啊哈!"等模仿人類思維的表達。這就像一個銷售員穿著專業西裝、說著專業術語,就容易讓人相信他的建議,即使這些建議可能不完全正確。

評估這些模型的實際能力并不容易,因為大多數公司既不開放模型,也很少公布技術細節。這就像餐廳不告訴你菜品的完整配方和烹飪過程,你很難判斷食物的真實質量。

值得一提的是,DeepSeek采取了更開放的態度。他們不僅開源了R1模型的核心技術,還公布了詳細的訓練過程,并允許用戶完整查看模型的推理過程。這種開放態度將有助于推動相關研究的深入發展,就像一家餐廳公開自己的菜譜和烹飪過程,讓顧客能更全面地了解和評價他們的菜品。

星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

參考資料:https://www.science.org/doi/10.1126/science.adw5211

來源:官方媒體/網絡新聞

排版:Atlas

編輯:深思

主編: 圖靈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
碳基生命體熱寂!上海一位大學教授去世前自撰訃告:一場灑脫的告別!

碳基生命體熱寂!上海一位大學教授去世前自撰訃告:一場灑脫的告別!

新民晚報
2025-04-08 15:24:37
陳士榘:如果毛澤民沒有犧牲,毛主席在國家經濟上也許會省心很多

陳士榘:如果毛澤民沒有犧牲,毛主席在國家經濟上也許會省心很多

芳芳歷史燴
2025-04-07 18:35:10
周末親子時光:汪小菲帶著霖霖和玥兒到農場看動物,馬筱梅卻火了

周末親子時光:汪小菲帶著霖霖和玥兒到農場看動物,馬筱梅卻火了

阿鳧愛吐槽
2025-04-08 09:27:43
查爾斯夫婦抵達意大利!卡米拉發型被風吹亂,結婚20周年照卻優雅

查爾斯夫婦抵達意大利!卡米拉發型被風吹亂,結婚20周年照卻優雅

游古史
2025-04-08 10:30:57
馬斯克,危險了!

馬斯克,危險了!

難得君
2025-02-21 14:14:30
事態已超出美國掌控:特朗普喊話中方愿意談判,但有一個條件

事態已超出美國掌控:特朗普喊話中方愿意談判,但有一個條件

阿紿聊社會
2025-04-07 17:05:51
太原賽!國乒男單0-3落敗,世界冠軍被19歲小將爆冷,日本1勝1負

太原賽!國乒男單0-3落敗,世界冠軍被19歲小將爆冷,日本1勝1負

知軒體育
2025-04-08 15:53:12
185億寧波五金老板,硬氣漲價回擊關稅

185億寧波五金老板,硬氣漲價回擊關稅

21世紀商業評論
2025-04-07 21:50:22
日本笑了!中國制造在東南亞自殺!占有率80%狂跌至1%,丟失人心

日本笑了!中國制造在東南亞自殺!占有率80%狂跌至1%,丟失人心

歷史看阿敞
2025-01-13 16:12:37
與女人多聊聊這3個話題,她會對你更加動情,別不信

與女人多聊聊這3個話題,她會對你更加動情,別不信

蓮子說情感
2025-03-05 10:49:18
替德云社惋惜,田立禾老先生孫女,第二個趙蕓一,如今加入聽云軒

替德云社惋惜,田立禾老先生孫女,第二個趙蕓一,如今加入聽云軒

顧蔡衛
2025-04-08 14:39:59
太突然!他倆宣布已離婚

太突然!他倆宣布已離婚

深圳晚報
2025-04-06 17:37:55
大S保姆楊阿姨爆料!汪小菲兒女結束清明假期,張蘭生日員工祝福

大S保姆楊阿姨爆料!汪小菲兒女結束清明假期,張蘭生日員工祝福

體育官已上任
2025-04-08 14:45:28
34%關稅只是幌子,中國真正的目標是臺灣!劍指美國“軍工企業”

34%關稅只是幌子,中國真正的目標是臺灣!劍指美國“軍工企業”

文史道
2025-04-05 12:29:24
上海公務員錄取名單第一批公示!全是碩士,學歷貶值嚴重,太卷了

上海公務員錄取名單第一批公示!全是碩士,學歷貶值嚴重,太卷了

鬼菜生活
2025-04-08 11:17:19
菲律賓怎么也沒想到,費盡心機留的破船,到頭來,卻為我國鋪了路

菲律賓怎么也沒想到,費盡心機留的破船,到頭來,卻為我國鋪了路

芳芳歷史燴
2025-04-08 16:25:27
是不是大多數人都有情人

是不是大多數人都有情人

青蘋果sht
2025-02-15 07:03:12
每體:C羅有意收購瓦倫西亞,前提是球隊本賽季保級成功

每體:C羅有意收購瓦倫西亞,前提是球隊本賽季保級成功

懂球帝
2025-04-08 17:13:18
央視怒批!目不識丁、丟人現眼,難怪兩會上馮遠征建議演員多學習

央視怒批!目不識丁、丟人現眼,難怪兩會上馮遠征建議演員多學習

峰哥娛樂動漫
2025-03-10 08:22:49
賴清德最怕的來了!福建傳出消息,2000萬臺灣人將收到“大禮”

賴清德最怕的來了!福建傳出消息,2000萬臺灣人將收到“大禮”

藍涇看一看
2025-04-07 10:11:17
2025-04-08 19:00:49
AI深度研究員 incentive-icons
AI深度研究員
一個專注于人工智能(AI)前沿技術、理論研究和實際應用的自媒體
132文章數 75關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

美媒談"貿易戰":"明代中國"已給特朗普政府敲響警鐘

頭條要聞

美媒談"貿易戰":"明代中國"已給特朗普政府敲響警鐘

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

房產
旅游
數碼
公開課
軍事航空

房產要聞

生猛!三亞開始巨量拆遷!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

酷比魔方掌玩 mini 3 Ultra 平板規格公布,國補后 1400 元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普對俄不滿 指責俄持續襲擊烏克蘭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 广水市| 浦北县| 三河市| 新平| 永川市| 建始县| 驻马店市| 唐海县| 桐乡市| 富源县| 镇原县| 新宾| 永吉县| 友谊县| 盱眙县| 屯门区| 阿克苏市| 兴宁市| 上林县| 吴旗县| 巧家县| 普兰县| 铜川市| 宾阳县| 赣州市| 孟津县| 盱眙县| 临夏县| 申扎县| 灌阳县| 南汇区| 东城区| 彭水| 泾阳县| 九江县| 桦甸市| 黔西| 原阳县| 长岭县| 酉阳| 莱芜市|