這兩天有件事上熱搜了。
有人問大模型:9.11和9.9哪個大?
大模型信誓旦旦地說:9.11大!
本來我是不信的,動手一試,臥槽,可真把我整不會了。
秒天秒地秒空氣的GPT4,給我的答案是這樣的↓
難道這就是我每月付費20刀得到的結果嗎?我一萬個不服!
于是,我又去問了問國產大模型們……
騰訊元寶,是這么回答的↓
我就納了悶了,這個0.21是怎么算出來的呢?
再看月之暗面的Kimi,如出一轍,對我的夸獎也照單全收。
被大模型這么組團一忽悠,我人整個傻了。
莫非這才是正確答案,我這幾十年的米飯白吃了?
本著打破傻瓜問到底的決心,我又去試了試其他大模型。
還好還好,米飯沒白吃,我得到了幾個正確的答案。
看到這些結果,心里終于踏實了一點,原來大模型沒有集體失智啊。
不過有人說了,這種無聊菜逼問題,有必要動用大模型嗎?
別在這些雞毛蒜皮上麻煩大模型,把算力省下來整點高級的問題不好嗎?
其實,你也太高看大模型了,大模型擅長的是內容生成,對于數學、推理問題,它還真未必能趕上小學生。
比如前段時間,有人拿2024高考數學題考大模型,結果集體不及格。
那么,為什么大模型的數學和推理能力不行?
其實,大模型的“基因”決定了它在數學方面先天不足。
現在我們所說的大模型,都是LLM大語言模型。
這類模型的訓練方式、處理信息的內在機制,決定了其在數學邏輯應用上存在局限性。
首先,訓練目標與算法設計有短板↓
損失函數與優化目標:大模型的訓練通常優化的是語言預測的準確性(如預測下一個單詞),而非數學問題解決的正確性。這導致模型在語言方面表現出色,但在數學方面表現平平。
算法局限性:當下的大模型通常都是Transformer架構,這種設計優化了對長距離依賴和復雜語言結構的處理,但不直接適應數學問題解決需要的精確邏輯推理。
第二,訓練數據有短板↓
看數據覆蓋:雖然LLM訓練所用的文本包含了數學概念和問題,但這些通常以教科書的解釋或實際應用的描述為主。真正的數學練習、問題解答和詳細推導往往在數據集中比例較低。
看數據質量:大多數訓練數據強調語言的多樣性和自然流暢性,而非嚴謹的數學邏輯或精確的數學證明。因此,模型缺乏處理高精度數學邏輯的練習。
第三,符號理解與操作有短板↓
符號處理:數學符號的處理要求極高的精確度,例如在代數方程和幾何圖形中。LLM通常將符號視為文本序列的一部分,而不是具有特定數學意義的實體。
復雜表達式的理解:數學表達式的結構可能非常復雜,涉及多層嵌套和細微的操作優先級,這些都是傳統的基于文本的LLM難以精確處理的。
第四,邏輯推理有短板↓
抽象推理:數學推理依賴于嚴密的邏輯結構和抽象思維。LLM在訓練時往往缺乏這種結構化的邏輯訓練,其“理解”更依賴于統計上的語言模式匹配。
遞歸推理:數學證明經常需要遞歸的思考方式,例如歸納證明。這種高級的邏輯處理超出了模型從序列數據中學習的模式。
所以,9.11大于9.9,也是可以理解的哈。因為單純依賴大模型,是很難數學得高分的。
即便那些答對這道題的大模型,我們也不可以完全信賴它,指不定什么時候抽瘋來個幻覺。
當然,為了提升大模型的數學解題能力,可以給它上外掛,比如與數學軟件集成(類似MATLAB、Mathematica等),或者調用外部數學計算API。
總之,當下大模型最核心的優勢還是內容生成,對于確定性指標和精確的邏輯推理,必須要借助任務特定微調、數據校正和專用工具集成。
最后補充一下,截止發稿前,騰訊元寶已經承認9.9比9.11大了,反復試了幾次,很難忽悠了。
但是,kimi依然屢教不改,當然,GPT也沒改。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.