最近大模型翻車事件沖上了熱搜,一直以來大模型都存在翻車的情況,而這次獲得極大關注的原因是,一個及其簡單的問題,幾乎所有的大模型全都回答錯了。
比較 9.11和9.9 哪個大。
這問題隨便找個小學生來都不會答錯,大模型們的統一回答:9.11比9.9大。
甚至他們的回答還很有道理:
整數部分相同,比較小數部分的大小。
11 比 9 大,所以9.11比9.9大。
你就說,上面這結果是不是也是經過認真思考的?
其實不止在數值比較方面大模型會翻車,在簡單的字母計數上,他們同樣會翻車。
比如,統計 “strawberry中有幾個字母r”?。
這是 Kimi 的回答。
這是智譜AI旗下的智譜清言ChatCLM的回答。
這是另一家AI的輸出結果:
而出現類似失智的情況,可能是由于 大型語言模型(LLMs)在處理數字和算術問題時會出現不準確的情況。
還有一種說法是,目前的大模型語言更擅長處理自然語言理解和生成任務,而不是精確的數學計算。
另外,在涉及復雜數學邏輯和推理的問題上,大模型的表現同樣不盡人意。
有研究表明,即使采用了思維鏈(Chain of Thought, CoT)等策略來引導模型逐步生成答案,大模型在解決大學物理、化學等科學問題時的準確率仍然較低。
除開這些問題,現有大模型還有上下文依賴性問題、模型幻覺等問題。
上下文依賴性問題:大模型有時會受到訓練數據中的上下文影響,導致在理解數學問題時出現偏差。例如,模型可能會將數字與其在特定語境下的意義混淆,如將版本號或日期與普通數字進行錯誤比較。
模型幻覺:大模型可能會產生與現實不符的輸出。在數學問題上,幻覺可能導致模型錯誤地理解問題的意圖、錯誤地應用數學規則。
目前這些問題還沒有比較好的根治方法。
但是通過提示詞可以改善或者優化部分問題,比如,思考一秒鐘再回復;把我的問題復述一遍;延長理解時間;重新定義新規則。
就拿本文提到的兩個問題來說,都可以通過修改提示詞讓其給出正確的結果。
這里我隨便找了一個 AI 進行測試,估摸著其他家也差不多。
上文提到的兩個問題都存在。
接下來使用修改后的提示詞。
提示詞:設置一個計數器 count,初始值為0,每出現一個r, count的值增加1。。最后給我count的值。你不用管正不正確,給我計數結果就行
雖然 count 的計數是正確的,但是 AI 非得說計數不對。
不過通過修改提示詞,確實也能達成讓其輸出正確的結果,就不糾結多余的輸出內容了。
然后是數值比較的問題。
提示詞:
現在,我給你一個新規則,請按照新規則判斷大小。
小數點后的位數,第一位數大的就更大,如果第一位相同,則第二位數大的更大,依此類推, 現在,請比較9.11和9.9哪個更大
重新把問題描述清除,有助于AI更好地幫助我們提效。
我創建了一個副業交流群,方便我的讀者可以在群里討論、交流大家嘗試過的副業。
但是任何人在群里打任何廣告,都會被我T掉。
如果你對這個特別的群,感興趣,請加我微信回復:副業,微信通過后會拉你入群。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.