自 OpenAI 推出 ChatGPT 以來,基于大語言模型(LLM)的產品和服務已經滲透進各行各業中,其帶來的智能革命,被認為可以媲美工業革命和電力革命。
然而,大模型固有的幻覺(hallucination),一直是阻礙大模型進一步落地應用的因素之一。這讓一部分人認為,大多由 LLM 生成的內容根本無法令人信服,甚至非常糟糕。
今天,德國理論物理學家、作家和音樂家 Sabine Hossenfelder 便在 X 上發表長文,怒噴 LLM“繼續編造鏈接、參考文獻和引文”。
她寫道,“我真心不明白為什么有些人還看好 LLM......我要求它們提供所謂引文的來源,我點擊鏈接,返回的卻是 404 錯誤。我用谷歌搜索所謂的引文,根本不存在。他們引用了一份科學出版物,我查了一下,根本不存在。”
她甚至嘲諷道,“有一件事倒是省了我不少時間,那就是單位換算和收集各種常數。不過你會覺得,這不應該需要一個耗資數億美元的 LLM 來完成。”
完整推文如下:
我真心不明白為什么有些人還看好大語言模型(LLM)。
我每天都在使用 GPT、Grok、Gemini、Mistral 等,希望它們能幫我節省搜索信息和總結信息的時間。它們繼續編造鏈接、參考文獻和引文,就像它們從第一天開始做的那樣。
我要求它們提供所謂引文的來源,我點擊鏈接,返回的卻是 404 錯誤。我用谷歌搜索所謂的引文,根本不存在。他們引用了一份科學出版物,我查了一下,根本不存在。
這種情況經常發生。
是的,在過去的兩年里,情況有所好轉,因為有了 DeepSearch 和思維鏈(CoT),大約有 50-60% 左右的參考文獻是存在的。據我個人估計,目前 GPT-4o 的 DeepResearch 是最好的。尤其是 Grok,即使被要求提供參考文獻,它也經常不提供。它似乎連推文都無法鏈接。這讓人非常沮喪。
是的,我試過 Gemini,它更糟糕,因為它甚至經常拒絕搜索來源,而是給我如何自己操作的說明。因為這個原因,我就不再用它了。
我還用它們快速估算數量級,但它們總是出錯。有一件事倒是省了我不少時間,那就是單位換算和收集各種常數。不過你會覺得,這不應該需要一個耗資數億美元的 LLM 來完成。
昨天,我把一篇論文上傳到 GPT,想讓它寫個摘要,它卻告訴我這篇論文是 2023 年的,而 PDF 的頁眉上明明寫著是 2025 年的。我甚至不知道這到底是怎么回事,但這遠非智能。
我感覺到,現在很多人都認為知識圖譜可以解決 LLM 的問題,但不,它們不能。它們不能。
即使知識圖譜可以 100% 防止邏輯不一致,但仍有許多文本結構在邏輯上完全一致,卻與現實毫無關系。
公司將繼續大力推廣 LLM,直到有一天,一個新的玩家提出了一種不同類型的人工智能(AI)模型,并迅速超越了它們。到了那一天,很多公司的估值顯然被嚴重高估了。對股市來說,這將是非常糟糕的一天。
https://x.com/skdh/status/1905132853672784121
本文僅為作者觀點,不代表學術頭條的立場。
整理:學術君
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.