網易首頁 > 網易號 > 正文申請入駐

AI應用創業公司：大模型最近的突破，全是作弊

2025-04-18 17:52:05　來源: 機器之心Pro

河北舉報

分享至

選自Lesswrong

作者：lc

機器之心編譯

編輯：澤南、張倩

Llama 4 或許只是冰山一角。

「AI 大模型自去年 8 月以來就沒有太大進步」。這是一位 AI 創業者在近期的一篇博客中發表的觀點。

他在創業過程中發現，自去年 8 月以來，AI 大模型（如 Claude 3.7 等）在官方發布的基準測試上聲稱的巨大進步與實際應用場景中的有限提升之間存在明顯脫節。這導致他們無法借助模型能力來提升產品體驗。很多 YC 創業者也有類似的體驗。

作者認為，這其中可能的原因包括基準測試作弊、基準無法衡量實用性或模型實際很聰明但對齊存在瓶頸。如果不解決這些基礎問題，AI 系統可能會在表面上顯得很聰明，但在組合成社會系統時會出現根本問題。

以下是博客原文：

模型得分與消費者體驗脫節

大約九個月前，我和三個朋友認為人工智能已經足夠好，可以自主監控大型代碼庫的安全問題了。我們圍繞這個任務成立了一家公司，試圖利用最新的大模型能力來創建一種工具，用以取代至少很大一部分滲透測試人員的價值。我們從 2024 年 6 月開始從事這個項目。

在公司成立后的頭三個月內，Anthropic 的 Claude 3.5 sonnet 就發布了。只需切換在 GPT-4o 上運行的服務部分，我們剛剛起步的內部基準測試結果就會立即開始飽和。我記得當時很驚訝，我們的工具不僅似乎犯的基本錯誤更少，而且其書面漏洞描述和嚴重性估計似乎也有了質的提高。就好像即使是在不完整的信息中，這些模型也能更善于推斷人類提示背后的意圖和價值。

事實上，安全研究基本上沒有公開的基準。有「網絡安全」評估會向 AI 模型詢問有關孤立代碼塊的問題，「CTF」評估會為模型提供明確的挑戰描述和對 <1kLOC Web 應用程序的 shell 訪問權限。但沒有什么能觸及 LLM 應用程序滲透測試的難點 —— 一是瀏覽一個太大而無法放在上下文中的真實代碼庫；二是推斷目標應用程序的安全模型；三是深入理解其實現，以了解該安全模型在哪里出現了問題。

出于這些原因，我認為漏洞識別任務是衡量 LLM 在狹窄的軟件工程領域之外的泛化性的一個很好的試金石。

自 3.5-sonnet 以來，我們一直在監控 AI 大模型的發布，并嘗試過幾乎每個聲稱有所改進的主要新版本。令人意想不到的是，除了 3.6 的小幅提升和 3.7 的更小提升外，我們嘗試的所有新模型都沒有對我們的內部基準或開發人員發現新錯誤的能力產生重大影響。這包括新的測試時間計算 OpenAI 模型。

起初我很緊張，不敢公開報告此事，因為我認為這可能會對我們團隊產生不良影響。自去年 8 月以來，我們的掃描有了很大的改進，但這是因為常規工程，而不是模型改進的提升。這可能是我們設計的架構存在問題，隨著 SWE-Bench 分數的上升，我們并沒有獲得更多的進展。

但最近幾個月，我與其他從事 AI 應用初創企業的 YC 創始人進行了交談，他們中的大多數人都有相同的經歷：1. 見證了 o99-pro-ultra 大模型發布，2. 基準測試看起來不錯，3. 實際應用評估表現平平。盡管我們從事不同的行業，處理不同的問題，但情況大致相同。有時創始人會對這種說法做出回應（「我們只是沒有任何博士級的問題可以問」），但這種說法是存在的。

我讀過這些研究，也看過這些數字。也許與大模型的交談變得更有趣了，也許他們在受控考試中表現得更好了。但我仍然想根據內部基準以及我自己和同事們使用這些模型的看法提出觀點：大模型公司向公眾報告的任何提升都不能反映經濟實用性或普遍性。它們不能反映我或我客戶的實際體驗。就能夠執行全新的任務或更大比例的用戶智力勞動而言，我認為自去年 8 月以來它們就沒有太大進步了。

如果你是大模型競品公司的工程師，這或許是個好消息！對我個人而言，作為一個試圖利用大模型能力賺錢的人，它們還沒有聰明到能解決整個問題，對那些擔心快速過渡到 AI 經濟會帶來道德風險的人來說，或許也不需要太過擔憂了。

與此同時，有一種觀點認為，模型得分與消費者體驗脫節是一個不好的跡象。如果業界現在還搞不清楚如何衡量模型的智力，而模型大多局限于聊天機器人，那么當 AI 在管理公司或制定公共政策時，又該如何制定衡量其影響的標準呢？如果我們在將公共生活中繁瑣而艱難的部分委托給機器之前就陷入了古德哈特定律（當一個政策變成目標，它將不再是一個好的政策），我想知道原因。

AI 實驗室是在作弊嗎？

AI 實驗室的創始人們經常認為，他們正在進行一場文明競爭，以控制整個未來的光錐，如果他們成功了，世界就將會改變。指責這些創始人從事欺詐行為以進一步實現這些目的是相當合理的。

即使你一開始對科技大佬的評價異常高，你也不應該指望他們在這場競賽中成為自己模型表現的誠信來源。如果你能規避懲罰，那么夸大能力或有選擇地披露有利的結果有非常強大的短期激勵。投資是其中之一，但吸引人才和贏得（具有心理影響力的）聲望競賽可能也是同樣重要的激勵因素。而且基本上沒有法律責任迫使實驗室對基準測試結果保持透明或真實，因為從來沒有人因為在測試數據集上進行訓練然后向公眾報告該表現而被起訴或被判犯有欺詐罪。

如果你嘗試過，任何這樣的實驗室仍然可以聲稱自己在非常狹隘的意義上說的是實話，因為該模型「確實在該基準上實現了該性能」。如果對重要指標的一階調整在技術意義上可以被視為欺詐，那么負責偽造統計數據的團隊還有一百萬種其他方式來稍微間接地處理它。

在本文的初稿中，我在上面一段后面加上了這樣一句話：「話雖如此，不可能所有收益都來自作弊，因為一些基準測試有保留數據集。」最近有一些私人基準測試，如 SEAL，似乎顯示出了改進。但 OpenAI 和 Anthropic 發布的每一個基準測試都有一個公開的測試數據集。我能想到的唯一例外是 ARC-AGI 獎，其「半私人」評估中的最高分由 o3 獲得，但盡管如此，它尚未對 Claude 3.7 Sonnet、DeepSeek 或 o3-mini 進行過公開評估。關于 o3 本身：

所以也許沒有什么秘密：AI 實驗室公司在撒謊，當他們改進基準測試結果時，是因為他們之前已經看到過答案并把它們寫下來了。從某種意義上說，這可能是最幸運的答案，因為這意味著我們在衡量 AGI 性能方面其實并沒有那么糟糕；我們只是面臨著人為的欺詐。欺詐是人的問題，而不是潛在技術困難的跡象。

我猜這在一定程度上是正確的，但并非全部。

基準測試是否沒有跟蹤實用性？

假設你對一個人的唯一了解是他們在瑞文漸進矩陣（智商測試）中得分為 160。你可以對這個人做出一些推斷：例如，RPM 得分越高，可推斷出生活條件越積極，比如職業收入很高、健康狀況很好、不會進監獄等等。

你可以做出這些推斷，部分原因是在測試人群中，瑞文漸進矩陣測試的分數可以反映人類在相關任務上的智力能力。完成標準智商測試并獲得高分的能力不僅能讓你了解這個人的「應試」能力，還能讓你了解這個人在工作中的表現如何，這個人是否做出了正確的健康決定，他們的心理健康是否良好，等等。

至關重要的是，這些相關性不必很強，瑞文測試才能成為有用的診斷工具。患者不會接受智商測試訓練，而且人類大腦的設計也并非是為了在 RPM 等測試中獲得高分。我們在這些測試中的優異表現（相對于其他物種而言）是過去 5 萬年中偶然發生的事情，因為進化間接地讓我們能夠追蹤動物、灌溉莊稼和贏得戰爭。

然而在大模型領域，除了幾個明顯的例外，我們幾乎所有的基準測試都具有標準化測試的外觀和感覺。我的意思是，每一個都是一系列學術難題或軟件工程挑戰，每個挑戰你都可以在不到幾百個 token 的時間內消化并解決。也許這只是因為這些測試評估起來更快，但人們似乎理所當然地認為，能夠獲得 IMO 金牌的 AI 模型將具有與陶哲軒相同的能力。因此，「人類的最后考試」（ENIGMAEVAL）不是對模型完成 Upwork 任務、完成視頻游戲或組織軍事行動的能力的測試，而是一個自由反應測驗。

我不會做任何「人類的最后考試」的測試問題，但我今天愿意打賭，第一個拿到滿分的大模型仍然無法作為軟件工程師就業。 HLE 和類似的基準測試很酷，但它們無法測試語言模型的主要缺陷，比如它們只能像小商販一樣通過復述的方式來記住東西。Claude Plays Pokemon 是一個被過度使用的例子，因為視頻游戲涉及許多人類特定能力的綜合。這項任務適合于偶爾回憶 30 分鐘前學到的東西，結果不出所料地糟糕。

就我個人而言，當我想了解未來能力的改進時，我將幾乎只關注 Claude Plays Pokemon 這樣的基準測試。我仍然會查看 SEAL 排行榜，看看它在說什么，但我的 AI 時間表的決定因素將是我在 Cursor 中的個人經歷，以及 LLM 處理類似你要求員工執行的長期任務的能力，其他的一切都太過嘈雜。

這些模型或許已經很智能，但在對齊方面存在瓶頸？

在介紹下一點之前，讓我先介紹一下我們的業務背景。

正如我所提到的，我的公司使用這些模型來掃描軟件代碼庫以查找安全問題。從事這個特定問題領域（維護已交付軟件的安全性）工作的人被稱為 AppSec 工程師。

事實上，大多數大公司的 AppSec 工程師都有很多代碼需要保護。他們的工作過度，典型要回答的問題不是「我如何確保這個應用程序沒有漏洞」，而是「我如何管理、篩選和解決我們 8000 條產品線中已經存在的大量安全問題」。

如果他們收到一條警報，他們希望它影響活躍的、理想情況下可通過互聯網訪問的生產服務。任何低于這個水平的情況都意味著要么有太多結果需要審查，要么安全團隊是在浪費有限的溝通資源來要求開發人員修復甚至可能沒有影響的問題。

因此，我們自然會嘗試構建我們的應用程序，以便它只報告影響活躍的、理想情況下可通過互聯網訪問的生產服務的問題。但是，如果你只是向聊天模型解釋這些限制，它們會偶爾遵循人的指示。例如，如果你告訴他們檢查一段代碼是否存在安全問題，他們傾向于像你是剛剛在 ChatGPT UI 中詢問該代碼的開發人員一樣做出回應，因此會推測代碼有問題或險些失誤。即使你提供了我剛剛概述的情況的完整書面描述，幾乎每個公共模型都會忽略你的情況，并將無法利用的 SQL 查詢連接報告為「危險」。

這并不是說 AI 模型認為它遵循了你的指示，但實際上并沒有。LLM 實際上會在簡單的應用程序中說，它報告的是一個「潛在」問題，并且可能無法驗證。我認為發生的情況是，大型語言模型被訓練成在與用戶的實時對話中「看起來很聰明」，因此它們更喜歡突出顯示可能的問題，而不是確認代碼看起來不錯，就像人類想要演得很聰明時所做的那樣。

每個 LLM 應用初創公司都會遇到這樣的限制。當你是一個直接與聊天模型交互的人時，阿諛奉承和詭辯只是小麻煩，甚至也是能適應的。當你是一個團隊試圖將這些模型組合成更大的系統時（由于前面提到的內存問題，這是必要的），想要看起來不錯會引發嚴重的問題。更智能的模型可能會解決這個問題，但它們也可能使問題更難檢測，特別是當它們取代的系統變得更加復雜并且更難驗證輸出時。

有很多不同的方法來克服這些缺陷。在有人想出解決問題的外在表現之前，我們完全有可能無法解決核心問題。

我認為這樣做是一個錯誤。這些 AI 機器很快就會成為我們生活的社會的跳動的心臟。它們在組合和互動時創造的社會和政治結構將定義我們周圍看到的一切。更重要的是，它們要盡可能地有道德。

https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.