99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI應用創業公司:大模型最近的突破,全是作弊

0
分享至

選自Lesswrong

作者:lc

機器之心編譯

編輯:澤南、張倩

Llama 4 或許只是冰山一角。

「AI 大模型自去年 8 月以來就沒有太大進步」。這是一位 AI 創業者在近期的一篇博客中發表的觀點。

他在創業過程中發現,自去年 8 月以來,AI 大模型(如 Claude 3.7 等)在官方發布的基準測試上聲稱的巨大進步與實際應用場景中的有限提升之間存在明顯脫節。這導致他們無法借助模型能力來提升產品體驗。很多 YC 創業者也有類似的體驗。

作者認為,這其中可能的原因包括基準測試作弊、基準無法衡量實用性或模型實際很聰明但對齊存在瓶頸。如果不解決這些基礎問題,AI 系統可能會在表面上顯得很聰明,但在組合成社會系統時會出現根本問題。

以下是博客原文:

模型得分與消費者體驗脫節

大約九個月前,我和三個朋友認為人工智能已經足夠好,可以自主監控大型代碼庫的安全問題了。我們圍繞這個任務成立了一家公司,試圖利用最新的大模型能力來創建一種工具,用以取代至少很大一部分滲透測試人員的價值。我們從 2024 年 6 月開始從事這個項目。

在公司成立后的頭三個月內,Anthropic 的 Claude 3.5 sonnet 就發布了。只需切換在 GPT-4o 上運行的服務部分,我們剛剛起步的內部基準測試結果就會立即開始飽和。我記得當時很驚訝,我們的工具不僅似乎犯的基本錯誤更少,而且其書面漏洞描述和嚴重性估計似乎也有了質的提高。就好像即使是在不完整的信息中,這些模型也能更善于推斷人類提示背后的意圖和價值。

事實上,安全研究基本上沒有公開的基準。有「網絡安全」評估會向 AI 模型詢問有關孤立代碼塊的問題,「CTF」評估會為模型提供明確的挑戰描述和對 <1kLOC Web 應用程序的 shell 訪問權限。但沒有什么能觸及 LLM 應用程序滲透測試的難點 —— 一是瀏覽一個太大而無法放在上下文中的真實代碼庫;二是推斷目標應用程序的安全模型;三是深入理解其實現,以了解該安全模型在哪里出現了問題。

出于這些原因,我認為漏洞識別任務是衡量 LLM 在狹窄的軟件工程領域之外的泛化性的一個很好的試金石。

自 3.5-sonnet 以來,我們一直在監控 AI 大模型的發布,并嘗試過幾乎每個聲稱有所改進的主要新版本。令人意想不到的是,除了 3.6 的小幅提升和 3.7 的更小提升外,我們嘗試的所有新模型都沒有對我們的內部基準或開發人員發現新錯誤的能力產生重大影響。這包括新的測試時間計算 OpenAI 模型。

起初我很緊張,不敢公開報告此事,因為我認為這可能會對我們團隊產生不良影響。自去年 8 月以來,我們的掃描有了很大的改進,但這是因為常規工程,而不是模型改進的提升。這可能是我們設計的架構存在問題,隨著 SWE-Bench 分數的上升,我們并沒有獲得更多的進展。

但最近幾個月,我與其他從事 AI 應用初創企業的 YC 創始人進行了交談,他們中的大多數人都有相同的經歷:1. 見證了 o99-pro-ultra 大模型發布,2. 基準測試看起來不錯,3. 實際應用評估表現平平。盡管我們從事不同的行業,處理不同的問題,但情況大致相同。有時創始人會對這種說法做出回應(「我們只是沒有任何博士級的問題可以問」),但這種說法是存在的。

我讀過這些研究,也看過這些數字。也許與大模型的交談變得更有趣了,也許他們在受控考試中表現得更好了。但我仍然想根據內部基準以及我自己和同事們使用這些模型的看法提出觀點:大模型公司向公眾報告的任何提升都不能反映經濟實用性或普遍性。它們不能反映我或我客戶的實際體驗。就能夠執行全新的任務或更大比例的用戶智力勞動而言,我認為自去年 8 月以來它們就沒有太大進步了。

如果你是大模型競品公司的工程師,這或許是個好消息!對我個人而言,作為一個試圖利用大模型能力賺錢的人,它們還沒有聰明到能解決整個問題,對那些擔心快速過渡到 AI 經濟會帶來道德風險的人來說,或許也不需要太過擔憂了。

與此同時,有一種觀點認為,模型得分與消費者體驗脫節是一個不好的跡象。如果業界現在還搞不清楚如何衡量模型的智力,而模型大多局限于聊天機器人,那么當 AI 在管理公司或制定公共政策時,又該如何制定衡量其影響的標準呢?如果我們在將公共生活中繁瑣而艱難的部分委托給機器之前就陷入了古德哈特定律(當一個政策變成目標,它將不再是一個好的政策),我想知道原因。

AI 實驗室是在作弊嗎?

AI 實驗室的創始人們經常認為,他們正在進行一場文明競爭,以控制整個未來的光錐,如果他們成功了,世界就將會改變。指責這些創始人從事欺詐行為以進一步實現這些目的是相當合理的。

即使你一開始對科技大佬的評價異常高,你也不應該指望他們在這場競賽中成為自己模型表現的誠信來源。如果你能規避懲罰,那么夸大能力或有選擇地披露有利的結果有非常強大的短期激勵。投資是其中之一,但吸引人才和贏得(具有心理影響力的)聲望競賽可能也是同樣重要的激勵因素。而且基本上沒有法律責任迫使實驗室對基準測試結果保持透明或真實,因為從來沒有人因為在測試數據集上進行訓練然后向公眾報告該表現而被起訴或被判犯有欺詐罪。

如果你嘗試過,任何這樣的實驗室仍然可以聲稱自己在非常狹隘的意義上說的是實話,因為該模型「確實在該基準上實現了該性能」。如果對重要指標的一階調整在技術意義上可以被視為欺詐,那么負責偽造統計數據的團隊還有一百萬種其他方式來稍微間接地處理它。

在本文的初稿中,我在上面一段后面加上了這樣一句話:「話雖如此,不可能所有收益都來自作弊,因為一些基準測試有保留數據集。」最近有一些私人基準測試,如 SEAL,似乎顯示出了改進。但 OpenAI 和 Anthropic 發布的每一個基準測試都有一個公開的測試數據集。我能想到的唯一例外是 ARC-AGI 獎,其「半私人」評估中的最高分由 o3 獲得,但盡管如此,它尚未對 Claude 3.7 Sonnet、DeepSeek 或 o3-mini 進行過公開評估。關于 o3 本身:



所以也許沒有什么秘密:AI 實驗室公司在撒謊,當他們改進基準測試結果時,是因為他們之前已經看到過答案并把它們寫下來了。從某種意義上說,這可能是最幸運的答案,因為這意味著我們在衡量 AGI 性能方面其實并沒有那么糟糕;我們只是面臨著人為的欺詐。欺詐是人的問題,而不是潛在技術困難的跡象。

我猜這在一定程度上是正確的,但并非全部。

基準測試是否沒有跟蹤實用性?

假設你對一個人的唯一了解是他們在瑞文漸進矩陣(智商測試)中得分為 160。你可以對這個人做出一些推斷:例如,RPM 得分越高,可推斷出生活條件越積極,比如職業收入很高、健康狀況很好、不會進監獄等等。

你可以做出這些推斷,部分原因是在測試人群中,瑞文漸進矩陣測試的分數可以反映人類在相關任務上的智力能力。完成標準智商測試并獲得高分的能力不僅能讓你了解這個人的「應試」能力,還能讓你了解這個人在工作中的表現如何,這個人是否做出了正確的健康決定,他們的心理健康是否良好,等等。

至關重要的是,這些相關性不必很強,瑞文測試才能成為有用的診斷工具。患者不會接受智商測試訓練,而且人類大腦的設計也并非是為了在 RPM 等測試中獲得高分。我們在這些測試中的優異表現(相對于其他物種而言)是過去 5 萬年中偶然發生的事情,因為進化間接地讓我們能夠追蹤動物、灌溉莊稼和贏得戰爭。

然而在大模型領域,除了幾個明顯的例外,我們幾乎所有的基準測試都具有標準化測試的外觀和感覺。我的意思是,每一個都是一系列學術難題或軟件工程挑戰,每個挑戰你都可以在不到幾百個 token 的時間內消化并解決。也許這只是因為這些測試評估起來更快,但人們似乎理所當然地認為,能夠獲得 IMO 金牌的 AI 模型將具有與陶哲軒相同的能力。因此,「人類的最后考試」(ENIGMAEVAL)不是對模型完成 Upwork 任務、完成視頻游戲或組織軍事行動的能力的測試,而是一個自由反應測驗。

我不會做任何「人類的最后考試」的測試問題,但我今天愿意打賭,第一個拿到滿分的大模型仍然無法作為軟件工程師就業。 HLE 和類似的基準測試很酷,但它們無法測試語言模型的主要缺陷,比如它們只能像小商販一樣通過復述的方式來記住東西。Claude Plays Pokemon 是一個被過度使用的例子,因為視頻游戲涉及許多人類特定能力的綜合。這項任務適合于偶爾回憶 30 分鐘前學到的東西,結果不出所料地糟糕。



就我個人而言,當我想了解未來能力的改進時,我將幾乎只關注 Claude Plays Pokemon 這樣的基準測試。我仍然會查看 SEAL 排行榜,看看它在說什么,但我的 AI 時間表的決定因素將是我在 Cursor 中的個人經歷,以及 LLM 處理類似你要求員工執行的長期任務的能力,其他的一切都太過嘈雜。

這些模型或許已經很智能,但在對齊方面存在瓶頸?

在介紹下一點之前,讓我先介紹一下我們的業務背景。

正如我所提到的,我的公司使用這些模型來掃描軟件代碼庫以查找安全問題。從事這個特定問題領域(維護已交付軟件的安全性)工作的人被稱為 AppSec 工程師。

事實上,大多數大公司的 AppSec 工程師都有很多代碼需要保護。他們的工作過度,典型要回答的問題不是「我如何確保這個應用程序沒有漏洞」,而是「我如何管理、篩選和解決我們 8000 條產品線中已經存在的大量安全問題」。

如果他們收到一條警報,他們希望它影響活躍的、理想情況下可通過互聯網訪問的生產服務。任何低于這個水平的情況都意味著要么有太多結果需要審查,要么安全團隊是在浪費有限的溝通資源來要求開發人員修復甚至可能沒有影響的問題。

因此,我們自然會嘗試構建我們的應用程序,以便它只報告影響活躍的、理想情況下可通過互聯網訪問的生產服務的問題。但是,如果你只是向聊天模型解釋這些限制,它們會偶爾遵循人的指示。例如,如果你告訴他們檢查一段代碼是否存在安全問題,他們傾向于像你是剛剛在 ChatGPT UI 中詢問該代碼的開發人員一樣做出回應,因此會推測代碼有問題或險些失誤。即使你提供了我剛剛概述的情況的完整書面描述,幾乎每個公共模型都會忽略你的情況,并將無法利用的 SQL 查詢連接報告為「危險」。

這并不是說 AI 模型認為它遵循了你的指示,但實際上并沒有。LLM 實際上會在簡單的應用程序中說,它報告的是一個「潛在」問題,并且可能無法驗證。我認為發生的情況是,大型語言模型被訓練成在與用戶的實時對話中「看起來很聰明」,因此它們更喜歡突出顯示可能的問題,而不是確認代碼看起來不錯,就像人類想要演得很聰明時所做的那樣。

每個 LLM 應用初創公司都會遇到這樣的限制。當你是一個直接與聊天模型交互的人時,阿諛奉承和詭辯只是小麻煩,甚至也是能適應的。當你是一個團隊試圖將這些模型組合成更大的系統時(由于前面提到的內存問題,這是必要的),想要看起來不錯會引發嚴重的問題。更智能的模型可能會解決這個問題,但它們也可能使問題更難檢測,特別是當它們取代的系統變得更加復雜并且更難驗證輸出時。

有很多不同的方法來克服這些缺陷。在有人想出解決問題的外在表現之前,我們完全有可能無法解決核心問題。

我認為這樣做是一個錯誤。這些 AI 機器很快就會成為我們生活的社會的跳動的心臟。它們在組合和互動時創造的社會和政治結構將定義我們周圍看到的一切。更重要的是,它們要盡可能地有道德。

https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我國“最難考”的3所工業大學,考上的都是學霸,畢業不愁就業

我國“最難考”的3所工業大學,考上的都是學霸,畢業不愁就業

金哥說新能源車
2025-04-20 09:06:30
老了才看透:什么天倫之樂、兒孫滿堂,是自己騙自己

老了才看透:什么天倫之樂、兒孫滿堂,是自己騙自己

舒山有鹿
2025-04-20 12:34:20
突然發現全國人民都不敢接電話了!

突然發現全國人民都不敢接電話了!

振華觀史
2025-04-15 13:29:07
他三個月時間從縣委副書記提拔為省委常委,46歲擔任貴州省副省長

他三個月時間從縣委副書記提拔為省委常委,46歲擔任貴州省副省長

悟空談歷史
2024-06-05 22:01:57
馬云這長相隨誰?馬云幼年時和父親馬來法、母親崔文彩的珍貴合影

馬云這長相隨誰?馬云幼年時和父親馬來法、母親崔文彩的珍貴合影

娛你同歡
2025-04-14 15:49:47
小玥兒變化大,馬筱梅帶著她現身北京朝陽公園甜品店,母女似姐妹

小玥兒變化大,馬筱梅帶著她現身北京朝陽公園甜品店,母女似姐妹

侃侃娛季
2025-04-22 17:12:36
僅剩4天,各派要拉賴清德下馬,美國航母不敢走,大陸已定下調子

僅剩4天,各派要拉賴清德下馬,美國航母不敢走,大陸已定下調子

泠泠說史
2025-04-22 11:38:12
工信部禁止車企吹牛

工信部禁止車企吹牛

水滴汽車App
2025-04-21 23:29:51
??感謝有你!太陽贏了隨機抽簽 火箭3.8%概率獲狀元簽

??感謝有你!太陽贏了隨機抽簽 火箭3.8%概率獲狀元簽

直播吧
2025-04-22 07:33:09
又被巴西后腰坑了?國安外援變玻璃人,培養范雙杰,雙中后衛復出

又被巴西后腰坑了?國安外援變玻璃人,培養范雙杰,雙中后衛復出

替補席看球
2025-04-22 18:43:45
始終等不到中方電話,特朗普終于想通了:美國要的,中國絕不會給

始終等不到中方電話,特朗普終于想通了:美國要的,中國絕不會給

山河月明史
2025-04-21 22:48:14
張根碩抗癌目前停藥,和以前的形象天差地別,美男花期好短

張根碩抗癌目前停藥,和以前的形象天差地別,美男花期好短

飛娛日記
2025-04-22 09:02:28
新一輪事業單位改革之后,事業編和公務員差別更大了!

新一輪事業單位改革之后,事業編和公務員差別更大了!

晨曦徐徐
2025-04-20 10:57:44
希金斯談中國斯諾克選手:他們還需要學習,防守和安全球

希金斯談中國斯諾克選手:他們還需要學習,防守和安全球

懂球帝
2025-04-22 17:53:21
如果不及時快速地解決臺灣問題,有可能出現無法挽回的局面

如果不及時快速地解決臺灣問題,有可能出現無法挽回的局面

清游說娛
2025-03-28 10:49:32
TVB的《中年好聲音》為什么在內地不火?

TVB的《中年好聲音》為什么在內地不火?

陳意小可愛
2025-04-22 17:20:16
膽子真大!河南一股民2.4抄底4年虧損股,晚上被ST,網友:是狠人

膽子真大!河南一股民2.4抄底4年虧損股,晚上被ST,網友:是狠人

滄海一書客
2025-04-22 11:26:52
梁振英次女之死細節曝光:她和16歲天才少年,患了同一種“病”

梁振英次女之死細節曝光:她和16歲天才少年,患了同一種“病”

體制內老陳
2025-04-15 16:56:57
30集諜戰劇將登陸央視!張魯一領銜主演,有望再掀收視狂潮

30集諜戰劇將登陸央視!張魯一領銜主演,有望再掀收視狂潮

樂楓電影
2025-04-22 11:06:56
《借命而生》:三個廠花,命運一個比一個慘,看完結局直接無語了

《借命而生》:三個廠花,命運一個比一個慘,看完結局直接無語了

動物奇奇怪怪
2025-04-22 08:09:19
2025-04-22 22:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10390文章數 142296關注度
往期回顧 全部

科技要聞

美團騎手親述:京東外賣單子傭金高卻難搶

頭條要聞

游客大理買瓜稱170克手機稱重0.34千克 被諷"憨鴕鳥"

頭條要聞

游客大理買瓜稱170克手機稱重0.34千克 被諷"憨鴕鳥"

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

大s兒女回京!張蘭氣場全開汪小菲談養老

財經要聞

宜賓銀行與五糧液集團頻繁關聯交易

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態度原創

本地
數碼
時尚
手機
軍事航空

本地新聞

云游湖北 | 澴川醉古今!孝文化名城藏了多少寶藏?

數碼要聞

東芝 N300 和 N300 Pro 系列 NAS 用機械硬盤新增 24TB 容量版本

無用之書·共讀 | 隨機波動:讀書是一種隔空的擁抱

手機要聞

小米16系列再次被確認:直屏+副屏,有望九月份發布!

軍事要聞

普京三年來首次向烏克蘭發出“和談邀約”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 镇江市| 蒲城县| 永胜县| 龙口市| 天津市| 叶城县| 昆山市| 上思县| 林口县| 武城县| 云梦县| 广西| 蒙城县| 驻马店市| 西吉县| 宁晋县| 阿克| 吴川市| 阜新市| 沙洋县| 和政县| 屏山县| 惠东县| 桃江县| 峡江县| 二连浩特市| 宁夏| 高淳县| 汉沽区| 湛江市| 丽水市| 新营市| 富民县| 德安县| 邮箱| 白水县| 鱼台县| 永嘉县| 平利县| 文登市| 阜新|