99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

得分僅1%!所有AI模型都輸了!但我們真要解決的問題是……

0
分享至

點擊圖片報名,抓住風口(iOS用戶請用電腦端打開小程序)

本期要點:AI也要應試?但真正該做的是換條路!

你好,我是王煜全,這里是王煜全要聞評論。

面對這場AI浪潮,大家常常感到恐慌。特別是在馬斯克的不斷宣傳下,很多人都擔心AI很快會取代人類,甚至導致人類毀滅。

但是,就像昨天我們介紹楊立昆對人形機器人的看法時提到的,人類距離實現(xiàn)AGI(通用人工智能)還很遙遠,所以大家大可不必被“AI末日說”搞得一驚一乍。

而且,最近我們又看到了一個有趣的新聞,證明了AI至少在短期內(nèi)無法替代人類。

上周,“弧光獎基金會”(Arc Prize Foundation)發(fā)布了一項名為ARC-AGI-2的測試。根據(jù)他們的數(shù)據(jù),這個測試已經(jīng)難倒了幾乎所有現(xiàn)有的AI模型。

如OpenAI的o1-pro和DeepSeek的R1等推理AI大模型,在ARC-AGI-2測試中的得分僅為1%~1.3%。而各類非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等,得分則更低。

更關鍵的是,研究人員邀請了400多個普通人參與ARC-AGI-2測試。結果顯示,平均而言,大家答對了測試中60%的問題,遠遠超過了所有模型的得分。

也就是說,“弧光獎基金會”找到了一類人類比較擅長、但AI幾乎無法完成的任務,而且鑒于AI得分如此之低,它們在短期內(nèi)想要超過人類,難度很大。


我認為,當前大模型在ARC-AGI-2測試中的潰敗,確實暴露了AI方法論上的問題,表明單純堆砌算力和數(shù)據(jù)量并不能碾壓一切。如果要進一步發(fā)展,必須轉換思路。同時,這也觸及了人工智能領域的一個核心問題:如何判斷一個模型是否真正具備了通用智能。

首先,你也許會好奇,是什么事情把AI難住了?

其實在科技界,ARC-AGI測試已小有名氣。這些問題類似于謎題,比如要求AI從一組顏色各異的方塊中識別出視覺模式,并生成正確的“答案”網(wǎng)格。說白了,就是給AI一些從未見過的新問題,考驗其發(fā)現(xiàn)規(guī)律、解決問題的能力。

簡而言之,這就是為了測試AI的“小樣本泛化”能力,也就是我們常說的“舉一反三”、“觸類旁通”—-從對少量案例的觀察中發(fā)現(xiàn)規(guī)律、并運用到后續(xù)實踐中的能力。通過不了ARC-AGI-2測試,至少說明當前的AI方法論存在上限,未來也很難實現(xiàn)AGI。


ARC-AGI-2測試題目

人類智能的獨特性,正體現(xiàn)在能從有限的經(jīng)驗中抽象出通用規(guī)則。例如,我們能從數(shù)字變化中總結出乘法規(guī)則,然后還能用這些規(guī)則進行計算,既不會算錯,也不會因為問題的表述形式(比如是應用題、而不是算術式)而不會解題。

但當前的AI大模型經(jīng)常出現(xiàn)幻覺,在99%的情況下非常可靠,在1%的狀況下卻會發(fā)生荒誕失誤。正如Meta首席AI科學家楊立昆(Yann LeCun)所指出的,當前AI大模型都是基于自回歸預測機制,也就是“猜下一個詞”,這還是概率,而不是真的理解了規(guī)律,自然永遠無法超越人類智能。

因為現(xiàn)有的AI,不光不能“觸類旁通”,還得“舉一萬才能返三”,所以,對那些沒見過的事情,AI就是答不出來;對那些小概率事件,AI就是應對不好,這是刻在骨子里的缺陷。


但是,話說回來,我想強調的是,單純追求小樣本泛化的能力的測試結果,可能會陷入測試導向的發(fā)展誤區(qū)。

如果未來有AI大模型通過了ARC-AGI-2測試,是否就意味著實現(xiàn)了AGI呢?這顯然是站不住腳的,因為這樣的測試并沒有排除用別的方法找到結果的可能性,也就是說,做對了題的AI,也不保證用的就是“小樣本泛化”能力。

實際上,在ARC-AGI的第一代測試中,就有模型通過暴力破解的方式獲得了高分。

例如,OpenAI的o3,就是首個在ARC-AGI-1上取得了75.7%高分的模型。但很明顯,這并不能真正證明o3有小樣本泛化能力,更不能證明它達到了AGI的水平,大概率是模型為了刷分而專門進行了優(yōu)化。

為了解決這一問題,ARC-AGI-2測試就要求模型在解答問題時,每項任務花費不能超過0.42美元。不僅要能獲得高分,還要考慮效率和成本。由于o3模型每解答一個問題就需要消耗約200美元的計算成本,所以無法通過新的測試。

可是這并沒有高枕無憂,只要是設計的測試題,就有可能存在漏洞。很難說以后不會有模型在訓練中,找到新的暴力破解或者偶然撞對答案的方法,那樣,測試題的效力就會大打折扣。

那么,究竟該怎么辦呢?我認為,自然是要嘗試新的具有真正理解能力的模型設計,而不是仍然試圖通過現(xiàn)有模型概率預測的舊方法來取得高分。

楊立昆倡導“世界模型”,通過嵌入物理定律和因果推理模塊來構建基礎認知架構,以求從范式上超越現(xiàn)有AI大模型。他們的團隊也開始了初步探索,未來可以關注其后續(xù)進展。

但我覺得,“世界模型”也是不夠的。AI的競爭不僅靠技術革命,更要靠認知革命。

首先,我們或許應該要理解人類“舉一反三”的能力從何而來。所謂泛化,其實是記憶、感知和抽象動態(tài)交互的結果。遇到新事物時,我們會以很低的功耗從現(xiàn)象中抽象出規(guī)則,并在可控范圍內(nèi)將其與已有的規(guī)則和經(jīng)驗進行比較。

就像古人第一次見到大象時,雖然叫不出其名字,但也會與既往的認知進行關聯(lián),將其放入大型野生動物的認知框架之中,知道不能切成一塊塊的來稱重量。

其次,我們的認知其實是個貝葉斯式漸進優(yōu)化的過程,體現(xiàn)為以目標為導向、且能持續(xù)進行自我修正。即便碰到?jīng)]見過的問題,在大部分情況下,我們通過學習知識、原理分析和實踐嘗試,就能在有限次的循環(huán)中朝正確方向收斂。而AI只有實現(xiàn)了這一點,才能避免陷入重復試錯的低效運轉之中。

最后,我還想強調的是,社會化AI可能才是通往下一階段的重要路徑,因為人類的智慧不僅來自個體,更來自于群體。具體可以回看以往的思想薈文章,我有更詳細的論述。

當然,對于廣大的開發(fā)者和創(chuàng)業(yè)者而言,我們不用管AGI何時到來,專家型AI確實可以遠超人類專家,專家級的、個性化的、連續(xù)的、普惠的智能服務已經(jīng)可以實現(xiàn),真正的黃金時代其實就已經(jīng)到來了。如果你也想抓住時代紅利,歡迎掃碼加入特訓營直播課,與我一起,先人一步,看清未來!


此外,前哨AI小課第四季已經(jīng)進展到第五講了,想用AI提升自己職業(yè)能力的朋友,千萬不要錯過!最后,您的寶貴意見是我們不斷優(yōu)化課程內(nèi)容的關鍵,在此誠摯地邀請您抽出幾分鐘,掃碼參與AI小課的問卷調查,一起幫助我們提升課程質量。非常感謝!

以上就是今天的內(nèi)容,王煜全要聞評論,我們明天見。

【科技特訓營】看懂科技產(chǎn)業(yè),離不開長期觀察。線上書院模式,與王老師深度鏈接!為未來五年做好準備,先人一步,領先一路!

↓長按圖片掃碼報名, 先人一步,領先一路


↓¥399,掌握王煜全AI產(chǎn)業(yè)預測精華(iOS用戶請在電腦端打開)

此外,我們還為您準備了一份清單

“全球AI獨角獸公司TOP10”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官宣!“二套轉首套”可享受住房貸款利息個稅專項扣除

官宣!“二套轉首套”可享受住房貸款利息個稅專項扣除

第一財經(jīng)資訊
2025-04-27 11:25:10
戴小暖(女,2002年生)被執(zhí)行死刑

戴小暖(女,2002年生)被執(zhí)行死刑

掌中邯鄲
2025-04-15 11:06:25
中乙第6輪綜述:泰山B隊0-2長春喜都,海港B隊、蓉城B隊取勝

中乙第6輪綜述:泰山B隊0-2長春喜都,海港B隊、蓉城B隊取勝

直播吧
2025-04-27 21:58:55
消費大降級是啥體驗?網(wǎng)友:足療店我兩年沒去了,開始碰媳婦了

消費大降級是啥體驗?網(wǎng)友:足療店我兩年沒去了,開始碰媳婦了

解讀熱點事件
2025-04-28 00:20:05
肖飛醫(yī)生讓2個女同事懷孕后續(xù):他被停職,小三懷孕待產(chǎn)家庭顯赫

肖飛醫(yī)生讓2個女同事懷孕后續(xù):他被停職,小三懷孕待產(chǎn)家庭顯赫

江山揮筆
2025-04-27 19:33:06
美國網(wǎng)紅娶5妻子,每個老婆各具特色,自曝能同時滿足所有人

美國網(wǎng)紅娶5妻子,每個老婆各具特色,自曝能同時滿足所有人

白面書誏
2025-04-26 18:03:26
利物浦5-1逆轉熱刺!提前4輪+時隔5年奪冠 頂級聯(lián)賽20冠追平曼聯(lián)

利物浦5-1逆轉熱刺!提前4輪+時隔5年奪冠 頂級聯(lián)賽20冠追平曼聯(lián)

我愛英超
2025-04-28 01:26:37
DeepSeek說:人最快的減肥方法,不是運動,不是節(jié)食,而是這5種

DeepSeek說:人最快的減肥方法,不是運動,不是節(jié)食,而是這5種

簡食記工作號
2025-04-13 00:02:40
火記:火箭最好的五人組陣容是范喬丹、狄龍、伊森、小賈和申京

火記:火箭最好的五人組陣容是范喬丹、狄龍、伊森、小賈和申京

直播吧
2025-04-27 19:20:14
一場1-0,讓中超多達4隊獲益!泰山隊快醒醒,別成冤大頭

一場1-0,讓中超多達4隊獲益!泰山隊快醒醒,別成冤大頭

何老師呀
2025-04-27 23:14:10
杰曼&古德溫遭雙雙奪權 季后賽階段如累計兩次奪權將自動停賽2場

杰曼&古德溫遭雙雙奪權 季后賽階段如累計兩次奪權將自動停賽2場

直播吧
2025-04-27 22:30:16
被指“在廣西網(wǎng)紅店強制清場”,劉畊宏發(fā)聲道歉,店鋪負責人回應

被指“在廣西網(wǎng)紅店強制清場”,劉畊宏發(fā)聲道歉,店鋪負責人回應

魯中晨報
2025-04-27 16:12:04
小牛推出“不倒翁”三輪車,續(xù)航能跑560公里,遮風擋雨,價格出爐

小牛推出“不倒翁”三輪車,續(xù)航能跑560公里,遮風擋雨,價格出爐

電動車小辣椒
2025-04-26 07:03:45
回不來了!臺積電張忠謀正式表態(tài),國內(nèi)院士:放棄一切幻想

回不來了!臺積電張忠謀正式表態(tài),國內(nèi)院士:放棄一切幻想

Thurman在昆明
2025-04-27 00:49:43
俄外長:若美方持平等尊重立場 俄美可重返軍控談判

俄外長:若美方持平等尊重立場 俄美可重返軍控談判

財聯(lián)社
2025-04-28 00:19:29
就在下個月!國行Apple Intelligence終于登場

就在下個月!國行Apple Intelligence終于登場

愛活網(wǎng)Evolife
2025-04-27 17:02:15
特朗普在空軍一號上再表態(tài),中國是否該給他臺階下?

特朗普在空軍一號上再表態(tài),中國是否該給他臺階下?

寒士之言本尊
2025-04-27 23:57:14
比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創(chuàng)始人被帶走

影史侃談
2025-03-16 22:40:07
不把特朗普當回事,沃爾瑪恢復從中國進口,關稅全部由美國人買單

不把特朗普當回事,沃爾瑪恢復從中國進口,關稅全部由美國人買單

主筆唐駁虎
2025-04-27 13:10:22
謝霆鋒轉發(fā)王菲看他演唱會的博文,25年鋒菲戀時光里釀成深海靜流

謝霆鋒轉發(fā)王菲看他演唱會的博文,25年鋒菲戀時光里釀成深海靜流

可樂談情感
2025-04-27 04:57:50
2025-04-28 01:36:49
王煜全 incentive-icons
王煜全
王煜全帶你一起看創(chuàng)新
651文章數(shù) 726關注度
往期回顧 全部

科技要聞

充1秒跑2.5公里,寧德時代比亞迪華為激戰(zhàn)

頭條要聞

用馬斯克理念改造生產(chǎn)線 95后女生創(chuàng)業(yè)1年銷售額上億

頭條要聞

用馬斯克理念改造生產(chǎn)線 95后女生創(chuàng)業(yè)1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經(jīng)要聞

2千億!核電開閘 國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態(tài)度原創(chuàng)

游戲
手機
數(shù)碼
旅游
藝術

好消息:“跑刀”出金了 更好的消息:出的是現(xiàn)實里的1萬克真黃金"/> 主站 商城 論壇 自運營 登錄 注冊 好消息:“跑刀”出金了 更好的消息:出的是現(xiàn)...

手機要聞

iQOO Z10x規(guī)格曝光,Turbo新品明天見

數(shù)碼要聞

古爾曼:蘋果 Vision Pro 輕量版最早有望今年末上市

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天峻县| 牙克石市| 离岛区| 庄河市| 乃东县| 凤阳县| 乐业县| 郯城县| 温泉县| 喀喇沁旗| 田阳县| 永新县| 东阳市| 梅河口市| 确山县| 沙河市| 克拉玛依市| 北宁市| 灌云县| 弥渡县| 会昌县| 金塔县| 札达县| 田林县| 文水县| 青海省| 镇巴县| 梅州市| 滁州市| 房山区| 宝鸡市| 沅江市| 洮南市| 柯坪县| 韶关市| 长春市| 湟源县| 锡林浩特市| 宣城市| 阿合奇县| 南木林县|