99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Nature發文「智能體摩爾定律」,Agent能力每7個月翻倍

0
分享至

AI Agents(智能體)也有自己的“摩爾定律”了?!

就在最近,Nature報道了一項來自非營利研究機構METR的最新發現:

AI在完成長期任務方面的進步速度驚人,其時間跨度大約每七個月翻一番。



為了衡量Agent自動完成任務的能力變化,研究人員提出了“50%-任務完成時間跨度(50%-task-completion time horizon)”這一指標。

他們以50%任務成功率為基準,假設2019年AI達到這一目標所需時間對應人類需要的時間為10分鐘,那么7個月后,其對應的人類完成任務時間則變成了20分鐘。

換句話說,AI能夠勝任越來越多人工耗時久的任務,能力逐漸更強。



2024年這一增長速度變得更快了,一些最新模型大約每三個月翻一番

按照預測,大約五年后,AI就能自動完成很多人類現在要花一個月才能完成的任務。

網友們紛紛表示,這下終于對AI進步神速有實感了!



提出“50%-任務完成時間跨度”指標

在METR的介紹中,他們將這一發現命名為“Moore’s Law for AI agents”,也就是“智能體摩爾定律”。



下面我們詳細展開其研究方法。

整體而言,他們主要是讓AI和一些專業人員在相似條件下嘗試完成任務,然后測量人類所需要的時間,最終來比較AI成功率如何隨著人類完成時間的長短而變化。



這第一步,研究團隊選擇了三個不同的任務套件來評估AI模型的能力:

  • 97個HCAST任務,涵蓋軟件工程、機器學習、網絡安全和一般推理挑戰的多樣化任務集合,難度從幾分鐘到30小時;
  • 7個RE-Bench任務,由七個開放式的機器學習研究工程環境組成,每個需人類專家約8小時完成;
  • 66個SWAA任務,代表軟件開發過程中的單個步驟操作,時長1秒到30秒。

接下來,為了量化評估AI模型的表現,團隊招募了800多名軟件工程、機器學習和網絡安全領域的專業人員執行任務,并記錄他們完成任務所需的時間。

據METR介紹,在這些任務中,人類完成時間從1秒到16小時不等。

這些時間被當作衡量任務難度的標準。



然后他們又評估了從2019年到2025年發布的13個前沿AI模型,包括GPT系列和o1、Sonnet 3.7等,通過在構建的任務套件上運行這些模型,并記錄它們完成任務的成功率。

關鍵來了,隨后他們引入了一個新的指標——50%任務完成時間跨度(50%-task-completion time horizon),即AI模型在50%的成功率下能夠完成的任務的平均時間長度。

之所以選擇50%這一成功率,主要是它對于數據分布的微小變化最為穩健

簡單說,當數據的分布(即數據的特征、比例或趨勢等)發生一些小的變化時,這個指標不會受到太大的影響,仍然能夠保持相對穩定的表現。

論文作者之一Lawrence Chan表示:

如果你選擇非常低或非常高的閾值,那么分別移除或增加一個成功或失敗的任務,就會對你的估計值產生很大的影響。

利用這一指標,團隊通過對AI模型在各個任務上的成功與失敗數據進行邏輯回歸分析,計算出每個模型的時間跨度,也就是模型完成任務成功率達到50%之時,對應的人類完成任務的時間。

(每個模型在每個任務上運行8次,記錄成功率)



有了這些數據,團隊最終繪制了模型自主性隨時間呈指數變化的圖表。



發現“AI智能體摩爾定律”

如上圖所示,研究的主要發現是:

自2019年以來,AI模型的時間跨度呈現出指數級增長,每七個月左右翻一番。

為了驗證研究結果的外部有效性,他們又進行了以下四個實驗:

1、用2023-2025年數據回溯預測,驗證趨勢一致性;
2、對HCAST和RE-Bench任務基于16個 “混亂” 因素評級,分析任務混亂程度對模型性能的影響;3、在其他SWE-bench Verified數據集上應用相同方法,對比結果;4、在內部Pull Requests(PR)任務上測試模型性能,與人類基線對比。

最終,這一趨勢得到了以上外部驗證。

比如在第2個實驗中,所謂的16個 “混亂(messy)” 因素是指現實任務比研究任務更難的方面,包括任務是否受到有限資源的限制、是否涉及實時協調或是否源自現實世界的環境。

每個任務都根據這些因素得到了一個 “混亂度(messiness score)” 分數。

研究人員發現,盡管AI模型在更加混亂的任務上(比如缺乏明確提示和反饋、需要AI主動去獲取信息、任務條件和要求比較模糊等情況)的絕對性能較低,但另一方面其性能在穩步提升。

更有意思的是,不管任務的“混亂”程度如何,AI都是以相似的速度在提升。



再比如在SWE-bench Verified基準上的驗證,他們也觀察到了一個類似的指數級增長趨勢。

不過由于標注時間的問題,該基準測試的時間跨度翻倍時間更短



總之,按照“智能體摩爾定律”進行預測,AI可能在2028年11月達到一個月的任務時間跨度;而在較為保守的估計下,這一目標可能在2031年2月實現。

METR團隊認為,雖然研究還存在任務套件具有局限性、評估指標不完美、未來AI發展具有不確定性等需要完善的地方,但很確信這一指標每年有1~4倍的增長趨勢



而結合現實中Manus智能體的走紅,我們已經能夠預見到智能體將迎來爆發。



論文:
https://arxiv.org/pdf/2503.14499

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
批復!內蒙古新建一機場

批復!內蒙古新建一機場

魯中晨報
2025-04-12 11:31:12
和男人發生關系后,錢就不好搞了

和男人發生關系后,錢就不好搞了

劉娜
2025-04-12 12:39:40
在女籃比賽現場,更多人敢直視那條帶血的運動褲了

在女籃比賽現場,更多人敢直視那條帶血的運動褲了

晚霧空青
2025-04-11 14:13:32
“狼見了都發抖”,東北虎女飼養員帶火動物園:打賞都給動物改善伙食

“狼見了都發抖”,東北虎女飼養員帶火動物園:打賞都給動物改善伙食

封面新聞
2025-04-11 22:45:12
女人對你“袒露”這3處秘密,就是在等你說“我們在一起”

女人對你“袒露”這3處秘密,就是在等你說“我們在一起”

伊人河畔
2025-04-12 11:22:23
美聯儲,重磅發聲!美股,全線上漲!金價,再創新高

美聯儲,重磅發聲!美股,全線上漲!金價,再創新高

證券時報
2025-04-12 08:41:03
湖南6市空氣質量指數爆表 預計16時后沙塵污染減弱

湖南6市空氣質量指數爆表 預計16時后沙塵污染減弱

環球網資訊
2025-04-12 14:15:07
堪比搶七!勇士收官與快船決生死 誰輸打附加賽!灰熊確定附加賽

堪比搶七!勇士收官與快船決生死 誰輸打附加賽!灰熊確定附加賽

老王大話體育
2025-04-12 13:19:23
中國不陪特朗普玩了!美媒爆料:特朗普拉出名單,中方直接拒絕

中國不陪特朗普玩了!美媒爆料:特朗普拉出名單,中方直接拒絕

星辰故事屋
2025-04-11 20:44:55
豪門狂歡夜!AC米蘭造4-0慘案,利物浦雙喜臨門,薩拉赫沖神跡!

豪門狂歡夜!AC米蘭造4-0慘案,利物浦雙喜臨門,薩拉赫沖神跡!

釘釘陌上花開
2025-04-12 04:39:22
女生穿瑜伽褲,到底是什么心理?原因太真實了!

女生穿瑜伽褲,到底是什么心理?原因太真實了!

健身S叔
2025-03-22 18:09:52
CBA八強出爐!下半區比上半區慘烈,9-12最終排名確定!

CBA八強出爐!下半區比上半區慘烈,9-12最終排名確定!

籃球資訊達人
2025-04-12 00:28:22
鬧劇愈演愈烈!紅十字再變“綠十字”,刷綠后緊急拆除,當地回應

鬧劇愈演愈烈!紅十字再變“綠十字”,刷綠后緊急拆除,當地回應

法老不說教
2025-04-12 06:25:11
美司令警告:如臺海戰爭爆發,不留余地,或用B-21擊沉解放軍戰艦

美司令警告:如臺海戰爭爆發,不留余地,或用B-21擊沉解放軍戰艦

車馬點兵V
2025-04-12 10:18:17
因拒絕發生性行為,51歲女教師被同居11年男友殺害

因拒絕發生性行為,51歲女教師被同居11年男友殺害

行走的知識庫
2025-04-11 09:43:37
剛剛,江蘇最大風出現,10級!在這個地方→

剛剛,江蘇最大風出現,10級!在這個地方→

魯中晨報
2025-04-12 10:39:09
上海男籃被淘汰兩大原因:洛夫頓太獨了,王哲林驚現國家隊水平

上海男籃被淘汰兩大原因:洛夫頓太獨了,王哲林驚現國家隊水平

姜大叔侃球
2025-04-12 10:21:40
意外!王力宏MV拍攝燒傷臉部,現場燒毀價值不菲鋼琴畫面曝光

意外!王力宏MV拍攝燒傷臉部,現場燒毀價值不菲鋼琴畫面曝光

華人生活網
2025-04-12 04:45:42
關稅戰背后的中美兩國根本矛盾(深度長文)

關稅戰背后的中美兩國根本矛盾(深度長文)

黑噪音
2025-04-11 18:06:21
上海地鐵上發生的那件事兒沒法說,看看一些女性在公眾場合的穿著

上海地鐵上發生的那件事兒沒法說,看看一些女性在公眾場合的穿著

游古史
2025-04-12 12:52:31
2025-04-12 14:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10303文章數 176094關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

媒體:中國元首將應邀訪問越南 不僅是外交方面的事情

頭條要聞

媒體:中國元首將應邀訪問越南 不僅是外交方面的事情

體育要聞

當意甲冠軍跌入意乙降級區 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

旅游
家居
手機
藝術
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

浪漫與優雅 不被定義的現代法式

手機要聞

9天漲價500元 蘋果手機迎漲價潮?直營店價格沒變 經銷商:有價無市 沒人敢收

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁河县| 松原市| 大埔区| 合水县| 博野县| 青冈县| 商丘市| 大同市| 全南县| 河南省| 中山市| 荥阳市| 广元市| 朔州市| 宁都县| 东方市| 雅安市| 东兰县| 凌云县| 潼关县| 林甸县| 广宁县| 茶陵县| 微山县| 景宁| 南投县| 旬阳县| 蒲江县| 清丰县| 东宁县| 柞水县| 汤阴县| 扎兰屯市| 宽甸| 商洛市| 宜黄县| 道真| 临高县| 冀州市| 大埔县| 固原市|