網易首頁 > 網易號 > 正文申請入駐

斯坦福發布《2025年人工智能指數報告》：全球AI競賽白熱化

2025-04-08 19:14:55　來源: DeepTech深科技

北京舉報

分享至

美國斯坦福大學“以人為本人工智能研究院”（HAI，Stanford Institute for Human-Centered AI）于近日發布了其備受全球矚目的第八版《人工智能指數報告》（AI Index Report 2025）。

自 2017 年首次發布以來，該報告一直致力于為政策制定者、研究人員、企業高管和公眾提供準確、嚴謹、全球化的 AI 數據和洞察。正如報告聯合主席 Yolanda Gil 和 Raymond Perrault 在序言中所言，2024 年是人工智能發展史上具有里程碑意義的一年。AI 已經以前所未有的速度融入社會、經濟和全球治理的方方面面。從先進模型的性能飛躍到日常生活的深度嵌入，從創紀錄的產業投資到日益收緊的政府監管，AI 正從邊緣走向中心，成為驅動商業價值、重塑科研范式乃至影響人類未來的核心力量。

圖丨相關報告（來源：HAI）

今年的這份報告長達四百多頁，是迄今為止最為全面的一版，新增了對 AI 硬件演進、推理成本估算、AI 出版和專利趨勢的深入分析，并擴大了關于企業采用負責任 AI 實踐以及 AI 在科學和醫學領域角色的新鮮數據。報告強調，在一個 AI 無處不在、從頂尖實驗室到普通家庭的餐桌都在討論的時代，以數據驅動、獨立客觀的視角來理解 AI 的現狀、演變路徑和未來趨勢，其重要性從未如此凸顯。

報告共八個章節，其核心內容可以總結為以下五點：

技術前沿：性能狂飆突進，中國緊隨其后，競爭格局日趨擁擠

報告的核心發現之一是 AI 在嚴苛基準測試上的持續突破，其速度甚至超出了許多人的預期。

· 基準性能持續提升：2023 年研究人員引入了 MMMU、GPQA、SWE-bench 等一系列旨在難倒頂尖 AI 的新基準。然而僅一年后，AI 模型在這些基準上的表現就出現了驚人的飛躍，得分分別提升了 18.8、48.9 和 67.3 個百分點。尤其在 SWE-bench（軟件工程基準）上，AI 解決編碼問題的能力從 2023 年的僅 4.4% 飆升至 2024 年的 71.7%。同時，高質量視頻生成等領域也取得了重大進展。

圖丨選定的 AI 指數技術性能基準與人類性能對比（來源：HAI）

· 中美差距顯著縮小：報告指出，美國仍然是頂尖 AI 模型的“生產大戶”，2024 年發布了 40 個值得關注的模型，遠超中國的 15 個和歐洲的 3 個。然而，數量上的領先并不意味著性能上的絕對優勢。在 MMLU、HumanEval 等關鍵基準上，中美頂尖模型之間的性能差距已從 2023 年的兩位數迅速縮小至 2024 年的近乎持平，部分基準差距僅為個位數甚至零點幾。這表明中國 AI 模型的“質量”正在快速追趕。

圖丨美國與中國模型在特定基準上的表現（來源：HAI）

· 技術前沿趨于收斂：競爭的加劇也體現在技術前沿的“擁擠度”上。報告引用了 LMSYS Chatbot Arena（一個廣泛使用的大模型競技場）的數據，顯示排名第一和第十的模型之間的 Elo 分數差距從一年前的 11.9% 縮小到了 5.4%。更值得注意的是，排名前兩位的模型差距從 4.9% 驟降至僅 0.7%。這意味著頂尖模型的性能水平日益接近，高質量模型不再是少數巨頭的專利，開發者生態系統正變得越來越有競爭力。正如 HAI 研究主管 Vanessa Parli 在接受媒體采訪時所說：“這創造了一個激動人心的局面。好的地方在于，這些模型不再僅僅是由硅谷的五個人開發的。”

圖丨在 LMSYS ChatBot 競技場的不同頂級模型表現（來源：HAI）

· 小型模型異軍突起，開源模型奮起直追：另一個顯著趨勢是“小模型”展現出的強大能力。2022 年，在 MMLU 上得分超過 60% 的最小模型是擁有 5400 億參數的 PaLM。而到 2024 年，微軟僅有 38 億參數的 Phi-3-mini 就達到了同樣門檻，參數量縮減了 142 倍。這得益于算法效率的提升。同時，開源/開放權重模型與閉源模型之間的性能差距也幾乎消失。在 Chatbot Arena 上，2024 年初領先的閉源模型比頂尖開放權重模型高出 8.04%，到 2025 年初，這一差距已縮小至 1.70%。這標志著先進 AI 技術的獲取門檻正在快速降低。

（來源：HAI）

· 成本效益顯著提升：報告首次對推理成本進行了追蹤。結果顯示，達到 GPT-3.5（在 MMLU 上約 64.8% 準確率）性能水平的 AI 模型，其推理成本從 2022 年 11 月的每百萬 token 20 美元，驟降至 2024 年 10 月的僅 0.07 美元（以 Gemini-1.5-Flash-8B 為例），降幅超過 280 倍。硬件層面，成本每年下降約 30%，而能效每年提升約 40%。這使得 AI 的應用更加經濟可行。

圖丨 2022–24 年間在選定基準上的推理成本（來源：HAI）

· AI Agent（智能體）嶄露頭角：2024 年推出的 RE-Bench 為評估 AI 智能體的復雜任務提供了嚴格的基準測試。在短時間范圍內（兩小時），頂級 AI 系統的得分是人類專家的四倍，但當給予更多時間完成任務時，人類表現優于 AI，在 32 小時時間框架內領先 AI 兩倍。盡管如此，AI 智能體在特定任務上已經能與人類專業知識相匹配，例如編寫特定類型的代碼，同時提供更快的結果。

圖丨 RE-Bench 平均標準化得分（來源：HAI）

產業與經濟：投資熱情高漲，企業全面擁抱，AI 驅動生產力提升

AI 的商業化進程在 2024 年顯著加速，投資和應用均創下新高。

· 投資再創新高，美國優勢擴大：全球私有 AI 投資在經歷短暫回調后，于 2024 年強勁反彈至創紀錄的 2523 億美元（企業總投資，包括并購等）。其中，私有投資額達到 1,508 億美元，同比增長 44.5%。美國依然是全球 AI 投資的絕對中心，2024 年吸引了 1,091 億美元的私有投資，是中國的 93 億美元的近 12 倍，是英國的 45 億美元的 24 倍。尤其在生成式 AI 領域，美國投資額（2024 年為 290.4 億美元）比中國和歐盟+英國的總和還要多出 254 億美元，差距進一步拉大。生成式 AI 本身也成為吸金熱點，全球共獲得 339 億美元投資，同比增長 18.7%。

（來源：HAI）

· 企業應用空前普及：企業對 AI 的應用不再停留在實驗階段。麥肯錫的調查顯示，2024 年報告在其組織中至少一個業務功能中使用 AI 的受訪者比例從 2023 年的 55% 躍升至 78%。同樣，報告使用生成式 AI 的比例也從 33% 翻倍增長至 71%。AI 正從企業的邊緣工具轉變為核心驅動力。

（來源：HAI）

· 生產力效應顯現，但價值兌現尚需時日：越來越多的研究證實了 AI 對生產力的積極影響，尤其是在縮小低技能和高技能工人之間的差距方面。然而，報告也指出，盡管企業廣泛采用 AI，但多數公司仍處于價值實現的早期階段。在報告 AI 帶來財務影響的企業中，大部分表示效益仍處于較低水平。例如，49% 在服務運營中使用 AI 的企業報告了成本節約，但多數節約幅度低于 10%。同樣，71% 在市場營銷中使用 AI 的企業報告了收入增長，但最常見的增長幅度也低于 5%。

（來源：HAI）

· 機器人領域中國持續領先：在工業機器人領域，中國繼續保持主導地位，2023 年安裝量達 27.63 萬臺，是日本的 6 倍，美國的 7.3 倍，占全球份額的 51.1%。盡管相比 2022 年增速略有放緩，但其領先優勢依然巨大。同時，協作機器人和面向人類的服務機器人安裝量持續增長，顯示出機器人應用場景的擴展。

圖丨 2023 年各地區安裝的工業機器人數量（來源：HAI）

· 能源格局的新變化：AI 龐大的算力需求正在推動能源來源的重大變化，吸引了對核能的關注。報告特別提到了微軟投資 16 億美元重啟三里島核反應堆為 AI 數據中心供電，以及谷歌、亞馬遜等巨頭紛紛簽署核能協議，這預示著 AI 發展可能對未來能源結構產生深遠影響。

AI 倫理與治理：風險與規范并進，挑戰與機遇共存

隨著 AI 能力的增強和應用的普及，負責任 AI（RAI，Responsible AI）的議題變得空前重要。

· AI 相關事件急劇增加：根據 AI 事件數據庫的記錄，2024 年報告的 AI 相關負面事件達到 233 起，創下歷史新高，比 2023 年增長了 56.4%。這既反映了 AI 應用的擴大，也凸顯了潛在風險的增加，例如深度偽造、偏見歧視、隱私泄露等。

圖丨 2012 年至 2024 年報告的人工智能事件數量（來源：HAI）

· RAI 評估標準仍待統一：報告指出，盡管 RAI 的重要性日益凸顯，但行業內仍然缺乏針對大型語言模型的標準化 RAI 基準。這使得跨模型的安全性和責任評估變得困難。不過，HELM Safety、AIR-Bench、FACTS 等新興基準的出現，為評估模型的真實性、安全性和偏見提供了有希望的工具。

圖丨主要的模型所采用的安全與負責任 AI 基準（來源：HAI）

· 企業認知與行動存在差距：調查顯示，雖然許多企業認識到 RAI 的關鍵風險（如不準確性、合規性、網絡安全），但在采取具體緩解措施方面仍然滯后。例如，僅有 64% 關注不準確性風險的領導者采取了相應行動。

（來源：HAI）

· 全球政策制定者緊迫感加大：與企業界的謹慎不同，全球政策制定者在 2024 年明顯加大了對 AI 治理的關注和合作力度。OECD、歐盟（通過《AI 法案》）、聯合國、非盟等主要國際組織紛紛發布框架和原則，聚焦透明度、可信賴性、公平性等核心 RAI 議題。各國政府也加大了監管力度，例如美國聯邦機構在 2024 年出臺了 59 項 AI 相關法規，是 2023 年的兩倍多。美國各州在規范深度偽造（尤其是在選舉場景應用）方面也取得了顯著進展。

· 數據公共池（Data Commons）正在萎縮：AI 模型的訓練依賴于海量的公開網絡數據。然而，研究發現，由于網站所有者對數據抓取（scraping）的限制日益增多（例如通過 robots.txt 或服務條款），公開可用的訓練數據正在迅速減少。在 C4 Common Crawl 數據集中，受限制的 token 比例從 2023 年的 5-7% 躍升至 2024 年的 20-33%。這可能對未來模型的訓練數據多樣性、模型對齊和可擴展性帶來挑戰，但也可能催生新的數據獲取和學習方法（如合成數據）。

· 模型透明度有所改善，但仍需努力：基礎模型透明度指數顯示，主流模型開發者的平均透明度得分從 2023 年 10 月的 37% 提高到 2024 年 5 月的 58%。這表明行業在披露模型信息方面有所進步，但距離完全透明仍有很長的路要走。

圖丨基礎模型透明度指數（來源：HAI）

· 隱性偏見依然存在：報告強調，即使是那些明確設計了反偏見措施的先進大模型（如 GPT-4、Claude 3.5），仍然表現出隱性偏見。例如，模型可能更容易將負面詞匯與特定種族聯系起來，或在職業聯想上表現出性別刻板印象。消除 AI 偏見仍然是一項艱巨而持續的任務。

AI 與科學、醫學：加速發現，改變范式

AI 正在成為推動科學發現和變革醫療實踐的關鍵力量。

· 科學獎項的認可：2024 年，AI 在科學領域的貢獻獲得了最高榮譽。兩項諾貝爾獎分別表彰了深度學習的基礎工作（物理學獎，John Hopfield 和 Geoffrey Hinton）及其在蛋白質折疊預測中的應用（化學獎，AlphaFold 團隊的 Demis Hassabis 和 John Jumper）。圖靈獎則授予了強化學習領域的奠基人。這標志著 AI 已成為科學研究不可或缺的一部分。

· 蛋白質研究的飛躍：AlphaFold 3 和 ESM3 等新一代蛋白質序列模型在 2024 年發布，它們規模更大、性能更強，極大地提高了蛋白質結構和功能預測的準確性。這些模型不僅推動了基礎生物學研究，也為藥物設計和合成生物學開辟了新途徑。公開蛋白質數據庫（如 UniProt、PDB、AlphaFold DB）的規模也在持續快速增長。

圖丨 2019–2025 年公共蛋白科學數據庫的增長（來源：HAI）

· 臨床知識與應用：大模型在醫學知識問答基準（如 MedQA）上的表現持續提升，OpenAI 的 o1 模型取得了 96.0% 的新 SOTA 分數。研究表明，在某些復雜的臨床診斷任務中，GPT-4 的表現甚至優于醫生（無論醫生是否使用 AI 輔助）。AI 在癌癥檢測、高風險患者識別等方面也顯示出超越人類專家的潛力。FDA 批準的 AI 賦能醫療器械數量呈爆炸式增長，從 2015 年的僅 6 個激增至 2023 年的 223 個。

圖丨大模型在臨床診斷中的表現（來源：HAI）

· 合成數據的潛力：研究顯示，AI 生成的合成數據在醫學領域展現出巨大潛力，可用于識別健康的社會決定因素、增強隱私保護下的臨床風險預測，以及加速新藥化合物的發現。

· 醫學倫理關注度提升：隨著 AI 在醫療領域的廣泛應用，相關的倫理討論也日益增多。醫學 AI 倫理相關的出版物數量自 2020 年以來翻了兩番，顯示出學術界對這一領域的高度關注。

教育與公眾認知：機遇與挑戰并存，認知差異顯著

AI 的發展對教育體系和公眾認知提出了新的要求和挑戰。

· CS 與 AI 教育普及，但鴻溝猶存：全球范圍內，提供或計劃提供 K-12 計算機科學（CS，Computer Science）教育的國家比例已從 2019 年的約三分之一翻倍至三分之二，非洲和拉丁美洲進步最為顯著。然而，基礎設施（如電力缺乏）限制了非洲學生的實際學習機會。在美國，盡管高中 CS 課程的覆蓋率和入學率有所提高，但不同州、族裔、收入水平和性別的學生之間仍然存在顯著差距。雖然 81% 的美國 CS 教師認為應將 AI 納入基礎 CS 教育，但只有不到一半的人感覺自己有能力教授 AI。

（來源：HAI）

· 人才培養出現新動向：美國 AI 相關碩士畢業生的數量在 2022 年至 2023 年間幾乎翻了一番，這可能預示著未來幾年學士和博士層面也將出現類似的增長。美國在信息、通信和技術領域的畢業生培養方面繼續保持全球領先地位。

（來源：HAI）

· 全球公眾情緒：謹慎樂觀與深刻分歧：Ipsos 的全球調查顯示，公眾對 AI 產品和服務的態度趨于“謹慎樂觀”。認為 AI 利大于弊的全球受訪者比例從 2022 年的 52% 上升到 2024 年的 55%。尤其是在此前較為悲觀的國家（如德國、法國、加拿大、英國、美國），樂觀情緒有了顯著增長（+4% 到+10% 不等）。然而，地區差異依然巨大。中國（83%）、印尼（80%）、泰國（77%）等亞洲國家民眾普遍更為樂觀，而加拿大（40%）、美國（39%）、荷蘭（36%）等國民眾則相對更為審慎。

圖丨不同國家民眾對于 AI 的態度（來源：HAI）

· 信任度下降，倫理擔憂加劇：盡管總體樂觀情緒有所上升，但公眾對 AI 公司倫理行為的信任度正在下降。全球范圍內，相信 AI 公司會保護個人數據的受訪者比例從 2023 年的 50% 下降到 47%。認為 AI 系統公正無偏見的比例也在降低。對自動駕駛汽車的不信任感依然很高（美國 61% 的人表示害怕）。

· 對 AI 影響的認知：全球 60% 的受訪者認為 AI 將在未來五年改變他們的工作方式，但只有 36% 的人認為 AI 會取代他們的工作。人們普遍認為 AI 能節省時間（55%）、提供更好的娛樂（51%），但在經濟影響（36% 認為能改善國家經濟）和健康改善（38%）方面則信心不足。

圖丨全球對人工智能對當前工作的影響的看法（來源：HAI）

完整報告參見：https://hai.stanford.edu/ai-index/2025-ai-index-report

參考資料：

1.https://hai.stanford.edu/ai-index/2025-ai-index-report

2.https://www.wired.com/story/stanford-study-global-artificial-intelligence-index

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.