美國斯坦福大學“以人為本人工智能研究院”(HAI,Stanford Institute for Human-Centered AI)于近日發布了其備受全球矚目的第八版《人工智能指數報告》(AI Index Report 2025)。
自 2017 年首次發布以來,該報告一直致力于為政策制定者、研究人員、企業高管和公眾提供準確、嚴謹、全球化的 AI 數據和洞察。正如報告聯合主席 Yolanda Gil 和 Raymond Perrault 在序言中所言,2024 年是人工智能發展史上具有里程碑意義的一年。AI 已經以前所未有的速度融入社會、經濟和全球治理的方方面面。從先進模型的性能飛躍到日常生活的深度嵌入,從創紀錄的產業投資到日益收緊的政府監管,AI 正從邊緣走向中心,成為驅動商業價值、重塑科研范式乃至影響人類未來的核心力量。
圖丨相關報告(來源:HAI)
今年的這份報告長達四百多頁,是迄今為止最為全面的一版,新增了對 AI 硬件演進、推理成本估算、AI 出版和專利趨勢的深入分析,并擴大了關于企業采用負責任 AI 實踐以及 AI 在科學和醫學領域角色的新鮮數據。報告強調,在一個 AI 無處不在、從頂尖實驗室到普通家庭的餐桌都在討論的時代,以數據驅動、獨立客觀的視角來理解 AI 的現狀、演變路徑和未來趨勢,其重要性從未如此凸顯。
報告共八個章節,其核心內容可以總結為以下五點:
技術前沿:性能狂飆突進,中國緊隨其后,競爭格局日趨擁擠
報告的核心發現之一是 AI 在嚴苛基準測試上的持續突破,其速度甚至超出了許多人的預期。
· 基準性能持續提升:2023 年研究人員引入了 MMMU、GPQA、SWE-bench 等一系列旨在難倒頂尖 AI 的新基準。然而僅一年后,AI 模型在這些基準上的表現就出現了驚人的飛躍,得分分別提升了 18.8、48.9 和 67.3 個百分點。尤其在 SWE-bench(軟件工程基準)上,AI 解決編碼問題的能力從 2023 年的僅 4.4% 飆升至 2024 年的 71.7%。同時,高質量視頻生成等領域也取得了重大進展。
圖丨選定的 AI 指數技術性能基準與人類性能對比(來源:HAI)
· 中美差距顯著縮小:報告指出,美國仍然是頂尖 AI 模型的“生產大戶”,2024 年發布了 40 個值得關注的模型,遠超中國的 15 個和歐洲的 3 個。然而,數量上的領先并不意味著性能上的絕對優勢。在 MMLU、HumanEval 等關鍵基準上,中美頂尖模型之間的性能差距已從 2023 年的兩位數迅速縮小至 2024 年的近乎持平,部分基準差距僅為個位數甚至零點幾。這表明中國 AI 模型的“質量”正在快速追趕。
圖丨美國與中國模型在特定基準上的表現(來源:HAI)
· 技術前沿趨于收斂:競爭的加劇也體現在技術前沿的“擁擠度”上。報告引用了 LMSYS Chatbot Arena(一個廣泛使用的大模型競技場)的數據,顯示排名第一和第十的模型之間的 Elo 分數差距從一年前的 11.9% 縮小到了 5.4%。更值得注意的是,排名前兩位的模型差距從 4.9% 驟降至僅 0.7%。這意味著頂尖模型的性能水平日益接近,高質量模型不再是少數巨頭的專利,開發者生態系統正變得越來越有競爭力。正如 HAI 研究主管 Vanessa Parli 在接受媒體采訪時所說:“這創造了一個激動人心的局面。好的地方在于,這些模型不再僅僅是由硅谷的五個人開發的。”
圖丨在 LMSYS ChatBot 競技場的不同頂級模型表現(來源:HAI)
· 小型模型異軍突起,開源模型奮起直追:另一個顯著趨勢是“小模型”展現出的強大能力。2022 年,在 MMLU 上得分超過 60% 的最小模型是擁有 5400 億參數的 PaLM。而到 2024 年,微軟僅有 38 億參數的 Phi-3-mini 就達到了同樣門檻,參數量縮減了 142 倍。這得益于算法效率的提升。同時,開源/開放權重模型與閉源模型之間的性能差距也幾乎消失。在 Chatbot Arena 上,2024 年初領先的閉源模型比頂尖開放權重模型高出 8.04%,到 2025 年初,這一差距已縮小至 1.70%。這標志著先進 AI 技術的獲取門檻正在快速降低。
(來源:HAI)
· 成本效益顯著提升:報告首次對推理成本進行了追蹤。結果顯示,達到 GPT-3.5(在 MMLU 上約 64.8% 準確率)性能水平的 AI 模型,其推理成本從 2022 年 11 月的每百萬 token 20 美元,驟降至 2024 年 10 月的僅 0.07 美元(以 Gemini-1.5-Flash-8B 為例),降幅超過 280 倍。硬件層面,成本每年下降約 30%,而能效每年提升約 40%。這使得 AI 的應用更加經濟可行。
圖丨 2022–24 年間在選定基準上的推理成本(來源:HAI)
· AI Agent(智能體)嶄露頭角:2024 年推出的 RE-Bench 為評估 AI 智能體的復雜任務提供了嚴格的基準測試。在短時間范圍內(兩小時),頂級 AI 系統的得分是人類專家的四倍,但當給予更多時間完成任務時,人類表現優于 AI,在 32 小時時間框架內領先 AI 兩倍。盡管如此,AI 智能體在特定任務上已經能與人類專業知識相匹配,例如編寫特定類型的代碼,同時提供更快的結果。
圖丨 RE-Bench 平均標準化得分(來源:HAI)
產業與經濟:投資熱情高漲,企業全面擁抱,AI 驅動生產力提升
AI 的商業化進程在 2024 年顯著加速,投資和應用均創下新高。
· 投資再創新高,美國優勢擴大:全球私有 AI 投資在經歷短暫回調后,于 2024 年強勁反彈至創紀錄的 2523 億美元(企業總投資,包括并購等)。其中,私有投資額達到 1,508 億美元,同比增長 44.5%。美國依然是全球 AI 投資的絕對中心,2024 年吸引了 1,091 億美元的私有投資,是中國的 93 億美元的近 12 倍,是英國的 45 億美元的 24 倍。尤其在生成式 AI 領域,美國投資額(2024 年為 290.4 億美元)比中國和歐盟+英國的總和還要多出 254 億美元,差距進一步拉大。生成式 AI 本身也成為吸金熱點,全球共獲得 339 億美元投資,同比增長 18.7%。
(來源:HAI)
· 企業應用空前普及:企業對 AI 的應用不再停留在實驗階段。麥肯錫的調查顯示,2024 年報告在其組織中至少一個業務功能中使用 AI 的受訪者比例從 2023 年的 55% 躍升至 78%。同樣,報告使用生成式 AI 的比例也從 33% 翻倍增長至 71%。AI 正從企業的邊緣工具轉變為核心驅動力。
(來源:HAI)
· 生產力效應顯現,但價值兌現尚需時日:越來越多的研究證實了 AI 對生產力的積極影響,尤其是在縮小低技能和高技能工人之間的差距方面。然而,報告也指出,盡管企業廣泛采用 AI,但多數公司仍處于價值實現的早期階段。在報告 AI 帶來財務影響的企業中,大部分表示效益仍處于較低水平。例如,49% 在服務運營中使用 AI 的企業報告了成本節約,但多數節約幅度低于 10%。同樣,71% 在市場營銷中使用 AI 的企業報告了收入增長,但最常見的增長幅度也低于 5%。
(來源:HAI)
· 機器人領域中國持續領先:在工業機器人領域,中國繼續保持主導地位,2023 年安裝量達 27.63 萬臺,是日本的 6 倍,美國的 7.3 倍,占全球份額的 51.1%。盡管相比 2022 年增速略有放緩,但其領先優勢依然巨大。同時,協作機器人和面向人類的服務機器人安裝量持續增長,顯示出機器人應用場景的擴展。
圖丨 2023 年各地區安裝的工業機器人數量(來源:HAI)
· 能源格局的新變化:AI 龐大的算力需求正在推動能源來源的重大變化,吸引了對核能的關注。報告特別提到了微軟投資 16 億美元重啟三里島核反應堆為 AI 數據中心供電,以及谷歌、亞馬遜等巨頭紛紛簽署核能協議,這預示著 AI 發展可能對未來能源結構產生深遠影響。
AI 倫理與治理:風險與規范并進,挑戰與機遇共存
隨著 AI 能力的增強和應用的普及,負責任 AI(RAI,Responsible AI)的議題變得空前重要。
· AI 相關事件急劇增加:根據 AI 事件數據庫的記錄,2024 年報告的 AI 相關負面事件達到 233 起,創下歷史新高,比 2023 年增長了 56.4%。這既反映了 AI 應用的擴大,也凸顯了潛在風險的增加,例如深度偽造、偏見歧視、隱私泄露等。
圖丨 2012 年至 2024 年報告的人工智能事件數量(來源:HAI)
· RAI 評估標準仍待統一:報告指出,盡管 RAI 的重要性日益凸顯,但行業內仍然缺乏針對大型語言模型的標準化 RAI 基準。這使得跨模型的安全性和責任評估變得困難。不過,HELM Safety、AIR-Bench、FACTS 等新興基準的出現,為評估模型的真實性、安全性和偏見提供了有希望的工具。
圖丨主要的模型所采用的安全與負責任 AI 基準(來源:HAI)
· 企業認知與行動存在差距:調查顯示,雖然許多企業認識到 RAI 的關鍵風險(如不準確性、合規性、網絡安全),但在采取具體緩解措施方面仍然滯后。例如,僅有 64% 關注不準確性風險的領導者采取了相應行動。
(來源:HAI)
· 全球政策制定者緊迫感加大:與企業界的謹慎不同,全球政策制定者在 2024 年明顯加大了對 AI 治理的關注和合作力度。OECD、歐盟(通過《AI 法案》)、聯合國、非盟等主要國際組織紛紛發布框架和原則,聚焦透明度、可信賴性、公平性等核心 RAI 議題。各國政府也加大了監管力度,例如美國聯邦機構在 2024 年出臺了 59 項 AI 相關法規,是 2023 年的兩倍多。美國各州在規范深度偽造(尤其是在選舉場景應用)方面也取得了顯著進展。
· 數據公共池(Data Commons)正在萎縮:AI 模型的訓練依賴于海量的公開網絡數據。然而,研究發現,由于網站所有者對數據抓取(scraping)的限制日益增多(例如通過 robots.txt 或服務條款),公開可用的訓練數據正在迅速減少。在 C4 Common Crawl 數據集中,受限制的 token 比例從 2023 年的 5-7% 躍升至 2024 年的 20-33%。這可能對未來模型的訓練數據多樣性、模型對齊和可擴展性帶來挑戰,但也可能催生新的數據獲取和學習方法(如合成數據)。
· 模型透明度有所改善,但仍需努力:基礎模型透明度指數顯示,主流模型開發者的平均透明度得分從 2023 年 10 月的 37% 提高到 2024 年 5 月的 58%。這表明行業在披露模型信息方面有所進步,但距離完全透明仍有很長的路要走。
圖丨基礎模型透明度指數(來源:HAI)
· 隱性偏見依然存在:報告強調,即使是那些明確設計了反偏見措施的先進大模型(如 GPT-4、Claude 3.5),仍然表現出隱性偏見。例如,模型可能更容易將負面詞匯與特定種族聯系起來,或在職業聯想上表現出性別刻板印象。消除 AI 偏見仍然是一項艱巨而持續的任務。
AI 與科學、醫學:加速發現,改變范式
AI 正在成為推動科學發現和變革醫療實踐的關鍵力量。
· 科學獎項的認可:2024 年,AI 在科學領域的貢獻獲得了最高榮譽。兩項諾貝爾獎分別表彰了深度學習的基礎工作(物理學獎,John Hopfield 和 Geoffrey Hinton)及其在蛋白質折疊預測中的應用(化學獎,AlphaFold 團隊的 Demis Hassabis 和 John Jumper)。圖靈獎則授予了強化學習領域的奠基人。這標志著 AI 已成為科學研究不可或缺的一部分。
· 蛋白質研究的飛躍:AlphaFold 3 和 ESM3 等新一代蛋白質序列模型在 2024 年發布,它們規模更大、性能更強,極大地提高了蛋白質結構和功能預測的準確性。這些模型不僅推動了基礎生物學研究,也為藥物設計和合成生物學開辟了新途徑。公開蛋白質數據庫(如 UniProt、PDB、AlphaFold DB)的規模也在持續快速增長。
圖丨 2019–2025 年公共蛋白科學數據庫的增長(來源:HAI)
· 臨床知識與應用:大模型在醫學知識問答基準(如 MedQA)上的表現持續提升,OpenAI 的 o1 模型取得了 96.0% 的新 SOTA 分數。研究表明,在某些復雜的臨床診斷任務中,GPT-4 的表現甚至優于醫生(無論醫生是否使用 AI 輔助)。AI 在癌癥檢測、高風險患者識別等方面也顯示出超越人類專家的潛力。FDA 批準的 AI 賦能醫療器械數量呈爆炸式增長,從 2015 年的僅 6 個激增至 2023 年的 223 個。
圖丨大模型在臨床診斷中的表現(來源:HAI)
· 合成數據的潛力:研究顯示,AI 生成的合成數據在醫學領域展現出巨大潛力,可用于識別健康的社會決定因素、增強隱私保護下的臨床風險預測,以及加速新藥化合物的發現。
· 醫學倫理關注度提升: 隨著 AI 在醫療領域的廣泛應用,相關的倫理討論也日益增多。醫學 AI 倫理相關的出版物數量自 2020 年以來翻了兩番,顯示出學術界對這一領域的高度關注。
教育與公眾認知:機遇與挑戰并存,認知差異顯著
AI 的發展對教育體系和公眾認知提出了新的要求和挑戰。
· CS 與 AI 教育普及,但鴻溝猶存:全球范圍內,提供或計劃提供 K-12 計算機科學(CS,Computer Science)教育的國家比例已從 2019 年的約三分之一翻倍至三分之二,非洲和拉丁美洲進步最為顯著。然而,基礎設施(如電力缺乏)限制了非洲學生的實際學習機會。在美國,盡管高中 CS 課程的覆蓋率和入學率有所提高,但不同州、族裔、收入水平和性別的學生之間仍然存在顯著差距。雖然 81% 的美國 CS 教師認為應將 AI 納入基礎 CS 教育,但只有不到一半的人感覺自己有能力教授 AI。
(來源:HAI)
· 人才培養出現新動向:美國 AI 相關碩士畢業生的數量在 2022 年至 2023 年間幾乎翻了一番,這可能預示著未來幾年學士和博士層面也將出現類似的增長。美國在信息、通信和技術領域的畢業生培養方面繼續保持全球領先地位。
(來源:HAI)
· 全球公眾情緒:謹慎樂觀與深刻分歧:Ipsos 的全球調查顯示,公眾對 AI 產品和服務的態度趨于“謹慎樂觀”。認為 AI 利大于弊的全球受訪者比例從 2022 年的 52% 上升到 2024 年的 55%。尤其是在此前較為悲觀的國家(如德國、法國、加拿大、英國、美國),樂觀情緒有了顯著增長(+4% 到+10% 不等)。然而,地區差異依然巨大。中國(83%)、印尼(80%)、泰國(77%)等亞洲國家民眾普遍更為樂觀,而加拿大(40%)、美國(39%)、荷蘭(36%)等國民眾則相對更為審慎。
圖丨不同國家民眾對于 AI 的態度(來源:HAI)
· 信任度下降,倫理擔憂加劇:盡管總體樂觀情緒有所上升,但公眾對 AI 公司倫理行為的信任度正在下降。全球范圍內,相信 AI 公司會保護個人數據的受訪者比例從 2023 年的 50% 下降到 47%。認為 AI 系統公正無偏見的比例也在降低。對自動駕駛汽車的不信任感依然很高(美國 61% 的人表示害怕)。
· 對 AI 影響的認知:全球 60% 的受訪者認為 AI 將在未來五年改變他們的工作方式,但只有 36% 的人認為 AI 會取代他們的工作。人們普遍認為 AI 能節省時間(55%)、提供更好的娛樂(51%),但在經濟影響(36% 認為能改善國家經濟)和健康改善(38%)方面則信心不足。
圖丨全球對人工智能對當前工作的影響的看法(來源:HAI)
完整報告參見:https://hai.stanford.edu/ai-index/2025-ai-index-report
參考資料:
1.https://hai.stanford.edu/ai-index/2025-ai-index-report
2.https://www.wired.com/story/stanford-study-global-artificial-intelligence-index
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.