美國斯坦福大學(xué)“以人為本人工智能研究院”(HAI,Stanford Institute for Human-Centered AI)于近日發(fā)布了其備受全球矚目的第八版《人工智能指數(shù)報(bào)告》(AI Index Report 2025)。
自 2017 年首次發(fā)布以來,該報(bào)告一直致力于為政策制定者、研究人員、企業(yè)高管和公眾提供準(zhǔn)確、嚴(yán)謹(jǐn)、全球化的 AI 數(shù)據(jù)和洞察。正如報(bào)告聯(lián)合主席 Yolanda Gil 和 Raymond Perrault 在序言中所言,2024 年是人工智能發(fā)展史上具有里程碑意義的一年。AI 已經(jīng)以前所未有的速度融入社會(huì)、經(jīng)濟(jì)和全球治理的方方面面。從先進(jìn)模型的性能飛躍到日常生活的深度嵌入,從創(chuàng)紀(jì)錄的產(chǎn)業(yè)投資到日益收緊的政府監(jiān)管,AI 正從邊緣走向中心,成為驅(qū)動(dòng)商業(yè)價(jià)值、重塑科研范式乃至影響人類未來的核心力量。
圖丨相關(guān)報(bào)告(來源:HAI)
今年的這份報(bào)告長(zhǎng)達(dá)四百多頁,是迄今為止最為全面的一版,新增了對(duì) AI 硬件演進(jìn)、推理成本估算、AI 出版和專利趨勢(shì)的深入分析,并擴(kuò)大了關(guān)于企業(yè)采用負(fù)責(zé)任 AI 實(shí)踐以及 AI 在科學(xué)和醫(yī)學(xué)領(lǐng)域角色的新鮮數(shù)據(jù)。報(bào)告強(qiáng)調(diào),在一個(gè) AI 無處不在、從頂尖實(shí)驗(yàn)室到普通家庭的餐桌都在討論的時(shí)代,以數(shù)據(jù)驅(qū)動(dòng)、獨(dú)立客觀的視角來理解 AI 的現(xiàn)狀、演變路徑和未來趨勢(shì),其重要性從未如此凸顯。
報(bào)告共八個(gè)章節(jié),其核心內(nèi)容可以總結(jié)為以下五點(diǎn):
技術(shù)前沿:性能狂飆突進(jìn),中國緊隨其后,競(jìng)爭(zhēng)格局日趨擁擠
報(bào)告的核心發(fā)現(xiàn)之一是 AI 在嚴(yán)苛基準(zhǔn)測(cè)試上的持續(xù)突破,其速度甚至超出了許多人的預(yù)期。
· 基準(zhǔn)性能持續(xù)提升:2023 年研究人員引入了 MMMU、GPQA、SWE-bench 等一系列旨在難倒頂尖 AI 的新基準(zhǔn)。然而僅一年后,AI 模型在這些基準(zhǔn)上的表現(xiàn)就出現(xiàn)了驚人的飛躍,得分分別提升了 18.8、48.9 和 67.3 個(gè)百分點(diǎn)。尤其在 SWE-bench(軟件工程基準(zhǔn))上,AI 解決編碼問題的能力從 2023 年的僅 4.4% 飆升至 2024 年的 71.7%。同時(shí),高質(zhì)量視頻生成等領(lǐng)域也取得了重大進(jìn)展。
圖丨選定的 AI 指數(shù)技術(shù)性能基準(zhǔn)與人類性能對(duì)比(來源:HAI)
· 中美差距顯著縮小:報(bào)告指出,美國仍然是頂尖 AI 模型的“生產(chǎn)大戶”,2024 年發(fā)布了 40 個(gè)值得關(guān)注的模型,遠(yuǎn)超中國的 15 個(gè)和歐洲的 3 個(gè)。然而,數(shù)量上的領(lǐng)先并不意味著性能上的絕對(duì)優(yōu)勢(shì)。在 MMLU、HumanEval 等關(guān)鍵基準(zhǔn)上,中美頂尖模型之間的性能差距已從 2023 年的兩位數(shù)迅速縮小至 2024 年的近乎持平,部分基準(zhǔn)差距僅為個(gè)位數(shù)甚至零點(diǎn)幾。這表明中國 AI 模型的“質(zhì)量”正在快速追趕。
圖丨美國與中國模型在特定基準(zhǔn)上的表現(xiàn)(來源:HAI)
· 技術(shù)前沿趨于收斂:競(jìng)爭(zhēng)的加劇也體現(xiàn)在技術(shù)前沿的“擁擠度”上。報(bào)告引用了 LMSYS Chatbot Arena(一個(gè)廣泛使用的大模型競(jìng)技場(chǎng))的數(shù)據(jù),顯示排名第一和第十的模型之間的 Elo 分?jǐn)?shù)差距從一年前的 11.9% 縮小到了 5.4%。更值得注意的是,排名前兩位的模型差距從 4.9% 驟降至僅 0.7%。這意味著頂尖模型的性能水平日益接近,高質(zhì)量模型不再是少數(shù)巨頭的專利,開發(fā)者生態(tài)系統(tǒng)正變得越來越有競(jìng)爭(zhēng)力。正如 HAI 研究主管 Vanessa Parli 在接受媒體采訪時(shí)所說:“這創(chuàng)造了一個(gè)激動(dòng)人心的局面。好的地方在于,這些模型不再僅僅是由硅谷的五個(gè)人開發(fā)的。”
圖丨在 LMSYS ChatBot 競(jìng)技場(chǎng)的不同頂級(jí)模型表現(xiàn)(來源:HAI)
· 小型模型異軍突起,開源模型奮起直追:另一個(gè)顯著趨勢(shì)是“小模型”展現(xiàn)出的強(qiáng)大能力。2022 年,在 MMLU 上得分超過 60% 的最小模型是擁有 5400 億參數(shù)的 PaLM。而到 2024 年,微軟僅有 38 億參數(shù)的 Phi-3-mini 就達(dá)到了同樣門檻,參數(shù)量縮減了 142 倍。這得益于算法效率的提升。同時(shí),開源/開放權(quán)重模型與閉源模型之間的性能差距也幾乎消失。在 Chatbot Arena 上,2024 年初領(lǐng)先的閉源模型比頂尖開放權(quán)重模型高出 8.04%,到 2025 年初,這一差距已縮小至 1.70%。這標(biāo)志著先進(jìn) AI 技術(shù)的獲取門檻正在快速降低。
(來源:HAI)
· 成本效益顯著提升:報(bào)告首次對(duì)推理成本進(jìn)行了追蹤。結(jié)果顯示,達(dá)到 GPT-3.5(在 MMLU 上約 64.8% 準(zhǔn)確率)性能水平的 AI 模型,其推理成本從 2022 年 11 月的每百萬 token 20 美元,驟降至 2024 年 10 月的僅 0.07 美元(以 Gemini-1.5-Flash-8B 為例),降幅超過 280 倍。硬件層面,成本每年下降約 30%,而能效每年提升約 40%。這使得 AI 的應(yīng)用更加經(jīng)濟(jì)可行。
圖丨 2022–24 年間在選定基準(zhǔn)上的推理成本(來源:HAI)
· AI Agent(智能體)嶄露頭角:2024 年推出的 RE-Bench 為評(píng)估 AI 智能體的復(fù)雜任務(wù)提供了嚴(yán)格的基準(zhǔn)測(cè)試。在短時(shí)間范圍內(nèi)(兩小時(shí)),頂級(jí) AI 系統(tǒng)的得分是人類專家的四倍,但當(dāng)給予更多時(shí)間完成任務(wù)時(shí),人類表現(xiàn)優(yōu)于 AI,在 32 小時(shí)時(shí)間框架內(nèi)領(lǐng)先 AI 兩倍。盡管如此,AI 智能體在特定任務(wù)上已經(jīng)能與人類專業(yè)知識(shí)相匹配,例如編寫特定類型的代碼,同時(shí)提供更快的結(jié)果。
圖丨 RE-Bench 平均標(biāo)準(zhǔn)化得分(來源:HAI)
產(chǎn)業(yè)與經(jīng)濟(jì):投資熱情高漲,企業(yè)全面擁抱,AI 驅(qū)動(dòng)生產(chǎn)力提升
AI 的商業(yè)化進(jìn)程在 2024 年顯著加速,投資和應(yīng)用均創(chuàng)下新高。
· 投資再創(chuàng)新高,美國優(yōu)勢(shì)擴(kuò)大:全球私有 AI 投資在經(jīng)歷短暫回調(diào)后,于 2024 年強(qiáng)勁反彈至創(chuàng)紀(jì)錄的 2523 億美元(企業(yè)總投資,包括并購等)。其中,私有投資額達(dá)到 1,508 億美元,同比增長(zhǎng) 44.5%。美國依然是全球 AI 投資的絕對(duì)中心,2024 年吸引了 1,091 億美元的私有投資,是中國的 93 億美元的近 12 倍,是英國的 45 億美元的 24 倍。尤其在生成式 AI 領(lǐng)域,美國投資額(2024 年為 290.4 億美元)比中國和歐盟+英國的總和還要多出 254 億美元,差距進(jìn)一步拉大。生成式 AI 本身也成為吸金熱點(diǎn),全球共獲得 339 億美元投資,同比增長(zhǎng) 18.7%。
(來源:HAI)
· 企業(yè)應(yīng)用空前普及:企業(yè)對(duì) AI 的應(yīng)用不再停留在實(shí)驗(yàn)階段。麥肯錫的調(diào)查顯示,2024 年報(bào)告在其組織中至少一個(gè)業(yè)務(wù)功能中使用 AI 的受訪者比例從 2023 年的 55% 躍升至 78%。同樣,報(bào)告使用生成式 AI 的比例也從 33% 翻倍增長(zhǎng)至 71%。AI 正從企業(yè)的邊緣工具轉(zhuǎn)變?yōu)楹诵尿?qū)動(dòng)力。
(來源:HAI)
· 生產(chǎn)力效應(yīng)顯現(xiàn),但價(jià)值兌現(xiàn)尚需時(shí)日:越來越多的研究證實(shí)了 AI 對(duì)生產(chǎn)力的積極影響,尤其是在縮小低技能和高技能工人之間的差距方面。然而,報(bào)告也指出,盡管企業(yè)廣泛采用 AI,但多數(shù)公司仍處于價(jià)值實(shí)現(xiàn)的早期階段。在報(bào)告 AI 帶來財(cái)務(wù)影響的企業(yè)中,大部分表示效益仍處于較低水平。例如,49% 在服務(wù)運(yùn)營中使用 AI 的企業(yè)報(bào)告了成本節(jié)約,但多數(shù)節(jié)約幅度低于 10%。同樣,71% 在市場(chǎng)營銷中使用 AI 的企業(yè)報(bào)告了收入增長(zhǎng),但最常見的增長(zhǎng)幅度也低于 5%。
(來源:HAI)
· 機(jī)器人領(lǐng)域中國持續(xù)領(lǐng)先:在工業(yè)機(jī)器人領(lǐng)域,中國繼續(xù)保持主導(dǎo)地位,2023 年安裝量達(dá) 27.63 萬臺(tái),是日本的 6 倍,美國的 7.3 倍,占全球份額的 51.1%。盡管相比 2022 年增速略有放緩,但其領(lǐng)先優(yōu)勢(shì)依然巨大。同時(shí),協(xié)作機(jī)器人和面向人類的服務(wù)機(jī)器人安裝量持續(xù)增長(zhǎng),顯示出機(jī)器人應(yīng)用場(chǎng)景的擴(kuò)展。
圖丨 2023 年各地區(qū)安裝的工業(yè)機(jī)器人數(shù)量(來源:HAI)
· 能源格局的新變化:AI 龐大的算力需求正在推動(dòng)能源來源的重大變化,吸引了對(duì)核能的關(guān)注。報(bào)告特別提到了微軟投資 16 億美元重啟三里島核反應(yīng)堆為 AI 數(shù)據(jù)中心供電,以及谷歌、亞馬遜等巨頭紛紛簽署核能協(xié)議,這預(yù)示著 AI 發(fā)展可能對(duì)未來能源結(jié)構(gòu)產(chǎn)生深遠(yuǎn)影響。
AI 倫理與治理:風(fēng)險(xiǎn)與規(guī)范并進(jìn),挑戰(zhàn)與機(jī)遇共存
隨著 AI 能力的增強(qiáng)和應(yīng)用的普及,負(fù)責(zé)任 AI(RAI,Responsible AI)的議題變得空前重要。
· AI 相關(guān)事件急劇增加:根據(jù) AI 事件數(shù)據(jù)庫的記錄,2024 年報(bào)告的 AI 相關(guān)負(fù)面事件達(dá)到 233 起,創(chuàng)下歷史新高,比 2023 年增長(zhǎng)了 56.4%。這既反映了 AI 應(yīng)用的擴(kuò)大,也凸顯了潛在風(fēng)險(xiǎn)的增加,例如深度偽造、偏見歧視、隱私泄露等。
圖丨 2012 年至 2024 年報(bào)告的人工智能事件數(shù)量(來源:HAI)
· RAI 評(píng)估標(biāo)準(zhǔn)仍待統(tǒng)一:報(bào)告指出,盡管 RAI 的重要性日益凸顯,但行業(yè)內(nèi)仍然缺乏針對(duì)大型語言模型的標(biāo)準(zhǔn)化 RAI 基準(zhǔn)。這使得跨模型的安全性和責(zé)任評(píng)估變得困難。不過,HELM Safety、AIR-Bench、FACTS 等新興基準(zhǔn)的出現(xiàn),為評(píng)估模型的真實(shí)性、安全性和偏見提供了有希望的工具。
圖丨主要的模型所采用的安全與負(fù)責(zé)任 AI 基準(zhǔn)(來源:HAI)
· 企業(yè)認(rèn)知與行動(dòng)存在差距:調(diào)查顯示,雖然許多企業(yè)認(rèn)識(shí)到 RAI 的關(guān)鍵風(fēng)險(xiǎn)(如不準(zhǔn)確性、合規(guī)性、網(wǎng)絡(luò)安全),但在采取具體緩解措施方面仍然滯后。例如,僅有 64% 關(guān)注不準(zhǔn)確性風(fēng)險(xiǎn)的領(lǐng)導(dǎo)者采取了相應(yīng)行動(dòng)。
(來源:HAI)
· 全球政策制定者緊迫感加大:與企業(yè)界的謹(jǐn)慎不同,全球政策制定者在 2024 年明顯加大了對(duì) AI 治理的關(guān)注和合作力度。OECD、歐盟(通過《AI 法案》)、聯(lián)合國、非盟等主要國際組織紛紛發(fā)布框架和原則,聚焦透明度、可信賴性、公平性等核心 RAI 議題。各國政府也加大了監(jiān)管力度,例如美國聯(lián)邦機(jī)構(gòu)在 2024 年出臺(tái)了 59 項(xiàng) AI 相關(guān)法規(guī),是 2023 年的兩倍多。美國各州在規(guī)范深度偽造(尤其是在選舉場(chǎng)景應(yīng)用)方面也取得了顯著進(jìn)展。
· 數(shù)據(jù)公共池(Data Commons)正在萎縮:AI 模型的訓(xùn)練依賴于海量的公開網(wǎng)絡(luò)數(shù)據(jù)。然而,研究發(fā)現(xiàn),由于網(wǎng)站所有者對(duì)數(shù)據(jù)抓取(scraping)的限制日益增多(例如通過 robots.txt 或服務(wù)條款),公開可用的訓(xùn)練數(shù)據(jù)正在迅速減少。在 C4 Common Crawl 數(shù)據(jù)集中,受限制的 token 比例從 2023 年的 5-7% 躍升至 2024 年的 20-33%。這可能對(duì)未來模型的訓(xùn)練數(shù)據(jù)多樣性、模型對(duì)齊和可擴(kuò)展性帶來挑戰(zhàn),但也可能催生新的數(shù)據(jù)獲取和學(xué)習(xí)方法(如合成數(shù)據(jù))。
· 模型透明度有所改善,但仍需努力:基礎(chǔ)模型透明度指數(shù)顯示,主流模型開發(fā)者的平均透明度得分從 2023 年 10 月的 37% 提高到 2024 年 5 月的 58%。這表明行業(yè)在披露模型信息方面有所進(jìn)步,但距離完全透明仍有很長(zhǎng)的路要走。
圖丨基礎(chǔ)模型透明度指數(shù)(來源:HAI)
· 隱性偏見依然存在:報(bào)告強(qiáng)調(diào),即使是那些明確設(shè)計(jì)了反偏見措施的先進(jìn)大模型(如 GPT-4、Claude 3.5),仍然表現(xiàn)出隱性偏見。例如,模型可能更容易將負(fù)面詞匯與特定種族聯(lián)系起來,或在職業(yè)聯(lián)想上表現(xiàn)出性別刻板印象。消除 AI 偏見仍然是一項(xiàng)艱巨而持續(xù)的任務(wù)。
AI 與科學(xué)、醫(yī)學(xué):加速發(fā)現(xiàn),改變范式
AI 正在成為推動(dòng)科學(xué)發(fā)現(xiàn)和變革醫(yī)療實(shí)踐的關(guān)鍵力量。
· 科學(xué)獎(jiǎng)項(xiàng)的認(rèn)可:2024 年,AI 在科學(xué)領(lǐng)域的貢獻(xiàn)獲得了最高榮譽(yù)。兩項(xiàng)諾貝爾獎(jiǎng)分別表彰了深度學(xué)習(xí)的基礎(chǔ)工作(物理學(xué)獎(jiǎng),John Hopfield 和 Geoffrey Hinton)及其在蛋白質(zhì)折疊預(yù)測(cè)中的應(yīng)用(化學(xué)獎(jiǎng),AlphaFold 團(tuán)隊(duì)的 Demis Hassabis 和 John Jumper)。圖靈獎(jiǎng)則授予了強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基人。這標(biāo)志著 AI 已成為科學(xué)研究不可或缺的一部分。
· 蛋白質(zhì)研究的飛躍:AlphaFold 3 和 ESM3 等新一代蛋白質(zhì)序列模型在 2024 年發(fā)布,它們規(guī)模更大、性能更強(qiáng),極大地提高了蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)的準(zhǔn)確性。這些模型不僅推動(dòng)了基礎(chǔ)生物學(xué)研究,也為藥物設(shè)計(jì)和合成生物學(xué)開辟了新途徑。公開蛋白質(zhì)數(shù)據(jù)庫(如 UniProt、PDB、AlphaFold DB)的規(guī)模也在持續(xù)快速增長(zhǎng)。
圖丨 2019–2025 年公共蛋白科學(xué)數(shù)據(jù)庫的增長(zhǎng)(來源:HAI)
· 臨床知識(shí)與應(yīng)用:大模型在醫(yī)學(xué)知識(shí)問答基準(zhǔn)(如 MedQA)上的表現(xiàn)持續(xù)提升,OpenAI 的 o1 模型取得了 96.0% 的新 SOTA 分?jǐn)?shù)。研究表明,在某些復(fù)雜的臨床診斷任務(wù)中,GPT-4 的表現(xiàn)甚至優(yōu)于醫(yī)生(無論醫(yī)生是否使用 AI 輔助)。AI 在癌癥檢測(cè)、高風(fēng)險(xiǎn)患者識(shí)別等方面也顯示出超越人類專家的潛力。FDA 批準(zhǔn)的 AI 賦能醫(yī)療器械數(shù)量呈爆炸式增長(zhǎng),從 2015 年的僅 6 個(gè)激增至 2023 年的 223 個(gè)。
圖丨大模型在臨床診斷中的表現(xiàn)(來源:HAI)
· 合成數(shù)據(jù)的潛力:研究顯示,AI 生成的合成數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域展現(xiàn)出巨大潛力,可用于識(shí)別健康的社會(huì)決定因素、增強(qiáng)隱私保護(hù)下的臨床風(fēng)險(xiǎn)預(yù)測(cè),以及加速新藥化合物的發(fā)現(xiàn)。
· 醫(yī)學(xué)倫理關(guān)注度提升: 隨著 AI 在醫(yī)療領(lǐng)域的廣泛應(yīng)用,相關(guān)的倫理討論也日益增多。醫(yī)學(xué) AI 倫理相關(guān)的出版物數(shù)量自 2020 年以來翻了兩番,顯示出學(xué)術(shù)界對(duì)這一領(lǐng)域的高度關(guān)注。
教育與公眾認(rèn)知:機(jī)遇與挑戰(zhàn)并存,認(rèn)知差異顯著
AI 的發(fā)展對(duì)教育體系和公眾認(rèn)知提出了新的要求和挑戰(zhàn)。
· CS 與 AI 教育普及,但鴻溝猶存:全球范圍內(nèi),提供或計(jì)劃提供 K-12 計(jì)算機(jī)科學(xué)(CS,Computer Science)教育的國家比例已從 2019 年的約三分之一翻倍至三分之二,非洲和拉丁美洲進(jìn)步最為顯著。然而,基礎(chǔ)設(shè)施(如電力缺乏)限制了非洲學(xué)生的實(shí)際學(xué)習(xí)機(jī)會(huì)。在美國,盡管高中 CS 課程的覆蓋率和入學(xué)率有所提高,但不同州、族裔、收入水平和性別的學(xué)生之間仍然存在顯著差距。雖然 81% 的美國 CS 教師認(rèn)為應(yīng)將 AI 納入基礎(chǔ) CS 教育,但只有不到一半的人感覺自己有能力教授 AI。
(來源:HAI)
· 人才培養(yǎng)出現(xiàn)新動(dòng)向:美國 AI 相關(guān)碩士畢業(yè)生的數(shù)量在 2022 年至 2023 年間幾乎翻了一番,這可能預(yù)示著未來幾年學(xué)士和博士層面也將出現(xiàn)類似的增長(zhǎng)。美國在信息、通信和技術(shù)領(lǐng)域的畢業(yè)生培養(yǎng)方面繼續(xù)保持全球領(lǐng)先地位。
(來源:HAI)
· 全球公眾情緒:謹(jǐn)慎樂觀與深刻分歧:Ipsos 的全球調(diào)查顯示,公眾對(duì) AI 產(chǎn)品和服務(wù)的態(tài)度趨于“謹(jǐn)慎樂觀”。認(rèn)為 AI 利大于弊的全球受訪者比例從 2022 年的 52% 上升到 2024 年的 55%。尤其是在此前較為悲觀的國家(如德國、法國、加拿大、英國、美國),樂觀情緒有了顯著增長(zhǎng)(+4% 到+10% 不等)。然而,地區(qū)差異依然巨大。中國(83%)、印尼(80%)、泰國(77%)等亞洲國家民眾普遍更為樂觀,而加拿大(40%)、美國(39%)、荷蘭(36%)等國民眾則相對(duì)更為審慎。
圖丨不同國家民眾對(duì)于 AI 的態(tài)度(來源:HAI)
· 信任度下降,倫理擔(dān)憂加劇:盡管總體樂觀情緒有所上升,但公眾對(duì) AI 公司倫理行為的信任度正在下降。全球范圍內(nèi),相信 AI 公司會(huì)保護(hù)個(gè)人數(shù)據(jù)的受訪者比例從 2023 年的 50% 下降到 47%。認(rèn)為 AI 系統(tǒng)公正無偏見的比例也在降低。對(duì)自動(dòng)駕駛汽車的不信任感依然很高(美國 61% 的人表示害怕)。
· 對(duì) AI 影響的認(rèn)知:全球 60% 的受訪者認(rèn)為 AI 將在未來五年改變他們的工作方式,但只有 36% 的人認(rèn)為 AI 會(huì)取代他們的工作。人們普遍認(rèn)為 AI 能節(jié)省時(shí)間(55%)、提供更好的娛樂(51%),但在經(jīng)濟(jì)影響(36% 認(rèn)為能改善國家經(jīng)濟(jì))和健康改善(38%)方面則信心不足。
圖丨全球?qū)θ斯ぶ悄軐?duì)當(dāng)前工作的影響的看法(來源:HAI)
完整報(bào)告參見:https://hai.stanford.edu/ai-index/2025-ai-index-report
參考資料:
1.https://hai.stanford.edu/ai-index/2025-ai-index-report
2.https://www.wired.com/story/stanford-study-global-artificial-intelligence-index
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.