智東西
編譯 陳駿達 程茜
編輯 Panken
智東西4月8日報道,今天,斯坦福大學以人為本AI研究院(HAI)發布長達456頁的《AI指數報告2025》,全面介紹了中美AI競爭態勢、開源模型、模型技術性能、大模型投融資、AI for Science等領域的最新數據和進展,其中DeepSeek被提及45次。
《AI指數報告2025》中寫道:“美國在頂尖AI模型產出上仍保持領先——但中國正快速縮小性能差距。”
報告以DeepSeek-V3為典型代表,論證了大模型推理、訓練成本的驟降;來自清華大學、北京智源研究院的數十篇科研成果被納入全球Top100;來自阿里、字節、DeepSeek、騰訊、智譜等企業的15款模型被選為過去一年中的重要AI模型。
整體而言,中國大陸的AI研究論文在全球總發表量中占比23.2%,被引量占全球總量的22.6%。不過,美國在研究成果在影響力上更勝一籌,且依舊是重要AI模型的主要來源地。2024年,美國機構開發了40個重要AI模型,遠超中國大陸的15個和歐洲的3個。過去十年美國開發的機器學習模型數量居全球之首。
算力作為驅動AI發展的重要因素,也在迅速變化。以16位浮點運算為基準,2008-2024年間機器學習硬件性能年均增長約43%(每1.9年翻番),固定性能水平的硬件成本正以每年30%的幅度下降。
AI正對經濟產生深刻影響。在麥肯錫的調研中,已有至多49%的企業稱AI為企業實現了降本,其中,中國大陸企業在AI采用率上提升迅速,已達75%,與北美地區差距縮小到7%。
2024年,全球AI投資達到2523億美元,其中私人投資增長44.5%,生成式AI領域的投資達到339億美元,2024年美國AI投資額達到1091億美元,幾乎是中國大陸投資額93億美元(折合人民幣約682億元)的12倍。
我們還首次見證了AI研究獲得2項諾貝爾獎,并在生物醫藥領域展現出巨大的應用潛力。
一、產業界主導大模型開發,中國AI專利量全球領先
全球AI領域呈現出多維度的快速發展態勢。AI已成為計算機科學中的主要研究領域,產業界在AI大模型開發中扮演著關鍵角色,學界則在高被引論文上表現突出。過去1年,重要AI模型的數量雖有所減少,但產業界開發的模型占比顯著上升。
硬件成本的持續下降為AI的發展提供了有力的支持。同時,AI學術會議參會人數的增長也反映出學界、業界對AI研究的熱情高漲,整個行業正處于蓬勃發展的關鍵時期。
1、中美AI科研影響力持續提升
總體來看,AI研究論文的總量持續增長,并已主導計算機科學領域。2013-2023年間,AI研究論文的數量從10.2萬篇增至24.2萬篇,在計算機科學論文中的占比從21.6%升至41.8%。學術界貢獻了更多的高被引研究。
從地區來看,中國大陸AI論文發表總量領先,2023年,中國大陸機構的AI論文在全球總發表量中占比23.2%,被引量占22.6%。
美國則發表了更多高影響力研究。2021年-2023年,美國分別貢獻了AI領域Top100高被引論文中的64篇、59篇與50篇,中國大陸分別貢獻了33篇、34篇與34篇。
按機構來看,在2021年-2023年的Top100高被引論文中,谷歌、清華大學、卡耐基梅隆大學、微軟、北京智源人工智能研究院、香港科技大學、上海人工智能實驗室、中國科學院、Meta、英偉達的表現較為搶眼。
2、重要AI模型(Notable AI models)由產業界主導
AI指數數據提供商Epoch AI根據是否為最新技術進步、是否具有歷史意義或引用率等標準,定義了一個囊括900余個重要AI模型的數據庫。
過去數年來,重要AI模型的參數規模、數據集大小、訓練時長等數據都呈現增長態勢。產業界正持續加大AI投入,并主導了重要模型的開發工作,2024年,由產業界開發的重要模型占比達90%(2023年為60%)。
重要AI大模型的數量出現了明顯減少,由2023年的105個減少至2024年的61個。同時,有越來越多的大模型選擇了API、托管獲取權限等非開源方式進行發布。
美國仍是重要AI模型的主要來源地。2024年,美國機構開發了40個重要AI模型,遠超中國大陸的15個和歐洲的3個。過去十年美國開發的機器學習模型數量居全球之首。
2024年,幾乎所有重要AI模型都來自產業界,其中谷歌和OpenAI憑借7款重要模型位列榜首,阿里憑借6款模型位居第三。字節、DeepSeek、騰訊、智譜AI分別憑借2款模型上榜。
回顧2014年-2024年的數據,谷歌貢獻了最多的重要AI模型,其次是Meta、微軟、OpenAI等企業。多所美國計算機強校登上這一榜單,清華大學和阿里分別貢獻了22個與14個重要AI模型。
美國頂級AI模型的算力需求普遍遠超中國大陸模型。根據Epoch AI數據,自2021年底以來,中國大陸訓練算力排名前十的語言模型年均增長約3倍,顯著低于2018年以來全球其他地區年均5倍的增速。
3、開源AI項目數量陡增
自2011年以來,代碼托管平臺GitHub上的開源AI項目數量持續增長,從2011年的1549個激增至2024年的約430萬個。特別值得注意的是,僅過去一年內,GitHub AI項目總量就實現了40.3%的陡增。
截至2024年,美國貢獻GitHub中23.4%的AI項目,占據最大份額;印度以19.9%的占比位居第二;歐洲緊隨其后,貢獻了19.5%的項目。美國開發者和中國大陸開發者在GitHub開源AI項目中的占比都出現不同比例的下降。
4、硬件成本每年下降30%
報告強調,硬件進步是推動人工智能發展的核心驅動力。盡管模型規模擴大和海量數據訓練帶來了顯著性能提升,但這些突破本質上都依賴于硬件技術的革新——尤其是更強大、更高效的圖形處理器(GPU)的發展。
根據Epoch AI測算,以16位浮點運算為基準,2008-2024年間機器學習硬件性能年均增長約43%(每1.9年翻番)。這一進步主要源于晶體管數量持續增加、半導體制造工藝革新和專用AI計算硬件的演進。
固定性能水平的硬件成本正以每年30%的幅度下降。以2022年3月發布的H100為例,其每美元可實現220億次浮點運算,性價比較2020年6月發布的A100提升1.7倍,較2016年4月的P100更是提升16.9倍。
5、中國大陸AI專利授權量領先
過去10余年,AI專利申請量激增。2010-2023年AI專利從3833件增至122511件,年增幅29.6%。中國大陸以69.7%的授權量領先,韓國和盧森堡人均專利產出最高。
6、AI學術會議參會人數增長
自2014年以來,全球主要AI學術會議的參會人數增加了6萬多人,AI研究熱情不斷增長。數據顯示,NeurIPS仍然是參會人數最多的AI學術會議,2024年吸引了近2萬名參與者。在主要的AI學術會議中,NeurIPS、CVPR、ICML、ICRA、ICLR、IROS和AAAI在過去一年中參會人數都有所增加。
二、開源模型迎頭趕上,中美大模型質量差距縮小到0.3%
2024年,AI模型的性能實現諸多突破。AI在多項基準測試中表現優異,超越人類或與人類差距迅速縮小,并攻克了2023年新提出的多項基準測試。
開源模型在2024年迎頭趕上,頂尖開源模型與頂尖閉源模型的差距大幅縮小,前沿AI模型的性能分布趨于收斂,小模型的能力也在不斷增強。此外,AI Agent等新技術展現出初步潛力。
1、2024年AI領域重要發布
以下是報告中列舉的2024年最具代表性的模型、數據集和功能發布,由業內專家組成的AI指數指導委員會選出。來自阿里的Qwen2、Qwen2.5和來自DeepSeek的DeepSeek-V3上榜,Cohere、北京智源人工智能研究院等發布的提示詞數據集也被認為具有重要意義。
2、AI在多項基準測試中領先人類
截至2024年,人類能力超過AI的任務類型已經非常少,即使在這些任務上,AI與人類之間的表現差距也在迅速縮小。
例如,在MATH(競賽級別數學的基準測試)上,最先進的AI系統現在已經領先人類表現7.9%,而2024年時這一差距僅為0.3%。同樣,在MMMU(復雜、多學科、專家級問題的基準測試)上,2024年表現最佳的模型o1得分為78.2%,僅比人類基準的82.6%低4.4%。
2023年,AI研究人員引入了幾項具有挑戰性的新基準測試,包括MMMU、GPQA和SWE-bench,旨在測試日益AI模型的極限。
到2024年,AI模型在這些基準測試中的表現取得了顯著進步,分別在MMMU和GPQA上實現了18.8%和48.9%的提升。在SWE-bench上,AI模型在2023年只能解決4.4%的編程問題,而這一比例在2024年躍升至71.7%。
4、開放權重模型迎頭趕上
去年的AI指數報告揭示,領先的開放權重模型遠遠落后于其封閉權重的同類產品。到2024年,這一差距幾乎消失。
2024年1月初,領先的封閉權重模型在聊天機器人競技場排行榜上比頂級開放權重模型高出8.0%。到2025年2月,這一差距縮小至1.7%。
5、中美模型差距縮小
2023年,領先的美國模型顯著優于其中國大陸同類產品——這種優勢已不復存在。2023年底,在MMLU、MMMU、MATH和HumanEval等基準測試中,性能差距分別為17.5%、13.5%、24.3%和31.6%。到2024年底,這些差距大幅縮小至0.3%、8.1%、1.6%和3.7%。在大模型競技場上,中美大模型的差距縮小至30分以內。
6、AI模型性能在前沿領域趨于收斂
根據去年的AI指數報告,聊天機器人競技場排行榜上前十名模型與排名第一的模型之間的Elo評分差距為11.9%。到2025年初,這一差距縮小至5.4%。同樣,排名前兩名的模型之間的差距從2023年的4.9%縮小到2024年的0.7%。人工智能領域的競爭日益激烈,越來越多的開發者提供了高質量的模型。
7、小模型能力日益增長
2022年,在MMLU上得分超過60%的最小AI模型是PaLM,擁有5400億個參數。到2024年,微軟的Phi-3-mini僅擁有38億個參數,就達到了相同的閾值,后者的參數量僅為前者的0.7%。
8、AI Agent展現出初步潛力
2024年推出的RE-Bench可用于評估AI Agent在復雜任務上的能力,測試標準較為嚴格。
在短時間(2小時)內,頂級AI系統的得分是人類專家的4倍,但隨著時間的增加,人類的表現超過了AI。
例如,在32小時的時間范疇上,人類的得分是AI的2倍。AI Agent已經在某些特定任務(如編寫Triton內核)上與人類專家相匹配,同時能夠更快地交付結果且成本更低。
三、全球投資熱蔓延,中國大陸工業機器人部署全球第一
2024年,AI領域的投資和應用迎來諸多變化,但存在明顯區域差異。全球企業AI投資創下歷史新高,美國投資規模一騎絕塵,北美地區AI采用率領先全球,但中國的采用鋁也迅速提升。
AI正給企業帶來一定的經濟效益,盡管大多數受訪者的成本節省不到10%,但這一趨勢仍具有重要意義。
1、全球AI投資創歷史新高
2024年企業AI投資達到2523億美元,其中私人投資增長44.5%,這是自2021年以來首次同比增長。
2024年生成式AI領域的投資達到339億美元,比2023年增長18.7%,是2022年水平的8.5倍以上。該領域如今占所有AI相關私人投資的20%以上。
2、美國在全球AI投資中的領先優勢擴大
2024年美國AI投資額達到1091億美元,幾乎是中國大陸投資額93億美元(折合人民幣約682億元)的12倍。在生成式AI領域,美國的投資超過了中國大陸、歐盟和英國的254億美元(折合人民幣約1864億元)總和。
3、AI采用率水平前所未有
2024年,該報告提到,其關于使用AI的調查受訪者比例從2023年的55%躍升至78%。同樣,受訪者在至少一項業務職能中使用生成式AI的數量翻了一倍多,從2023年的33%升至去年的71%。
4、AI開始降本增效
49%的受訪者稱使用AI進行服務運營為其節省了成本,其次是43%受訪者將AI用于供應鏈管理和41%受訪者用于軟件工程,此外大多數受訪者的成本節省不到10%。
5、中國AI采用率迎頭趕上
按地區來看,AI的采用率出現明顯變化,中國迎頭趕上。盡管北美的組織和企業在AI采用率方面仍保持領先地位,但中國具有最顯著的年度增長率,組織使用AI的比例增加了27%。歐洲緊隨其后,增加了23%。
6、中國大陸在工業機器人領域的主導地位延續
中國大陸安裝工業機器人的數量超過世界其他國家的總和。2023年中國大陸安裝了276300臺工業機器人,是日本的6倍、美國的7.3倍。自2013年超過日本以來,中國大陸在全球安裝量中的占比已從20.8%上升到51.1%。
四、更精準蛋白質測序模型亮相,AI臨床表現優于醫生
2024年,AI在生物醫學領域取得了重大突破,推動了科學研究和臨床應用的快速發展。模型的規模、準確性不斷提升,應用領域從實驗室擴展到臨床。AI研究更是在2024年斬獲兩項諾貝爾獎,獲得學界認可。
1、更大、更好的蛋白質測序模型出現
2024年出現了包括SM3、AlphaFold 3等在內的幾種大規模、高性能蛋白質測序模型。隨著時間推移,這些模型規模顯著增大,蛋白質預測準確率不斷提升。
其中ESM3集成了多模態輸入(序列、結構和交互數據),再加上其參數規模更大,提高了模型預測的代表性和準確性。隨著ESM系列規模的擴大,蛋白質預測性能也得到了提高,2o04年發布的較新的模型ESM C在結構預測關鍵評估(CASP15)挑戰中對蛋白質結構的預測準確性更高。
2、AI在科學進步中的作用不斷擴大
2022年、2023年是AI驅動科技進步突破的早期階段,但2024年AI應用在學術研究中獲得了顯著的關注,包括為生物任務訓練Agent的Aviary和顯著增強野火預測的FireSat。
3、AI臨床應用增加
MedQA基準測試中,OpenAI o1得分達到96.0%的最高水平,比2023年的最高分數高出5.8個百分點,相比2022年底成績提高了28.4個百分點。MedQA是評估臨床知識的關鍵基準。
4、AI在關鍵臨床任務上的表現優于醫生
一項新研究發現,GPT-4本身在診斷復雜臨床病例方面的表現優于醫生。其他近期研究表明,AI在癌癥檢測和識別高死亡風險患者方面超越了醫生。
5、合成數據在醫學領域顯示出巨大前景
2024年發布的研究表明,AI生成的合成數據可以幫助模型更好地識別健康的社會決定因素,增強隱私保護的臨床風險預測,并促進新藥物化合物的發現。
6、基礎模型進入醫學領域
2024年,一波大規模醫學基礎模型發布,從Med-Gemini等通用多模態模型到用于超聲心臟病學的 EchoCLIP和用于放射學的ChexAgent等專用模型。
7、AI研究獲得兩項諾貝爾獎
谷歌DeepMind的Demis Hassabis和John Jumper因其使用AlphaFold在蛋白質折疊方面的開創性工作而獲得諾貝爾化學獎。約翰·霍普菲爾德和杰弗里·辛頓因其對神經網絡的奠基性貢獻而獲得諾貝爾物理學獎。
五、30%國家將計算機科學教育列為必修課
2024年,全球約有2/3的國家提供或計劃提供計算機科學教育,30%的國家將計算機科學教育列為小學和/或中學的必修課程,其中歐洲是此類國家最多的地區。
2023年美國獲得AI碩士學位的學生數量急劇增加,畢業生數量翻番。
2023年AI專業畢業生人數最多的美國高等院校中,卡內基梅隆大學數量最多。
結語:中國大陸民眾整體對AI持樂觀態度
AI正以前所未有的速度滲透到千行百業之中,調查顯示,全球約2/3的人認為,AI驅動的產品和服務將在未來三到五年內顯著改變日常生活。全球60%的受訪者認為AI將在五年內改變工作方式,但僅36%擔心其崗位會被取代。
絕大多數中國大陸民眾(83%)認為,AI技術利大于弊,而在加拿大(40%)、美國(39%)和荷蘭(36%),持此觀點者仍占少數,但比例有所上升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.