網易首頁 > 網易號 > 正文申請入駐

斯坦福AI指數報告：中美大模型差距極速縮小，國產大模型入圍MixEval前十

2025-04-10 21:25:44　來源: 磐石之心

山東舉報

分享至

在中美關稅大戰愈演愈烈之際，一份AI領域的重磅報告——《2025年人工智能指數報告》（HAI報告）出爐。該報告由斯坦福大學李飛飛團隊以人為本人工智能研究院發布，已經連續發布8年，在全球AI領域具有很強的影響力。

相比一些商業機構發布的AI報告，HAI報告的編寫團隊主要由來自斯坦福大學、摩根大通等學術界和產業界的跨學科專家組成，報告內容和數據更客觀公正，更有研究價值。因此，HAI報告的研究結論和測試結果，其含金量遠高于其他商業報告。

2025年的HAI報告透露出多項AI領域最進展，最值得關注的是，中美頂級模型性能差距縮至0.3%；推理成本暴降，小模型性能飆升，AI正變得更高效、更普惠，這也意味著美國對算力封鎖的效果正在打折。

本次HAI報告引入了一項全新評測標準MixEval，是專為評估大語言模型在復雜真實語言任務中表現的測試集，尤其聚焦于“分布式用戶查詢”和“復雜問題處理能力”，在更具挑戰性的MixEval-Hard基準測試中，中美大模型均有上榜，前三名分別是Open AI o1、Claude 3.5和LLaMA 3.5，都來自美國。

中國有三款大模型入圍，分別是訊飛星火（SPARK4.0）位居第十名，零一萬物位居第十一名，阿里巴巴Qwen-Max位居第十三名。

這份測試結果表明，以訊飛星火4.0為代表的國產大模型，在2024年通過不斷的迭代和性能突破，已經在國際主流的大模型測試結果中展現出不俗的能力，正在快速追趕中美AI的發展差距。

除了這份大模型性能測試排名外，報告還透露出三點新動向：

首先，中國在AI大模型上是當之無愧的第二名，與美國的差距只有0.3%。這份報告特別對中美大模型進行對比，成為吸睛的部分。從數量上看，2024年美國發布了40個“前沿模型”，而中國為15個，歐洲僅3個。

從論文方面看，2023年，中國貢獻了全球23.2%的AI論文和69.7%的AI專利，遠遠超過美國；而美國在論文總量上僅排全球第三，約為中國的一半。

從幾項關鍵指標來看，中國大模型對美國的追趕也可以用“極速”來形容。在MMLU這項多任務語言理解測試中，中美模型在2023年相差17.5個百分點，而到2024年只差0.3%；HumanEval（代碼生成任務）也從31.6%的差距收縮到3.7%。

其次，推理成本暴降，“小模型”性能飆升，AI開始普惠。春節后，DeepSeek號稱是只用600萬美元做出來的，這給OpenAI等依靠堆算力取勝的大模型帶來巨大壓力，甚至導致美國算力相關股票暴跌。

算力成本下降是不爭的事實。報告顯示，隨著小模型性能提升，達到GPT-3.5水平的推理成本在兩年間下降280倍，硬件成本以每年30%的速度遞減，能效年提升率達40%。

對于被卡脖子的中國大模型來說，是重大利好。

比如，在MixEval-Hard測試中進入前十的訊飛星火4.0就是在純國產算力基座上訓練出來的大模型，而且2025年3月3日，科大訊飛發布的深度推理模型X1在數學能力上大幅躍升，以70B參數規模便追平了OpenAI o1和DeepSeek R1。

第三，AI醫療已經從夢想走進現實。HAI報告指出：2023年，美國FDA共批準了223款AI醫療設備，而2015年時這一數字還只有6件。報告還表示，OpenAI的GPT-4在復雜醫學問診的測試中，表現甚至優于醫生與AI協作小組。

其實，在中國“AI+醫療”也在大規模落地，并誕生了首個上市公司——訊飛醫療。基于星火深度推理大模型X1首發的星火醫療大模型X1已經應用到智醫助理、訊飛曉醫APP中，實現AI輔助診斷和用戶健康咨詢。

3月26日，訊飛醫療發布上市后的首個年報，成績亮眼，全年實現營業收入7.34億元，同比增長32.0%；實現毛利4.04億元，同比增長28.4%。

從斯坦福這份報告可以看出，當前，美國仍然是AI大模型領域的第一名，但是中國企業的追趕速度正在加快，與美國之間的差距極速縮小。同時，推理成本大幅減少，讓美國對中國算力的封鎖效果變差，國產算力的價值逐漸提高。

在中美各種較量之中，AI技術的較量關乎未來，國產大模型的發展令人振奮。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.