在中美關稅大戰愈演愈烈之際,一份AI領域的重磅報告——《2025年人工智能指數報告》(HAI報告)出爐。該報告由斯坦福大學李飛飛團隊以人為本人工智能研究院發布,已經連續發布8年,在全球AI領域具有很強的影響力。
相比一些商業機構發布的AI報告,HAI報告的編寫團隊主要由來自斯坦福大學、摩根大通等學術界和產業界的跨學科專家組成,報告內容和數據更客觀公正,更有研究價值。因此,HAI報告的研究結論和測試結果,其含金量遠高于其他商業報告。
2025年的HAI報告透露出多項AI領域最進展,最值得關注的是,中美頂級模型性能差距縮至0.3%;推理成本暴降,小模型性能飆升,AI正變得更高效、更普惠,這也意味著美國對算力封鎖的效果正在打折。
本次HAI報告引入了一項全新評測標準MixEval,是專為評估大語言模型在復雜真實語言任務中表現的測試集,尤其聚焦于“分布式用戶查詢”和“復雜問題處理能力”,在更具挑戰性的MixEval-Hard基準測試中,中美大模型均有上榜,前三名分別是Open AI o1、Claude 3.5和LLaMA 3.5,都來自美國。
中國有三款大模型入圍,分別是訊飛星火(SPARK4.0)位居第十名,零一萬物位居第十一名,阿里巴巴Qwen-Max位居第十三名。
這份測試結果表明,以訊飛星火4.0為代表的國產大模型,在2024年通過不斷的迭代和性能突破,已經在國際主流的大模型測試結果中展現出不俗的能力,正在快速追趕中美AI的發展差距。
除了這份大模型性能測試排名外,報告還透露出三點新動向:
首先,中國在AI大模型上是當之無愧的第二名,與美國的差距只有0.3%。這份報告特別對中美大模型進行對比,成為吸睛的部分。從數量上看,2024年美國發布了40個“前沿模型”,而中國為15個,歐洲僅3個。
從論文方面看,2023年,中國貢獻了全球23.2%的AI論文和69.7%的AI專利,遠遠超過美國;而美國在論文總量上僅排全球第三,約為中國的一半。
從幾項關鍵指標來看,中國大模型對美國的追趕也可以用“極速”來形容。在MMLU這項多任務語言理解測試中,中美模型在2023年相差17.5個百分點,而到2024年只差0.3%;HumanEval(代碼生成任務)也從31.6%的差距收縮到3.7%。
其次,推理成本暴降,“小模型”性能飆升,AI開始普惠。春節后,DeepSeek號稱是只用600萬美元做出來的,這給OpenAI等依靠堆算力取勝的大模型帶來巨大壓力,甚至導致美國算力相關股票暴跌。
算力成本下降是不爭的事實。報告顯示,隨著小模型性能提升,達到GPT-3.5水平的推理成本在兩年間下降280倍,硬件成本以每年30%的速度遞減,能效年提升率達40%。
對于被卡脖子的中國大模型來說,是重大利好。
比如,在MixEval-Hard測試中進入前十的訊飛星火4.0就是在純國產算力基座上訓練出來的大模型,而且2025年3月3日,科大訊飛發布的深度推理模型X1在數學能力上大幅躍升,以70B參數規模便追平了OpenAI o1和DeepSeek R1。
第三,AI醫療已經從夢想走進現實。HAI報告指出:2023年,美國FDA共批準了223款AI醫療設備,而2015年時這一數字還只有6件。報告還表示,OpenAI的GPT-4在復雜醫學問診的測試中,表現甚至優于醫生與AI協作小組。
其實,在中國“AI+醫療”也在大規模落地,并誕生了首個上市公司——訊飛醫療。基于星火深度推理大模型X1首發的星火醫療大模型X1已經應用到智醫助理、訊飛曉醫APP中,實現AI輔助診斷和用戶健康咨詢。
3月26日,訊飛醫療發布上市后的首個年報,成績亮眼,全年實現營業收入7.34億元,同比增長32.0%;實現毛利4.04億元,同比增長28.4%。
從斯坦福這份報告可以看出,當前,美國仍然是AI大模型領域的第一名,但是中國企業的追趕速度正在加快,與美國之間的差距極速縮小。同時,推理成本大幅減少,讓美國對中國算力的封鎖效果變差,國產算力的價值逐漸提高。
在中美各種較量之中,AI技術的較量關乎未來,國產大模型的發展令人振奮。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.