本報記者 李玉洋 上海報道
三個月之內(nèi),“AI教父”黃仁勛兩次踏上中國土地,這次他脫下經(jīng)典皮衣、換上西裝,出現(xiàn)在公眾視野。
近日,英偉達(NASDAQ:NVDA)總裁兼CEO黃仁勛來到中國開展為期兩天的訪問。此前一天,英偉達披露美國政府告知該公司的H20芯片出口到中國需要許可證,且將無限期實施。此外,美國商務部還對AMD MI308(一款中國特供產(chǎn)品)以及同類型的AI芯片,均新增了中國出口許可要求。
隨著今年年初DeepSeek的爆紅,國內(nèi)推理算力需求出現(xiàn)井噴式增長,外媒報道稱騰訊、百度等大廠都加大了H20的采購訂單,即使H20性能被嚴重“閹割”。由于美國政府限制H20向中國出口,英偉達表示,預計2026財年第一季度(對應自然日期截至4月27日)業(yè)績將不得不承擔55億美元(約合人民幣400億元)的費用,這些費用與H20產(chǎn)品的庫存、采購訂單和相關儲備有關。
過去半個多月,在美國加征關稅這個大背景下,全球半導體產(chǎn)業(yè)鏈備受沖擊。“行情變化太快?!庇ミ_國內(nèi)代理商思騰合力的一名銷售人員告訴《中國經(jīng)營報》記者,一款搭載8張H20(內(nèi)存141G)的推理服務器現(xiàn)貨目前售價約140萬元,而今年年初價格在100萬元左右,“價格可能后面還會漲”。
對于美國全面封殺英偉達H20及同類型的AI芯片對華出口,有分析指出,國內(nèi)AI芯片廠商有了前所未有的市場空間去驗證自身產(chǎn)品的性能、可靠性、生態(tài)兼容性以及供應鏈的穩(wěn)定性等。“這對國內(nèi)是利好的,因為企業(yè)對AI的訴求有增無減,而且中國智算中心市場還在增長,對國產(chǎn)化的要求還挺高。”行業(yè)研究機構(gòu)Omdia人工智能首席分析師蘇廉節(jié)對記者表示。
數(shù)據(jù)中心收入將下降8%至9%
需要說明的是,在2023年10月,美國新一輪對華出口AI芯片限制生效后,H20是英偉達向中國客戶能合法銷售的特供版AI芯片。
據(jù)了解,H20是基于英偉達Hopper架構(gòu),有兩種內(nèi)存的版本(96GB的HBM3和141GB的HBM3e),與H100相比,其性能大幅縮水約80%,且禁用張量核心,限制了超頻和集群擴展。有消息稱,H20 96GB版本已經(jīng)停產(chǎn),141GB版本更適合超大規(guī)模推理集群部署。
而141GB版本的H20的FP16精度算力還不到H200的1/10,但顯存極大,由此該版本因“算力與顯存配置畸形”而引發(fā)討論,加上國內(nèi)AI芯片的激烈競爭,H20的市場競爭力大打折扣,質(zhì)疑聲不絕于耳。
然而,DeepSeek的火爆,讓H20 141GB版本憑借顯存和帶寬的強化(8卡總顯存達1128GB),原生支持FP8精度的DeepSeek-R1 671B滿血版模型,可流暢運行千億參數(shù)規(guī)模的模型推理任務,成為當前中國市場適配大模型推理的熱門選擇。
DeepSeek證明了H20的“香”。據(jù)傳,此前騰訊、字節(jié)跳動、阿里巴巴等多家中國巨頭花費160億美元采購H20。因此,主要為推理設計的H20,成為今年第一季度國內(nèi)賣得最好的AI芯片。在此期間,市場上一直流傳“H20即將被禁”的說法,現(xiàn)在靴子終于落地了。
值得一提的是,面向中國市場的H20 141GB版本并沒有DGX系統(tǒng),DGX系統(tǒng)(如DGX H100/H200)是英偉達直接提供的AI服務器,包含完整的硬件(GPU、CPU、網(wǎng)絡等)和預裝軟件生態(tài)(如NVIDIA AI Enterprise),定位為“即插即用”的AI基礎設施。
根據(jù)公開信息,英偉達H20主要作為合規(guī)特供的GPU模組(HGX形態(tài))提供給中國市場,供OEM廠商集成到自有服務器產(chǎn)品中。
上述英偉達國內(nèi)代理商表示,他們的H20現(xiàn)貨產(chǎn)品都是固定配置(2×8558/16×64G/2×960G/4×3.84/8×H20 141G),其中8558指的是最新一代Intel 8558P處理器,盡管還不知道H20現(xiàn)貨何時不能在國內(nèi)銷售,但其表示,“不用擔心保修”。
此次H20芯片對華出口管制,意味著英偉達已量產(chǎn)的最近三代架構(gòu)的數(shù)據(jù)中心級AI芯片(GPU)已無緣中國市場,不管是最新Blackwell架構(gòu)的B100/200,還是高端版H100/200、A100等,或是特供版H800、A800以及H20。
黃仁勛也承認,美國政府加強芯片出口管制已對英偉達的業(yè)務產(chǎn)生重大影響,而中國是英偉達非常重要的市場,將繼續(xù)不遺余力優(yōu)化符合監(jiān)管要求的產(chǎn)品體系,堅定不移地服務中國市場。
有消息稱,英偉達專供我國的H20單款產(chǎn)品在2024年貢獻了該公司中國區(qū)170億美元年營收的70%。而摩根士丹利分析師下調(diào)了英偉達的營收預期,理由是擔心美國對中國的最新芯片出口限制對英偉達的影響,他們預計未來幾個季度,英偉達的數(shù)據(jù)中心收入將下降8%至9%。
構(gòu)建國產(chǎn)算力版圖
如何評估DeepSeek對算力生態(tài)的影響?業(yè)界有兩個共識:一是DeepSeek把蛋糕做大了;二是模型訓練需求將遠小于推理需求。目前,英偉達的AI芯片在訓練方面表現(xiàn)最佳,但推理芯片的最佳選擇尚不確定。
IDC認為,通過適配DeepSeek,中國本土AI芯片在軟件生態(tài)領域?qū)崿F(xiàn)了突破,逐步完善軟件生態(tài)。這為本土AI芯片在市場中的競爭力提供了有力支持,同時也促進了本土廠商的技術交流和資源共享,打破了國產(chǎn)芯片生態(tài)建設的僵局。
而美國政府對華出口AI芯片的進一步管制,將倒逼中國企業(yè)更多使用國產(chǎn)AI芯片,國內(nèi)AI芯片行業(yè)直面替代大考的機會真的來了。
有觀點認為,目前國內(nèi)AI芯片和國際先進水平大概差1.5代,國內(nèi)大多數(shù)AI芯片性能已接近英偉達A系列,最新一代接近H系列。
誰最可能替代英偉達GPU,華為的昇騰(Ascend)系列芯片無疑是當前最受矚目,且在實際部署上走得最遠的本土選項,尤其是以昇騰910C為代表的最新一代產(chǎn)品,正成為中國構(gòu)建本土AI基礎設施的核心。
根據(jù)Huawei Central、TrendForce News和Reddit等平臺的研究分析,昇騰910C是通過共封裝或芯粒技術將兩個昇騰910B芯片組合而成,由此計算能力顯著提升,達到了800 TFLOP/s(FP16精度)的計算能力和3.2 TB/s的內(nèi)存帶寬,性能可達到英偉達H100的80%。
其超節(jié)點在規(guī)模及推理性能已比肩英偉達NVL72超節(jié)點的水平。而這和構(gòu)成該計算系統(tǒng)最核心的華為昇騰910C芯片密不可分。
“最近有些消息說,華為下一代昇騰920會出來。”蘇廉節(jié)表示,基于制裁,昇騰920性能還是無法跟最頂尖的GPU相提并論,但估計也會爆單。
此外,華為還將芯片的能力延伸至系統(tǒng)層面,通過CloudMatrix這樣的計算系統(tǒng)來聚合算力。近日,華為云推出CloudMatrix 384超節(jié)點,并宣布已在蕪湖數(shù)據(jù)中心規(guī)模上線。
盡管目前,華為昇騰910C在國內(nèi)應用和替代中處在領跑的位置,但事實上在國內(nèi)AI芯片領域,互聯(lián)網(wǎng)大廠阿里巴巴、百度、騰訊均已布局自研AI芯片;在純芯片廠商中,既有寒武紀、海光信息等上市公司,也涌現(xiàn)出如摩爾線程、壁仞科技、瀚博半導體、沐曦、燧原科技、天數(shù)智芯、地平線等一批兼具技術沉淀與創(chuàng)新活力的企業(yè)。
可以說,美國商務部的禁令清單每延長一寸,中國本土AI芯片廠商的訂單便增厚一尺——寒武紀的云端訓練卡、地平線的自動駕駛芯片、華為的昇騰生態(tài),正以美方禁令倒逼下的超線性速度,填補著算力版圖的裂縫。
除以上芯片企業(yè)在構(gòu)建國產(chǎn)算力外,記者注意到一些處于中間層的AI Infra(基礎設施)公司也在助力用好國產(chǎn)算力。
清華系的清程極智就是這樣一家企業(yè)。清程極智CEO湯雄超此前接受媒體采訪時表示,DeepSeek模型采用的FP8數(shù)據(jù)格式與英偉達H系列卡深度綁定,但目前大多數(shù)國產(chǎn)芯片尚沒法原生支持FP8。
“從這個層面看,硬件層面產(chǎn)品的代際差距拉大了?!睖鄢J為,發(fā)揮Infra層的作用,通過軟硬協(xié)同,將優(yōu)秀的國產(chǎn)大模型和國產(chǎn)硬件更好協(xié)同起來,以及把市場上的閑置算力更好地用起來,這是公司始終在思考的。
今年年初,清程極智與清華共同開源了大模型推理引擎“赤兔”,通過赤兔的部署,大部分英偉達老、舊卡及國產(chǎn)芯片都可支撐DeepSeek滿血版,與此同時在首期開源的版本中,對比國際主流開源推理引擎,在算力減少一半的基礎上,速度還能翻番。
短期來看,赤兔實現(xiàn)了DeepSeek FP8 精度模型在存量GPU上的無損且高效部署;長期來看,赤兔這些模型推理引擎的開源將是形成國產(chǎn)大模型、國產(chǎn)算力和國產(chǎn)引擎閉環(huán)的必要環(huán)節(jié)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.