文 | 孫永杰
經過多輪的市場傳言猜測與情緒反轉,美國政府最終對英偉達的H20芯片升級了出口管制,隨即英偉達CEO黃仁勛時隔3個月再次到訪中國,表示希望繼續與中國合作,可見此舉在業內引發的震動。而隨著H20芯片在中國市場的受限,國內AI芯片替代的真正大考也正式開啟。
英偉達H20等受限,國內廠商迎替代大考機會
說到H20芯片的出口管制,近日,英偉達發布8-K文件稱,美國政府于4月9日告知,H20芯片出口到中國需要許可證,此后又于14日告知,這些規定將無限期實施。美國將H20納入“非民用超算風險清單”,意味著AI芯片管制從高端產品(如A100、H100)延伸至定制化中端產品。需要說明的是,H20是英偉達在中國合法銷售的主要芯片,是在2023年10月美國最新一輪出口限制生效后推出的。
幾乎與此同時,美國商務部宣布,AMD MI308以及同類型的AI芯片,也增加了新的中國出口許可要求。而英特爾也似乎沒有獲得任何豁免,據報道,該公司同樣需要獲得出口許可證才能向中國銷售其Gaudi芯片。
對此,華泰證券指出,H20銷售受限或已被市場預期,但新規或昭示將堵住以內存彌補算力漏洞。而萬聯證券則認為,此次美國政府對H20進行許可證管理,表明貿易管制力度加大,認為H20在中國市場的銷售或將面臨較大限制或導致英偉達在中國市場份額有所流失,國內AI芯片廠商有望承接更多市場份額。該機構進一步指出,關稅博弈未定,全球貿易摩擦或加劇半導體產業國產化進程有望進一步加速,國產算力將迎來發展機遇。
而在我們看來,隨著英偉達H20、AMD MI308及同類型的AI芯片和英特爾Gaudi芯片在中國市場銷售的受限,國產AI芯片直面替代大考的機會真的來了,即國內廠商有了前所未有的市場空間去驗證自身產品的性能、可靠性、生態兼容性以及供應鏈的穩定性等。
本土力量崛起,華為昇騰領跑光環下的隱憂
提及替代英偉達GPU大考的機會,華為的昇騰(Ascend)系列芯片無疑是目前最受矚目、聲量最大,且在實際部署上走得最遠的本土替代選項。尤其是以昇騰910C為代表的最新一代產品,正成為中國構建本土AI基礎設施的核心。
更重要的是,華為已將芯片的能力延伸至系統層面,通過CloudMatrix這樣的計算系統(例如近日被媒體廣泛報道的由384塊昇騰910C組成、采用全對全互聯拓撲的CM384系統)來聚合算力,其超節點在規模及推理性能已比肩英偉達NVL72超節點的水平。而這和構成該計算系統最核心的華為昇騰910C芯片密不可分。
據包括Huawei Central、TrendForce News和Reddit等多個可靠來源和平臺的研究分析,昇騰910C是通過將兩個昇騰910B芯片組合而成,采用了共封裝(co-packaging)或芯片組(chiplets)技術。而通過組合兩個910B芯片,910C的計算能力顯著提升,達到了800 TFLOP/s(FP16)的計算能力和3.2 TB/s的內存帶寬,幾乎是英偉達H100性能的80%。
所謂有利就有弊,這種設計方式雖然在短期內提升了性能,但也帶來了顯著的弊端。
首先從技術層面看,這種設計會導致諸如功耗增加、互連瓶頸等。
以功耗增加為例,更高的功耗意味著更多的散熱需求,增加了散熱系統的成本和復雜性(例如需要更強大的風扇、散熱片或液冷系統)。同時,在數據中心等對能效要求高的場景下,高功耗會顯著增加運營成本。
據知名半導體和人工智能研究公司SemiAnalysis稱,CM384系統功耗遠高于英偉達的GB200 NVL72系統。例如它需要GB200 NVL72 3.9倍的功耗,每FLOP的功耗差2.3倍,每TB/s內存帶寬的功耗差1.8倍,以及每TB HBM內存容量的功耗差1.1倍(“功耗差X倍”在這里表示相對于基準GB200 NVL72,每單位性能/容量所需的功耗是其X倍,即能效差了X倍)。而導致上述的部分原因可能就源于昇騰910C芯片本身的這種組合設計。
不要小看功耗的增加,在實際部署層面,每臺AI GPU服務器的基礎投資約為40萬美元,其中電源、冷卻等基礎設施就占建設成本的1/3以上。據IDC調研顯示,80%的數據中心決策者將能耗與散熱視為關鍵制約因素,而具體到華為CM384系統功耗為GB200 NVL72的3.9倍,其長期運行成本勢必水漲船高,而如何在規模擴張與能效之間找到平衡是巨大的挑戰。
至于互連瓶頸,盡管910C旨在解決910B在跨卡互連方面的嚴重問題,但組合兩個芯片的設計仍可能存在互連帶寬的限制。來自Huawei Central的研究顯示,910C的die-to-die帶寬僅為Nvidia H100的1/10至1/20。而這種瓶頸可能影響大規模AI訓練任務的效率,具體表現為性能無法按裸片數量實現線性擴展,表現為兩個裸片通常無法達到單個同等技術裸片性能的兩倍,尤其是在需要高帶寬的場景中,如訓練大型語言模型(LLM)。同時數據在不同裸片之間傳輸還會帶來額外的延遲和功耗。
除了上述技術層面,在生態系統與市場層面,眾所周知,與昇騰芯片同屬于昇騰計算的華為MindSpore的AI框架雖然在不斷發展,但仍無法與英偉達的CUDA平臺相提并論。
例如Unite.AI的分析就指出,MindSpore的成熟度和廣泛采用度較低,可能限制開發者采用,尤其是對于長期AI訓練任務,這可能導致910C在軟件支持和開發者生態系統方面落后于英偉達,從而在實際應用中效率降低。
最后,也更為關鍵的是,據SemiAnalysis、TechInsights、WCCFTech等的拆解、分析和報道確認,盡管昇騰910C部分由中芯國際(SMIC)制造,但受限于良率(據稱華為昇騰芯片良率僅為32%,也有報道稱,昇騰910C的良率已提高至近40%,但仍低于60%的行業標準)和產能,其絕大部分仍是采用臺積電的7nm工藝制造。
究其原因,國內晶圓代工廠,如中芯國際雖然在技術上已經掌握了7nm工藝,但相較于臺積電,其在先進制程的良率、穩定性、大規模量產能力以及配套的設備和材料生態等方面仍存在差距。尤其對于像昇騰910C這樣尺寸較大、技術復雜的AI芯片,對制造工藝的要求更高,中芯國際在滿足其大規模、高良率生產方面仍面臨挑戰。
因此,即便存在國內制造的選項,華為為了保障供應的穩定性和產品性能,仍然傾向于依賴技術更成熟、產能更穩定的臺積電,這凸顯了中國在先進制程制造環節“卡脖子”困境下,通過第三方渠道獲取晶圓的模式。
此外,昇騰910C關鍵組件,如HBM主要來自韓國供應商三星(據SemiAnalysis稱,主要采用三星在大中華區的HBM獨家經銷商CoAsia Electronics向ASIC設計服務公司Faraday發貨HBM,后者再委托SPIL采用便于后續提取的低熔點焊料將其與廉價的16nm邏輯芯片一起“封裝”,最后運到中國以拆焊的方式回收HBM使用)。而眾所周知的是,這種以基于規避為核心目的的供應鏈模式,除了合法性存疑外,穩定性極差,風險性極高,是最大的隱憂。
國內廠商多點開花, 方能降風險、保穩定、促自主
如前述,我們不難看到,盡管華為昇騰910C在國內應用和替代中處在領跑的位置,但無論從芯片本身的性能、所處的生態、還是關鍵的供應鏈模式等環節,因為客觀或自身的原因均存在較大的隱憂,而這就需要國內其他相關廠商必須參與到替代的大考中來。
事實是,在AI芯片領域,除華為外,科技大廠阿里、百度、騰訊均已布局自研AI芯片;在純芯片廠商中,既有寒武紀、景嘉微、海光信息等上市公司,也涌現出如芯動科技、瀚博半導體、沐曦集成電路、天數智芯、地平線等一批兼具技術沉淀與創新活力的企業。
其中屬于科技大廠的阿里巴巴(含平頭哥的含光芯片)、百度(昆侖芯)、騰訊、商湯科技等,它們基于自身龐大的業務需求,開發用于內部場景的AI芯片。這些芯片主要服務于其自有的云平臺或業務,雖不直接面向廣泛的外部市場銷售,但代表了國內頂尖的應用場景驅動型芯片設計能力,是國產AI算力體系的重要組成部分。
至于屬于上市公司的海光信息,其海光DCU系列產品以GPGPU架構為基礎,建立的自研軟件棧全面兼容CUDA生態以及國際主流商業計算軟件、人工智能軟件,可廣泛應用于大數據處理、人工智能、商業計算等領域,已應用于國產超算和AI訓練場景,可承接部分H20受限后的市場需求。百度、阿里、騰訊等互聯網企業已認證通過海光的DCU產品并推出聯合方案,打造全國產軟硬件一體全棧AI基礎設施。此外,科大訊飛、商湯和云從等國內頭部AI企業,已有大量模型移植并運行在海光DCU平臺上。
又如寒武紀,作為國產AI芯片的頭部企業,其思元系列芯片在云端和邊緣計算領域可部分替代英偉達的產品,尤其是通過第五代智能處理器微架構,其產品可滿足云端訓練等場景需求。
除上述老牌企業外,自2019年以來,一批國產GPU初創公司也先后成立,并涌現了諸如壁仞科技、摩爾線程、燧原科技等AI芯片設計獨角獸。
例如其中的摩爾線程,與華為昇騰有所不同,其目標是構建一個更廣泛的通用GPU生態系統。為此,摩爾線程構建了MUSA(Moore Threads Unified System Architecture)統一的軟件平臺。而近日,摩爾線程正式發布MUSA SDK4.0.1,其最大的突破就是實現了從芯片設計到軟件棧的"全鏈路貫通",且實現對于英偉達CUDA全盤的遷移,用戶使用習慣不會改變,速度卻快15%以上
至于同屬AI芯片設計獨角獸的壁仞科技,則早在2022年就推出了采用7nm制程的GPGPU芯片BR100,該芯片峰值算力達到國際廠商彼時在售旗艦產品3倍以上,創下國內互連帶寬紀錄。
從上述我們不難看出,除華為昇騰外,國內還有許多在AI芯片領域實力不俗,且有不乏具備可替代英偉達GPU的企業,而鑒于我們前述華為昇騰存在的隱憂,惟有這些企業積極參與,形成多點開花,方能在替代的過程中,降風險、保穩定、促自主。
寫在最后:英偉達H20等近期在中國市場的受限,突顯了國內替代方案的重要性。但通過上述,我們認為,中國AI芯片的替代,乃至未來的自主之路,不能僅靠個別企業,更不可長期依賴充滿不確定性的規避手段的供應鏈模式,而是在于多點開花,支持包括華為、海光信息、摩爾線程等在內的多元化的國內AI芯片企業的協同發展,借此構建真正強大、完整、有韌性的全產業鏈自主生態,才是加速實現中國AI芯片自主可控的正解。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.