當前生成式AI以及大模型技術,正以超預期的普及速度與規模,成為歷史上最具影響力的技術變革之一。
從大語言模型輔助EDA設計,到構建數字孿生的晶圓廠,AI對于半導體產業的賦能,也推動后者來到新的轉折點。
一方面,物理和成本極限宣告了以摩爾定律和半導體縮放技術為代表的傳統芯片演進方式走到盡頭,芯粒、先進封裝等替代方案勢起。另一方面,AI大模型快速迭代,多場景下,AI工作負載對于芯片算力和復雜度的需求也在持續增加。
芯片行業因為AI時代的到來,正在經歷什么樣的轉變?作為芯片產業的最上游,像Arm這樣的計算平臺廠商往往對于行業有著準確的前瞻性判斷。日前,Arm推出行業報告,系統分享了對于AI時代芯片行業發展的洞察和思考,Arm解決方案工程部執行副總裁 Kevork Kechichian就此報告同集微網等在內的媒體進行了交流和分享。
在Arm看來,生態上的廣泛合作、系統層面的整體優化、接口等標準化策略,模塊化定制化的設計方向以及靈活且強大的安全框架,將是AI時代芯片設計的成功之道。
能效已成關注首選項
近年來,全球范圍內掀起的AI算力競賽,成為AI時代最顯著的注腳。計算工作負載的規模與復雜性持續提升,從訓練龐大模型到執行多步驟推理,都伴隨大量的電力與能源消耗。
與此同時,大量資金也投入其中,LessWrong網站對幾大AI巨頭的GPU/TPU數量進行估算,預計到2025年,微軟、谷歌、Meta、亞馬遜和xAI所擁有GPU的等效H100數量將超過1240萬塊,價值數千億美元。
根據波士頓咨詢公司數據顯示,預計到2030年,美國數據中心電力消耗將占全美用電總量的7.5%(約 3900 億千瓦時),相當于約4000萬美國家庭年用電總量,接近全美家庭總數的三分之一。
顯然,這種通過成千上萬設備算力堆砌,耗時數月進行訓練的“蠻力式”發展路徑在經濟上難以為繼。而在空間和功耗更加受限的小型終端上,對于能耗的需求也同樣如此。由此催生出對于更加智能更高能效的芯片解決方案的迫切需求。
因此,能效和功率管理已經成為推動AI計算以及芯片設計的首要關注點,這主要涉及三方面的因素:
一是計算。由于AI依賴于大量乘積累加運算,芯片中通常需要集成高能效的計算架構。
二是數據傳輸。多數情況下計算輸出的結果需要在芯片其他組件中進一步處理,因此需要優化組件之間的數據傳輸和通信流程。
三是冷卻。計算和內存單元合封等高性能芯片普遍采用的封裝方式,可以最小化延遲和電力損耗,但卻也帶來了散熱方面的挑戰,需要對應配備高效的冷卻方案。
總結而言,芯片設計正在整合優化的內存層次結構、系統設計通信機制等方案減少了數據傳輸,同時借助芯片堆疊、HBM以及先進封裝等技術,最大程度地降低剩余數據傳輸過程中的能耗,輔以成熟的電源管理技術,降低能耗,維持高能效的表現。
芯片設計中的能耗降低越來越成為一項系統性工程,在談及如何降低能耗的同時,平衡算力和能效時,Kevork Kechichian給出了他的見解:
首先,從最底層如晶體管層開始,與晶圓代工廠緊密合作,確保晶體管在功耗和性能方面實現優化,無論是動態功耗還是漏電功耗;其次是架構層面,對CPU以及各類處理引擎的指令集進行針對性優化;第三從系統級芯片(SoC)設計、封裝到數據中心等層面進行優化。在此過程中,關鍵要點在于對數據及其傳輸過程的保護,降低在內存之間傳輸數據所消耗的電力;最后,在支撐大型數據中心運行的軟件層,實現智能負載均衡,即針對AI的不同方面進行處理上的優化,合理分配工作負載,盡可能減少不同節點之間的數據傳輸。
標準化建設勢在必行
傳統縮放技術的終結,使得先進封裝技術成為后摩爾定律時代芯片演進的重要方向之一,由此推動了Chiplet(芯粒)等技術的發展,該技術通過多個半導體晶粒(Die)的堆疊和互連,實現性能和能效的提升。
Chiplet為芯片設計帶來了新的思路和優勢。比如,某些場景下,芯片廠商無需重新設計產品,只需添加更多芯粒以增加算力和性能,甚至可以升級現有芯粒,針對特定功能對不同組件實現優化。同時,能夠實現更靈活的差異化設計方案,降低成本加速研發,更快將產品推向市場。此外,也有助于提升良率,以及在不同產品之間實現更高的復用潛力等。
然而,這些優勢背后也存在諸多挑戰,能耗問題首當其沖。比如,當SoC的組件分散在多個晶粒上時,電源供給會變得更加復雜。3D堆疊雖然提高了功率密度,但同時也帶來供電與熱管理方面的挑戰。此外,芯粒之間的接口還引發了關于延遲控制、功耗管理以及能效優化等諸多考量。
Kevork Kechichian指出,解決上述挑戰需要行業緊密合作,制定新的協作協議,推動成果的復用,從而為企業創造更多商業價值。這一過程中,標準化建設非常重要。而作為推動芯粒發展的領先企業,Arm已在整個技術生態系統內展開合作,借助通用框架和行業標準來加速芯粒市場的發展。
“先進封裝與芯粒技術的真正價值在于實現設計與接口的真正標準化,這涉及從封裝廠的集成,一直到在系統中不同芯粒之間進行通信的全過程。因此,與合作伙伴就標準化問題達成共識至關重要。通過標準化,企業可以根據不同的性能需求,快速地組合和配置這些芯粒,從而打造出具有不同性能定位的芯片,確保在快速迭代的市場競爭中占據先機。”Kevork Kechichian說。
在此背景下,Arm推出了芯粒系統架構 (Chiplet System Architecture, CSA),致力于對各個芯粒之間及在整個系統內的通信方式等多個方面實現標準化。此外,Arm還攜手合作伙伴共同推動AMBA CHI芯片到芯片互連協議等倡議的落地實施,確保來自不同供應商的不同芯粒通過一個統一的接口協議實現芯粒之間的互操作性。
“過去,標準化常被視為放棄自身的IP或競爭優勢。但如今,鑒于系統的高度復雜性以及合作模式的演變,標準化變得尤為重要——所有參與方都將從中獲得多重益處。”Kevork Kechichian強調。
定制化的顯著優勢
芯粒等技術的發展,為定制化芯片的崛起鋪平了道路。如今,定制化芯片正展示出強大的市場需求。
為實現更高效的AI計算,并與自身業務實現更緊密的結合,塑造差異化競爭力。如今,幾乎所有的半導體行業從業者都在探索和投資定制芯片,特別是全球四大超大規模云服務提供商,他們在 2024 年全球云服務器采購支出中占了近半數的份額。
例如,AWS Graviton4是基于Arm技術打造的定制芯片解決方案,專為加速數據中心和 AI 工作負載而設計,該解決方案實現了性能與能效的顯著提升。2023 年,微軟發布了其首款為云服務定制的芯片Microsoft Azure Cobalt,該芯片基于 Arm Neoverse 計算子系統 (CSS) 打造,旨在應對復雜的計算基礎設施挑戰。最近,Google Cloud也發布了其基于Arm Neoverse 平臺的Axion定制芯片,專為應對數據中心復雜的服務器工作負載而設計。
通過經過驗證的核心計算功能以及靈活的內存與 I/O 接口配置,Arm Neoverse CSS 加快了產品上市進程,帶來顯著的優勢。它在確保軟件一致性的同時,為SoC設計人員提供了靈活性,使其能夠基于CSS周圍新增定制子系統,以打造差異化的解決方案。
除超大型云服務商外,許多中小企業也在積極研發專屬定制芯片解決方案,以應對日益復雜的計算需求。在Arm技術和英特爾代工服務 (IFS) 的支持下,芯片設計技術提供商智原科技正在開發面向數據中心和先進 5G 網絡的 64 核定制 SoC。此外,韓國的 AI 芯片公司 Rebellions 也宣布打造新的大規模 AI 芯片平臺,用以提升AI 工作負載的能效表現。
對于如何平衡定制芯片中,個性化與通用性之間的關系,以及開發成本較高的問題。Kevork Kechichian表示,關鍵在于確保芯片與軟件具備高度的可復用性,首先底層平臺必須具備一定的通用性,才能確保不同定制芯片之間實現一定程度的相互復用,從而有效應對成本與產品上市時間所帶來的挑戰。
其次,對于開發成本,Kevork Kechichian表示,這既涉及研發人力,也涉及大量計算資源。為此,Arm已探索出多種能夠有效降低開發投入的方法,顯著縮短合作伙伴產品上市周期。
“最基礎的方法是從平臺的角度出發,識別可復用的模塊與資源,并確保定制工作是在已有基礎上進行,無需一切從零開始。我們需要充分評估現有的資源,并在此基礎上構建定制化產品。正是基于這種方式,Arm與SoC及各類IP提供商密切合作,將解決方案交付給我們的合作伙伴。”Kevork Kechichian說。
Arm:推動AI革新
如上所述,無論是能效、還是先進封裝,以及定制化的趨勢,現代芯片設計的復雜性,越來越需要系統性的思維,需要IP提供商、晶圓代工廠、封裝廠與系統集成商之間建立更加緊密的合作關系。這對于處于產業生態基石層面的Arm而言,更加具有優勢。
此外,Arm憑借其在技術積累和創新方面的優勢,也使其在AI時代產業中的地位愈發凸顯。
一方面,隨著AI的崛起,尤其是生成式AI和大語言模型的廣泛應用,市場對專用AI加速器的需求愈發迫切。以數據中心領域的工作負載為例,其對算力有著極為嚴格的嚴格要求,需要專用硬件才能實現高效運行。
另一方面。面對支撐這些新型工作負載所必須的強大主處理器的根本需求。無論加速器是GPU,還是谷歌TPU,微軟Maia,還是AWS Tranium和Inferentia等定制加速器,都必須有出色的主處理器來發揮AI加速器的計算潛力。
如今,處理器架構已成為決定AI系統能效與性能的關鍵要素。憑借創新性、定制化與高能效的獨特優勢,Arm已成為這一領域的關鍵力量,具體而言,Arm計算平臺的靈活性體現在三個方面,將有效支持AI創新。
一是異構計算:基于Arm架構的CPU正成為GPU和TPU等AI加速器的理想配套處理器,既能高效管理數據流和通用計算任務,又能應對工作中遇到的瓶頸,支持不同類型的工作負載。上述所有處理器都可以作為AI推理的處理引擎,部署到Arm合作伙伴所開發的SoC中。
二是推理效率:雖然大型AI模型的訓練通常有賴于高性能GPU,但Arm的高能效處理器非常適合在端側和數據中心執行推理任務。
三是可擴展性:Arm架構支持CPU、GPU與專用加速器的無縫集成,這對于打造優化的AI系統至關重要,也有助于讓Arm合作伙伴的硬件和軟件開發工作變得更輕松。
Arm的解決方案聚焦于現代 AI計算的以下三大關鍵領域:
一是持續創新:Arm 定期發布新 CPU 架構及支持功能,專注于推動定制芯片發展能夠順應不斷演進的AI工作負載的需求。二是定制化潛力:隨著 AI 模型在復雜度和規模上的不斷增長,Arm架構的靈活性使其能夠針對特定AI任務打造專用解決方案。三是出色的能效:基于 Arm 架構處理器的高能效特性,使其在管理大規模 AI 部署的總擁有成本(TCO) 方面愈發凸顯價值。
機遇:從數據中心到邊緣AI
由于Arm在芯片設計流程中扮演著重要角色,AI時代的到來為其提供了更多機遇。
如今,AI PC、AI手機等各種AI類的終端設備如雨后春筍般不斷涌現,隨著移動設備計算能力的不斷提升,邊緣AI處理正變得日益普遍。這主要得益于那些專為功耗受限環境設計的芯片,能夠在移動設備等終端上運行多種AI工作負載。低延遲、隱私、成本……邊緣AI的優勢對于實現更快速的AI體驗至關重要。
同時,伴隨著如DeepSeek等高效AI模型的出現,也推動了AI向邊緣推移。例如,Arm與Meta的優化合作使得Meta Llama 3.2大語言模型能夠快速實現在基于Arm架構的移動設備上運行。可讓提示詞處理速度提高五倍,詞元(token)生成速度提高三倍,在生成階段實現每秒19.92個詞元。這直接減少了在設備上處理 AI工作負載的延遲,大大提升了用戶整體體驗。此外,當邊緣側能處理的 AI工作負載越多,往返云端傳輸數據所節省的電量就越多,進而節省了能源和成本。
此外,憑借創新性、定制化與高能效的獨特優勢,Arm已成為數據中心架構的關鍵力量。工作負載的持續演進、技術的快速創新,以及AI 需求的日益增長,共同推動了Arm架構在數據中心領域持續發揮關鍵作用,與此同時,也推動了像微軟、亞馬遜云科技(AWS)和Google這樣的全球超大規模云服務提供商日益依賴基于Arm架構的定制芯片解決方案。盡管x86處理器仍將扮演重要角色,但轉向Arm架構解決方案的勢頭正在不斷加速。
Arm高級副總裁兼基礎設施事業部總經理Mohamed Awad此前曾表示,據預計,2025年出貨到頭部超大規模云服務提供商的算力中,將有近50%是基于Arm架構。屆時,Arm從移動設備邁向數據中心核心領域的征程,也將抵達一個關鍵里程碑。這預示著一個全新時代的到來——一個以多樣化、高能效、高度定制化的計算解決方案來滿足數字時代持續演進需求的時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.