▲ 更多精彩內容 請點擊上方 藍字 關注我們吧!
一年一度的Hot Chips來了,今年的重點依然是AI與大模型,今年巨頭們都各顯神通,最終的目標都是一個——圍攻英偉達。
付斌丨作者
電子工程世界(ID:EEworldbbs)丨出品
IBM:在片上集成DPU,提升IO處理能力
Hot Chips上,IBM宣布推出針對AI時代的下一代企業計算產品,包括全新Telum II處理器和Spyre AI加速器,預計這兩款芯片都將于2025年上市。
首先,是Telum II處理器。早在2021年,IBM就推出了第一代的Telum處理器,當時就采用了全新的核心構架,并針對AI加速優化,采用三星7nm制程技術,核心面積530mm2,225億個晶體管,8核心16線程,主頻超過5GHz。
這次推出的第二代的Telum,采用更先進的三星5nm HPP制程技術制造,核心面積為600mm2,430億個晶體管,雖然像其前身一樣是一個八核芯片,但在新芯片中,它們以更高的5.5GHz時鐘速度運行。有10個36 MB的2級緩存,L3和L4分別增長到360 MB和2.88 GB,這意味著緩存大小增加了40%;內部集成全新I/O加速單元DPU,接在L2Cache上,而不是放在PCIe總線后面,提高了50%的I/O密度來優化數據處理。
在阿姆達爾定律和登納德縮放比例定律雙雙失效的如今,處理器一直徘徊在5GHz,也成了一個分水嶺。而這款產品則達到了5.5GHz,性能有了大幅度提升。
其次,是Spyre AI加速器,它采用基于三星5nm LPE制程技術,核心面積330mm2,260億個晶體管,擁有32個計算核心,與Telum II整合的AI內核擁有類似構架,整體算力超過300TOPS,適用于低延遲和高吞吐量AI應用。每個計算核心擁有2MB緩存,擁有超過55%的有效TOPS利用率。內存方面,支持LPDDR5。
微軟:也想逆天改命
在Hot Chips上,Microsoft分享了Maia 100的規范,Maia 100是Microsoft第一代自定義 AI加速器,專為Azure中部署的大規模AI工作負載而設計。Maia 100系統垂直集成以優化性能和降低成本,包括一個平臺架構,該架構具有帶有定制機架的定制服務器板和一個軟件堆棧,旨在提高Azure OpenAI服務等服務上高級AI功能的性能和成本效率。
Maia 100加速器專為各種基于云的AI工作負載而構建。該芯片的尺寸為~820mm2,采用臺積電的N5工藝和COWOS-S中介層技術。Maia 100的標線大小的SoC裸片配備大型片上SRAM,結合四個HBM2E裸片,可提供每秒1.8 TB的總帶寬和64 GB的容量,以滿足 AI級數據處理要求。
Maia 100旨在支持高達700W的TDP,但配置為500W,可以提供高性能,同時根據其目標工作負載高效管理電源。
不難猜想, 主要應該是應用于OpenAI的推理業務,軟件方面做得很不錯,能夠用一行代碼對Maia執行PyTorch模型,高密部署、標準以太網融合ScaleUP、ScaleOut都不錯, 但用RoCE就需要配備額外的Tile控制器, 和Intel Gaudi3要一個中斷管理器一樣的缺點。
FuriosaAI:低調宣布全新AI芯片
Hot Chips上,FuriosaAI推出全新的AI加速器RNGD,專為數據中心的高性能、高效大型語言模型 (LLM) 和多模態模型推理而設計。
RNGD具有150W的TDP、新穎的芯片架構和HBM3等高級內存技術,針對要求苛刻的LLM和多模態模型的推理進行了優化。
Furiosa在收到臺積電代工的第一顆芯片三周后,提交了第一個MLPerf基準測試結果。然后,使用編譯器增強功能,在6個月后的下一次MLPerf提交中實現了113%的性能提升。總之,就是榨干了芯片每一滴性能。
在運行 GPT-J 6B 模型時,單個RNGD每秒生成大約12個查詢,隨著未來幾周和幾個月內改進軟件堆棧,預計這個數字會增加。
從目前的性能來看,可以在很低的TDP下實現不錯的性能,還是很強大的。不過,到目前為止,Furiosa 一直刻意保持低調,因為他們知道該行業不需要對尚不存在的事物進行更多的炒作和大膽承諾。
英偉達:Blackwell確實有良率問題
月初,關于Blackwell可能因設計挑戰而推遲發布的傳聞,一度在業界引起軒然大波。而在最近,英偉達承認其即將推出的基于Blackwell的產品良率低,這要求該公司重新設計B200處理器的某些層以提高良率。英偉達表示將在2024年第四季度提高 Blackwell 的產量,并將在今年最后一個季度出貨價值數十億美元的Blackwell GPU。“我們對Blackwell GPU掩碼進行了更改以提高生產良率。”英偉達的一份聲明中寫道。
Hot Chips期間,英偉達也展示了Blackwell的更多細節。B200 GPU芯片采用臺積電定制的4nm工藝制造,集成2080億個晶體管;NVLink-C2C技術被用于Blackwell架構中的芯片級整合;為實現GPU間無縫通信,NVIDIA推出NVSwitch,使得服務器內的每一個GPU都能以1.8 TB/sec的速度與其他GPU進行通信,使得Blackwell平臺能夠支持更大規模的語言模型,如GPT-MoE-1.8T等,滿足實時推理和訓練的需求;使用NVIDIA高帶寬接口(NV-HBI)在兩個GPU芯片之間提供高達10TB/s的雙向帶寬連接;此外,NVIDIA在Blackwell平臺上原生支持FP4(四精度浮點數)和FP6(六精度浮點數)格式。
性能方面,官方給出的性能方面一個參考數據:Llama 3.1 700億參數大模型的AI推理性能GB200對比H200提高了1.5倍。不過,這個犧牲功耗來實現的。
Blackwell B200單顆芯片功耗高達1000W,一顆Grace CPU和兩顆Blackwell GPU組成的超級芯片GB200更是達到了可怖的2700W。而過去,Hopper的H100、H200 GPU功耗都是700W,H20則只有400W,Grace+Hopper則是1000W。比較下來,GB200的功耗比上一代GH200大幅提升了1.7倍,但性能好像是沒有跟上,具體還需要英偉達的進一步披露。
英特爾:布局很前沿的AI技術
大家都知道,最近英特爾有點難受,很多產品也沒有趕上好的時間節點,還適逢13、14代酷睿大爭議。不過英特爾走得還是很穩固的,一直在布局很遠的技術。
Hot Chips上,英特爾發表四篇技術論文,重點介紹英特爾至強6系統集成芯片、Lunar Lake客戶端處理器、英特爾Gaudi 3 AI加速器以及OCI(光學計算互連)芯粒。
英特爾至強系列一直在強調AI性能,至強6則會成為英特爾迄今為止針對邊緣場景優化程度最高的處理器,屬于是英特爾瘋狂疊buff了,包括:Intel 4制程工藝、新的媒體加速功能、高級矢量擴展和高級矩陣擴展(AMX)可提高推理性能、英特爾快速輔助技術(QAT)可實現能效更高的網絡和存儲性能、英特爾vRAN Boost可降低虛擬化RAN的功耗、支持英特爾Tiber邊緣平臺。總之,就是瘋狂堆料,自帶超強AI推理性能。
Lunar Lake則持續布局AI PC。其性能也有大幅度提升,包括新的性能核(P核)和能效核(E核),使SoC功耗相比上一代最多降低40%。新的神經網絡處理單元(NPU)速度提升4倍。全新的Xe2圖形處理單元核心將游戲和圖形性能提高了1.5倍。
Guadi 3專門針對AI推理,比英偉達更便宜更強大,更多細節還有待披露。光學計算互連(OCI)芯粒則用于XPU之間的連接,傳輸速度高達4 Tbps。
AMD:英偉達最大對手
上周,AMD剛剛下重金,收購了ZT Systems公司,后者正是微軟Azure MI300X平臺的制造商,引發了行業關注。
作為英偉達GPU最大競爭對手,AMD Instinct MI300X是目前除NVIDIA GPU之外,唯一在人工智能行業達到年運行率數十億美元的GPU。
Hot Chips上,AMD展示了Instinct MI300X的一些細節。AMD Instinct MI300X的架構相當復雜,集成了192MB的高帶寬內存三代(HBM3)、用于計算的小芯片(chiplets)以及其他組件。不僅有192GB的HBM3,還有256MB的Infinity緩存,以及8個4MB的L2緩存等高級特性。MI300X支持單一分區運行,也可在不同的內存和計算分區模式下運行。
Instinct MI300X與NVIDIA H100平臺相比非常有競爭力,并且使用預計將在第四季度發布的AMD最新的服務器CPU EPYC“Turin”,它將擁有進一步的收益。
MI300X是AMD在2023年的設計,它正與H100競爭,預計不久的將來,雙方都將被具有更高內存容量的版本所取代。盡管如此,AMD已在數十億美元級別的產品線中穩固了其作為AI GPU市場的第二名位置,僅次于英偉達。更多未來的產品信息,可能要等到第四季度才會揭曉。
Cerebras:推理1800 token/秒,全球最快
Cerebras是一家很有意思的公司,這家公司不追求小型化,只追求大——晶圓有多大,我就造多大芯片,也就是晶圓級芯片。這家公司也在Hot Chips正式踏足AI推理領域。
曾造出世界最大芯片公司Cerebras,就在Hot chips上發布了全球最快的AI推理架構——Cerebras Inference。
按照傳統的認知,在現代生成式AI工作負載中,推理性能通常是內存帶寬的函數,而不是計算函數。因此,在高帶寬內存(HBM)中穿梭位的速度越快,模型生成響應的速度就越快。
不過,Cerebra打破了這種思維,他們和Groq一樣,選用了SRAM,基于之前宣布的WSE-3處理器,在上面封裝了一個44GB的SRAM,實現了21 PBps的帶寬。對比起來,單個Nvidia H200的HBM3e僅擁有4.8TBps的帶寬。
其在運行Llama3.1 8B時,它能以1800 token/s的速率吐出文字。以往,微調版Llama3.1 8B推理速度為90 token/s。而現在,直接從90 token/s躍升到1800 token/s,這種生成的速度人眼都跟不上了。
它的算力在大參數量下表現也非常強勁:當運行分布在四個CS-3加速器上的700億參數版本Llama 3.1(70B)時,每秒可處理450個token。相比之下,H100最佳速度是每秒128個token。
值得一提的是,Cerebras并沒有因為提高LLM速度,而損失精度。測試中,使用Llama3.1模型皆是采用了Meta原始16位權重,以便確保響應高精度。
參考文獻
[1]https://www.theregister.com/2024/08/27/cerebras_ai_inference/
[2]https://www.theregister.com/2024/08/27/ibm_telum_ii_mainframes/
[5]
[6]https://techcommunity.microsoft.com/t5/azure-infrastructure-blog/inside-maia-100-revolutionizing-ai-workloads-with-microsoft-s/ba-p/4229118
[7]
[8]https://www.techpowerup.com/325975/furiosaai-unveils-rngd-power-efficient-ai-processor-at-hot-chips-2024
歡迎將我們設為“星標”,這樣才能第一時間收到推送消息。
免費領取電池管理系統BMS資料專輯!
掃碼添加小助手回復“進群”
和電子工程師們面對面交流經驗
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.