如果您希望可以時常見面,歡迎標星收藏哦~
來源:內容 編譯自 google ,謝謝。
今天,在 Google Cloud Next 25 大會上,谷歌隆重推出第七代張量處理單元 (TPU) Ironwood。它是我們迄今為止性能最高、可擴展性最強的定制 AI 加速器,也是首款專為推理而設計的加速器。十多年來,TPU 一直為 Google 最苛刻的 AI 訓練和服務工作負載提供支持,并助力公司的云客戶實現同樣的目標。Ironwood 是谷歌迄今為止性能最強大、性能最強、能效最高的 TPU。它專為大規模支持思考和推理 AI 模型而設計。
Ironwood 代表著人工智能及其發展基礎設施的重大轉變。它代表著從提供實時信息供人類解讀的響應式人工智能模型,到能夠主動生成洞察和解讀的模型的轉變。這就是我們所說的“推理時代”,屆時人工智能代理將主動檢索和生成數據,以協作方式提供洞察和答案,而不僅僅是數據。
Ironwood 旨在支持生成式人工智能的下一階段發展及其巨大的計算和通信需求。它可擴展至 9216 個液冷芯片,并通過突破性的芯片間互聯 (ICI:Inter-Chip Interconnect) 網絡連接,功率接近 10 兆瓦。它是Google Cloud AI 超級計算機架構的幾個新組件之一,該架構可協同優化硬件和軟件,以應對最苛刻的人工智能工作負載。借助 Ironwood,開發者還可以利用 Google 自己的Pathways軟件堆棧,可靠、輕松地利用數萬個 Ironwood TPU 的綜合計算能力。
下面我們將詳細介紹這些創新如何協同工作,以無與倫比的性能、成本和功率效率承擔最苛刻的培訓和服務工作負載。
Ironwood 的主要特點
Google Cloud 是唯一一家擁有十多年 AI 計算經驗的超大規模提供商,致力于支持尖端研究,并將其無縫集成到 Gmail、搜索等數十億用戶的日常服務中。所有這些專業知識構成了 Ironwood 的核心功能。其主要功能包括:
1. 性能顯著提升的同時,更注重能效,使 AI 工作負載能夠更經濟高效地運行。Ironwood的每瓦性能是公司去年發布的第六代 TPU Trillium 的兩倍。在可用功率成為 AI 功能交付制約因素之一的當下,谷歌為客戶工作負載提供了顯著更高的每瓦容量。谷歌先進的液冷解決方案和優化的芯片設計,即使在持續繁重的 AI 工作負載下,也能可靠地維持高達標準風冷兩倍的性能。事實上,Ironwood 的能效幾乎是我2018 年推出的首款云 TPU 的 30 倍。
2. 高帶寬內存 (HBM) 容量大幅提升。Ironwood每芯片容量高達 192 GB,是 Trillium 的 6 倍,能夠處理更大的模型和數據集,減少頻繁數據傳輸的需求,并提升性能。
3. 顯著提升 HBM 帶寬,單芯片高達 7.2 TBps,是 Trillium 的 4.5 倍。如此高的帶寬確保了快速的數據訪問,這對于現代 AI 中常見的內存密集型工作負載至關重要。
4. 增強芯片間互連 (ICI) 帶寬。雙向帶寬提升至 1.2 Tbps,是 Trillium 的 1.5 倍,從而實現更快的芯片間通信,促進大規模高效分布式訓練和推理。
據nextplatform介紹,TPU v7p 芯片是谷歌首款在其張量核心和矩陣數學單元中支持 FP8 計算的 TPU。之前的 TPU 支持 INT8 格式和推理處理,以及 BF16 格式和訓練處理。Ironwood 芯片還配備了第三代 SparseCore 加速器,該加速器首次亮相于 TPU v5p,并在去年的 Trillium 芯片中得到了增強。SparseCore 芯片最初的設計目的是加速推薦模型,這些模型利用嵌入來跨用戶類別進行推薦。Ironwood 芯片中的第三代 SparseCore 芯片中編碼了各種算法,以加速金融和科學計算,但具體細節尚未透露。
從圖中我們可以看到, Ironwood 封裝的中心有兩個芯片組,這讓我們相信它不像之前的 TPU 那樣是單片式的。在我們看來,這些芯片的組合看起來比標線極限要大一些。它有 8 個 HBM 內存組,每側 4 個,如果今年出貨,估計是 HBM3E。這意味著每個堆棧有 8 個 DRAM 單元,每個 3 GB,總共 24 GB。
Iron Word 封裝包含一個位于計算芯片上方的中央芯片組,以及位于內存條上方沿頂部邊緣的另外兩個芯片組。這些無疑是用于芯片間互連 (ICI) 的 I/O 芯片,谷歌利用 ICI 將 TPU 芯片電連接到各個 Pod。更大的 TPU 聚合體則通過谷歌的“Jupiter”光路交換機進一步連接在一起。
Iron Word 的外觀如下:
與之前的 TPU 設計一樣,系統板上有四個 Ironwood TPU。我們正在努力弄清楚主板上所有這些芯片的具體結構。我們覺得 TPU 系統板插在背板上,主機服務器中可能有兩個這樣的 TPU,主機 CPU 也可能是其中之一,而主機 CPU 目前可能是谷歌自己的 Axion Arm 服務器 CPU。Pod 中有一些網絡接口用于連接 TPU。
Ironwood TPU 有兩種不同的配置:一種是適用于推理的 256 個計算引擎的 Pod,另一種是適用于訓練的 9,216 個計算引擎的 Pod。(如果您的推理任務非常龐大,我們認為它可以在更大的 Pod 上運行。)TPU Pod 采用 2D 或 3D 環面拓撲結構的 ICI,具體取決于規模。以下是前兩代采用更具可擴展性的 3D 環面拓撲結構的 TPU Pod 以及即將推出的 Ironwood Pod 的外觀:
Ironwood TPU v7p 的 pod 尺寸比上一代 TPU v5p pod 增加了 2.85%,雖然不算多,但還是值得一試。在相同的 BF16 分辨率下,TPU v7p 芯片的 AI 訓練性能比 TPU v5p 提升了 5 倍,使用 INT8 或 FP8 數據類型的推理性能也同樣提升。(我們不確定是否存在 INT8 數據類型,但出于向下兼容的考慮,我們推測應該存在。)對于 AI 訓練而言,FP8 數據類型可將訓練吞吐量翻倍,因此比 TPU v5p 中使用的 BF16 提高了 10 倍。Ironwood 封裝的 HBM 內存容量提高了 2 倍,內存帶寬也提高了 2.7 倍。
新芯片上的 ICI 互連帶寬提高了 12%,鏈路減少了三分之一,其中 TPU v7p 有四個 ICI 鏈路,運行速度為 1.34 Tb/秒,TPU v5p 有六個端口,運行速度為 800 Gb/秒。
以下是我們整理的更完整的 TPU 顯著特性表,我們盡力填補了空白:
如上圖所示,我們已盡力估算缺失數據,這些數據以紅色粗斜體顯示。我們還查閱了 TPU 手冊,并盡可能更新了 Trillium TPU v6e 的數據。順便說一句,谷歌正在與 Trillium 進行大量比較,Trillium 在 AI 推理方面表現不錯,但如果要比較 AI 訓練,那么 TPU v5p 是更佳的基準。
于AI訓練而言,以下幾點至關重要。搭載8960個計算引擎的TPU v5p pod在INT8分辨率下推理性能最高可達8.22 exaflops,在BF16分辨率下訓練性能最高可達4.11 exaflops(僅為其一半)。最大的Ironwood pod擁有9216個計算引擎,在FP8(可能也包括INT8)下性能最高可達42.52 exaflops,在BF16分辨率下訓練性能最高可達21.26 exaflops。這意味著單個系統鏡像的性能提升了5.17倍。通過OCS切換,谷歌可以在單個數據中心內整合10萬個TPU v7p計算引擎,就像它已經在Trillium TPU v6e設備上所做的那樣。
我們不知道谷歌會如何定價 Ironwood 的容量。不過,我們肯定會盡快通知您。以上價格和相對性價比是去年夏天的。
谷歌喜歡將其與 TPU v2 進行比較,后者是其首款能夠同時進行訓練和推理的自主研發 AI 引擎,早在 2017 年 5 月就已發布。基于 TPU v2 的計算能力在當年第三季度即可出租。當然,谷歌本身并不出售 TPU 或基于 TPU 的系統,也不允許第三方出售。
性能提升 3600 倍,每瓦性能提升 29.3 倍,這看起來令人印象深刻,而且在耗電 10 兆瓦的 Ironwood 大型機上實現如此高的性能似乎也情有可原。但我們需要做一些研究,才能弄清楚它與 Nvidia 系統相比如何。(這取決于你如何稱呼加速器內存域。)
我們很想知道 Google 安裝了多少 TPU 容量,Trillium 和 Ironwood 的安裝計劃是什么,以及分配給 Google 內部使用和云用戶使用的 TPU 容量各占多少。
Ironwood,助力推理時代
據谷歌所說,Ironwood 旨在優雅地管理“思維模型”的復雜計算和通信需求,這些模型涵蓋大型語言模型 (LLM)、混合專家模型 (MoE) 和高級推理任務。這些模型需要大規模并行處理和高效的內存訪問。具體而言,Ironwood 旨在在執行大規模張量操作的同時最大限度地減少芯片上的數據移動和延遲。在前沿領域,思維模型的計算需求遠遠超出了任何單個芯片的容量。我們設計了具有低延遲、高帶寬 ICI 網絡的 Ironwood TPU,以支持全 TPU Pod 規模的協調同步通信。
對于 Google Cloud 客戶,Ironwood 根據 AI 工作負載需求提供兩種尺寸:256 芯片配置和 9,216 芯片配置。
當每個 pod 擴展至 9,216 塊芯片,總計算能力達 42.5 百億億次浮點運算 (Exaflops) 時,Ironwood 支持的計算能力是全球最大超級計算機 El Capitan 的 24 倍以上,而后者每個 pod 的計算能力僅為 1.7 百億億次浮點運算 (Exaflops)。Ironwood 可提供處理最苛刻的 AI 工作負載所需的強大并行處理能力,例如超大規模密集 LLM 或具有訓練和推理思維能力的 MoE 模型。每個芯片的峰值計算能力可達 4,614 TFLOPs。這代表著 AI 能力的巨大飛躍。Ironwood 的內存和網絡架構確保始終提供正確的數據,以支持如此大規模的峰值性能。
Ironwood 還配備了增強版SparseCore,這是一款專用加速器,用于處理高級排名和推薦工作負載中常見的超大嵌入。Ironwood 中擴展的 SparseCore 支持可以加速更廣泛的工作負載,包括從傳統的 AI 領域擴展到金融和科學領域。
Pathways 是 Google 自有的機器學習運行時,由 Google DeepMind開發,能夠跨多個 TPU 芯片實現高效的分布式計算。Google Cloud 上的 Pathways 讓超越單個 Ironwood Pod 的遷移變得簡單,能夠將數十萬個 Ironwood 芯片組合在一起,從而快速推進新一代人工智能計算的前沿技術。
“Ironwood 代表著推理時代的獨特突破,它提升了計算能力、內存容量、ICI 網絡的進步和可靠性。這些突破,加上近兩倍的能效提升,意味著我們最苛刻的客戶能夠以最高的性能和最低的延遲完成訓練和服務工作負載,同時滿足計算需求的指數級增長。Gemini 2.5 和諾貝爾獎得主 AlphaFold 等領先的思維模型如今都在 TPU 上運行。我們迫不及待地想看到 Ironwood 在今年晚些時候正式發布后,由我們的開發者和 Google Cloud 客戶帶來哪些 AI 突破。”谷歌總結說。
https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
https://www.nextplatform.com/2025/04/09/with-ironwood-tpu-google-pushes-the-ai-accelerator-to-the-floor/
半導體精品公眾號推薦
專注半導體領域更多原創內容
關注全球半導體產業動向與趨勢
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4090期內容,歡迎關注。
『半導體第一垂直媒體』
實時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小伙伴哦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.