99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

反英偉達聯盟的里程碑,UA Link 1.0:正式發布

0
分享至

如果您希望可以時常見面,歡迎標星收藏哦~

在很早之前,我們就報道了UAlink。

該聯盟于2024 年 5 月由一群供應商成立,其中包括 AMD、AWS、博通、思科、谷歌、HPE、英特爾、Meta、微軟和 Astera Labs,他們認為世界需要一個 Nvidia NVLink 技術的開放替代方案,以允許創建運行大規模 AI 工作負載所需的聯網 GPU 集群。


UALink 的會員們希望創建一個更便宜的替代方案,他們可以自行控制和部署超大規模,或者通過創建我們其他人購買的硬件從中獲利。他們還認為,世界已經準備好迎接一種可應用于多個供應商的 GPU 的網絡標準,而不需要用戶為每個加速器供應商創建專用的網絡孤島。為了實現這些目標,UAC 還希望在大多數組織已經運營的以太網網絡上開展工作。

在此前的文章中,我們對此有了深入的描述。

現在,這個標準的第一個版本,終于正式發布。

UALink 1.0:連接1024個GPU,帶寬200 GT/s

據官方介紹,這個名為UALink 200G 1.0 的規范定義了 AI 計算艙中加速器和交換機之間通信的低延遲、高帶寬互連。UALink 1.0 規范支持 AI 計算艙內最多 1024 個加速器實現每通道 200G 的擴展連接,為下一代 AI 集群性能提供開放標準互連。

UALink 聯盟董事會主席 Kurtis Bowman 表示:“隨著對 AI 計算的需求不斷增長,我們很高興能夠提供一項必不可少的開放行業標準技術,使下一代 AI/ML 應用能夠推向市場。UALink 是唯一一款針對擴展 AI 的內存語義解決方案,它針對降低功耗、延遲和成本進行了優化,同時增加了有效帶寬。UALink 200G 1.0 規范帶來的突破性性能將徹底改變云服務提供商、系統 OEM 和 IP/芯片提供商處理 AI 工作負載的方式。”

UALink 為加速器創建了一個交換機生態系統,為新興的 AI 和 HPC 工作負載提供關鍵性能支持。它使用讀取、寫入和原子事務實現跨系統節點的加速器到加速器通信,并定義了一組協議和接口,從而為 AI 應用程序創建多節點系統。

英特爾公司網絡和邊緣事業部高級副總裁兼總經理Sachin Katti在談到這個新標準的時候表示:“UALink 是人工智能計算發展的重要里程碑。英特爾很自豪能夠共同領導這項新技術,并利用我們的專業知識來創建開放、動態的 AI 生態系統。作為這個新聯盟的創始成員,我們期待通過 UALink 標準帶來新一波行業創新和客戶價值。這一舉措擴大了英特爾對 AI 連接創新的承諾,包括在超級以太網聯盟和其他標準機構中擔任領導角色。”

UALink 為加速器創建了一個交換機生態系統,為新興的 AI 和 HPC 工作負載提供關鍵性能支持。它使用讀取、寫入和原子事務實現跨系統節點的加速器到加速器通信,并定義了一組協議和接口,從而為 AI 應用程序創建多節點系統。

據聯盟總結說,UALink 的主要優勢包括以下幾點:

1

高性能

  • 為一個艙內的數百個加速器提供低延遲、高帶寬的互連;

  • 提供簡單的加載/存儲協議,具有與以太網相同的原始速度和 PCIe 交換機的延遲;

  • 專為實現 93% 有效峰值帶寬的確定性性能而設計;

2

低功耗

實現高效的開關設計,降低功耗和復雜性;

3

成本效益


  • 使用明顯更小的芯片面積進行鏈路堆棧,降低功耗和采購成本,從而降低總擁有成本 (TCO);

  • 提高帶寬效率可進一步降低 TCO;

4

開放、標準化

  • 多家供應商正在開發 UALink 加速器和交換機;

  • 利用成員公司的創新來將尖端功能納入規范并將可互操作的產品推向市場;

UALink 聯盟總裁 Peter Onufryk 表示:“隨著 UALink 200G 1.0 規范的發布,UALink 聯盟的成員公司正在積極構建一個開放的生態系統,以擴大加速器連接。我們很高興看到各種解決方案即將進入市場,并支持未來的 AI 應用。”

正如Dell'Oro Group 副總裁 Sameh Boujelbene 所說,AI 正以前所未有的速度發展,開啟了具有新擴展定律的 AI 推理新時代。隨著計算需求激增和速度要求繼續呈指數級增長,擴展互連解決方案必須不斷發展,以跟上這些快速變化的 AI 工作負載要求。我們很高興看到 UALink 1.0 規范的發布,該規范通過在同一 AI 計算艙內為多達 1,24 個加速器實現每通道 200G 的擴展連接來應對這一挑戰。這一里程碑標志著我們在滿足下一代 AI 基礎設施需求方面邁出了重要一步。

究竟是怎么做到的?

其實當 UALink 小組成立時,其成員對于他們究竟會怎么做和做什么有些含糊其辭。有人說 PCI-Express 和以太網不是合適的東西,因為已經做的事情簡單而優雅,網絡生態系統應該很容易采用和產品化。制造 PCI-Express 交換機的公司(Astera Labs、Broadcom、Marvell 和 Microchip)將希望制造 UALink 交換機,我們將其稱為 UASwitch,以區別于計算引擎上的 UALink 端口。

具體到UALink 1.0 規范,則定義了一種用于加速器的高速、低延遲互連,支持每通道 200 GT/s 的最大雙向數據速率,信號傳輸速率為 212.5 GT/s,以適應前向糾錯和編碼開銷。UALink 可配置為 x1、x2 或 x4,四通道鏈路在發送和接收方向上均可實現高達 800 GT/s 的速度。

一個 UALink 系統支持通過 UALink 交換機連接的最多 1024 個加速器(GPU 或其他),每個加速器分配一個端口和一個 10 位唯一標識符以實現精確路由。UALink 電纜長度優化為 <4 米,在 64B/640B 有效載荷下實現 <1 μs 的往返延遲。這些鏈路支持跨一到四個機架的確定性性能。


UALink 協議棧包括四個硬件優化層:物理層(physical)、數據鏈路層(data link)、事務層(transaction)和協議層(protocol)。物理層使用標準以太網組件(例如 200GBASE-KR1/CR1),并包括使用 FEC 減少延遲的修改。數據鏈路層將來自事務層的 64 字節 flit 打包成 640 字節單元,應用 CRC 和可選重試邏輯。該層還處理設備間消息傳遞并支持 UART 樣式的固件通信。

事務層實現壓縮尋址,在實際工作負載下以高達 95% 的協議效率簡化數據傳輸。它還支持直接內存操作,例如加速器之間的讀取、寫入和原子事務(atomic transactions),從而保留本地和遠程內存空間之間的順序。

由于它面向現代數據中心,UALink 協議支持集成的安全和管理功能。例如,UALinkSec 為所有流量提供硬件級加密和身份驗證,防止物理篡改,并通過租戶控制的可信執行環境(如 AMD SEV、Arm CCA 和 Intel TDX)支持機密計算。該規范允許虛擬 Pod 分區,其中加速器組通過交換機級配置在單個 Pod 內隔離,以在共享基礎架構上實現并發多租戶工作負載。而UALink Pod 將通過專用控制軟件和固件代理使用 PCIe 和以太網等標準接口進行管理。通過 REST API、遙測、工作負載控制和故障隔離支持完全可管理性。

具體而言,從外到內,UALink 堆棧從稍微修改過的以太網 SerDes 開始,其信號速率為 215.5 GT/秒,一旦考慮到編碼開銷,每個 UALink 通道的帶寬就會減少到 200 Gb/秒:


此以太網物理層具有標準前向糾錯 (FEC) 并遵守 IEEE P802.3dj 規范。通過單向和雙向代碼字交織改善了延遲,并且略有變化以支持 680 字節 flit。(flit 或流控制單元是鏈路級別的數據原子單位。)這是巧妙之處,PCI-Express 已隨 6.0 規范發生變化并為 UALink 奠定了基礎。

隨著 PCI-Express 6.0 的推出,控制該標準的 PCI-SIG(主要由英特爾主導)不再僅僅實施標準 FEC(這會大幅增加 PCI-Express 數據傳輸的延遲),而是轉向混合使用流量控制和循環冗余校驗 (CRC) 錯誤檢測,這實際上提高了信號傳輸的可靠性,同時降低了延遲。一些智能功能正在添加到 UALink 中,而內存結構不需要的大量功能并未包含在內。

“我們從 200 Gb/秒 SerDes 開始,”受雇主委托從事 UALink 工作的英特爾研究員 Peter Onufryk 表示:“它每個端口有四個通道,速度為 800 Gb/秒,您可以聚合多個端口。您還可以在結構中使用多達 1,024 個加速器,因此它在我們所處的空間中可擴展性相當高。”

UALink 是一種簡單的協議,因此它不是 PCI Express,但它針對擴展結構進行了優化,具有簡單的內存讀寫和原子操作以及大型操作。它消除了 PCI-Express 的排序限制,因此唯一的排序是在 256 字節邊界內。但如果跨越,您可以重新排序。

“UALink 的思考方式是,它具有 PCI-Express 交換機的延遲、PCI-Express 交換機的功率、PCI-Express 交換機的面積,但具有以太網 SerDes。”Peter Onufryk強調。


順便說一句,1024 個計算引擎一致性限制僅限于 UALink 交換基礎設施的單層。如果要添加更多層級(這會增加延遲),您可以為計算引擎構建更大的 NUMA 域。

UALink 1.0 規范支持每通道 100 Gb/秒和 200 Gb/秒的速度,前者用于構建 100 Gb/秒、200 Gb/秒和 400 Gb/秒的端口,后者用于構建 200 Gb/秒、400 Gb/秒和 800 Gb/秒的端口。我們不知道未來的 UASwitch 會有多少個端口,所以我們不知道它與任何現有的 NVSwitch 相比如何。但顯然,如果 Nvidia 能夠整合端口以從設備中獲取更多帶寬,那么 UALink 的采用者也可以做到。

專為確定性性能而設計

在UALink 1.0 的演示文稿中,有一句話很有趣,那就是——“專為確定性性能而設計,可實現 93% 的有效峰值帶寬。”這是在之前的資料中沒有看到過的。

UALink 成員在今年早些時候的演示中表示,UALink 的功耗僅為同等以太網 ASIC 芯片面積的一半到三分之一(每個端口),并且每個內存結構加速器可節省 150 瓦到 200 瓦的功耗。更小的芯片尺寸意味著更便宜的芯片,更低的功耗意味著更少的電力和冷卻消耗,從而降低整體 TCO。

這些演示還表示,UALink 端口到端口的跳變延遲將低于 100 納秒。Onufryk 表示,根據 PCI-Express 交換機的基數和品牌,PCI-Express 交換機的端口跳變延遲最低為 70 納秒,最高為 250 納秒。在 21 世紀初的商用芯片時代,我們看到 10 Gb/秒以太網交換機的延遲為 350 納秒到 450 納秒,而普通以太網交換機的延遲達到 1 毫秒甚至 2 毫秒的情況也很常見。與 InfiniBand 交換機 100 納秒到 120 納秒的延遲相比,這個延遲相當高。UALink 聯盟并未強制執行延遲限制,因此供應商可以自行決定。

AMD 架構與戰略總監、UALink 項目聯合負責人兼 UALink 聯盟主席庫蒂斯·鮑曼 (Kutis Bowman) 表示,UALink 交換機的延遲時間在 100 納秒到 150 納秒之間“感覺合適”。

“就像任何事情一樣,”鮑曼說。“一旦第一批Switch推出,他們就會想辦法改進。我們可能會看到一些不錯的中端數據,然后,隨著時間的推移,他們會把這個數字往左移。”

至于這些交換機的基數(即它們驅動多少條通道和端口,以及總帶寬是多少),這也取決于 UALink 交換機制造商。

“我們已經指定了物理層,也指定了數據包如何根據ID路由,人們可以隨心所欲地構建,”Onufryk說。“這就像PCI-Express——有些人構建小型交換機,有些人構建大型交換機,他們都在努力找到正確的位置。”

從概念上講,UALink 機架式機柜可能如下所示:


僅僅因為 UALink 1.0 協議能夠支持 1024 個設備互連的加速器 NUMA 內存域,并不意味著人們會立即投入其中,開始構建能夠擴展到如此規模的東西。(不過,如果有人真的這么做了,那可就太有趣了。)

我們來看看 Nvidia 有多保守。

理論上,使用 NVLink 4 端口的 NVSwitch 3 結構可以在共享內存池中跨越多達 256 個 GPU,但 Nvidia 的商業產品僅支持 8 個 GPU。 借助 NVSwitch 4 和 NVLink 5 端口,Nvidia 理論上可以支持跨越多達 576 個 GPU 的內存池,但實際上,僅在 DGX B200 和 B300 NVL72 系統中最多具有 72 個 GPU 的機器上提供商業支持。并且 Nvidia 在其路線圖上最大的域(至少現在)在單個內存映像中只有 576 個 GPU 芯片,每個插槽有 4 個 GPU 芯片,每個機架有 72 個插槽。

看起來,在某種程度上,UALink 可能具有擴大規模的優勢,但這很大程度上取決于支持 AI 處理的全網絡在具有數百個共享高帶寬內存的計算引擎的機器上運行得如何。

重要的是要意識到 UALink 并非 NVLink 的山寨版。盡管 NVLink 看起來像是 PCI-Express 和 InfiniBand 的結合體,但它們確實不同。(而且 NVLink 和 NVSwitch 的出現早于 Nvidia 收購 Mellanox Technologies。)

Bowman 表示:“UALink 和 NVLink 之間存在差異。NVLink 是 x2 的,所以它們總是將兩個通道組合在一起。UALink 允許端口使用 x1、x2 或 x4,之后你可以組合端口,就像 Nvidia 可以組合 NVLink 端口一樣。所以它們之間存在一些差異,雖然這些差異很細微,但根據你試圖構建的系統類型和所需的帶寬,它們確實會有所幫助。我們認為,單向 800 Gb,即雙向 1.6 Tb,在這些 UALink 設備即將面世的時間段內,提供的帶寬足夠了。”

通常情況下,當一項網絡規范發布后,首批使用該技術的設備投入使用大約需要兩年時間。但鮑曼表示,這一次只需要十二到十八個月,因為需求量非常大,而且每個制造 UALink 交換機的人都知道自己在做什么。

https://www.tomshardware.com/tech-industry/ualink-has-nvidias-nvlink-in-the-crosshairs-final-specs-support-up-to-1-024-gpus-with-200-gt-s-bandwidth

https://www.businesswire.com/news/home/20250408050548/en/UALink-Consortium-Releases-the-Ultra-Accelerator-Link-200G-1.0-Specification

https://www.nextplatform.com/2025/04/08/ualink-fires-first-gpu-interconnect-salvo-at-nvidia-nvswitch/

半導體精品公眾號推薦

專注半導體領域更多原創內容

關注全球半導體產業動向與趨勢

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4089期內容,歡迎關注。


『半導體第一垂直媒體』

實時 專業 原創 深度

公眾號ID:icbank

喜歡我們的內容就點“在看”分享給小伙伴哦

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美一季度貿易出爐,中國從美進口389億,對美出口卻斷崖下跌!

中美一季度貿易出爐,中國從美進口389億,對美出口卻斷崖下跌!

三農老歷
2025-04-21 16:37:32
彭小苒浪姐舞臺殺瘋!

彭小苒浪姐舞臺殺瘋!

述家娛記
2025-03-25 14:58:44
1993年,中俄列車遭暴徒洗劫強奸6天6夜,中央震怒:跨國強制抓捕

1993年,中俄列車遭暴徒洗劫強奸6天6夜,中央震怒:跨國強制抓捕

舊聞檔案
2023-09-22 17:42:13
暗夜繆斯:黑絲裹挾的致命優雅美學

暗夜繆斯:黑絲裹挾的致命優雅美學

麗影繪卷
2025-04-17 06:30:03
兩性知識:丁字褲是怎么走紅的?

兩性知識:丁字褲是怎么走紅的?

喜馬拉雅主播暮靄
2025-03-25 13:23:53
小澤怒懟美國特使“你算哪根蔥,居然來跟我討論被占領的土地”!

小澤怒懟美國特使“你算哪根蔥,居然來跟我討論被占領的土地”!

肖走教授
2025-04-21 00:18:01
拍賣一時爽,后面洪水滔天

拍賣一時爽,后面洪水滔天

梳子姐
2025-03-21 11:28:05
回看孫儷年輕時的絕代容顏,終于理解鄧超為啥當年是個男的都要防

回看孫儷年輕時的絕代容顏,終于理解鄧超為啥當年是個男的都要防

這個才是真花生有殼
2025-04-12 18:50:05
上海又一住宅新盤“日光”!今年已有9個新房項目觸發積分

上海又一住宅新盤“日光”!今年已有9個新房項目觸發積分

澎湃新聞
2025-04-22 08:16:28
84歲英國老太與37歲埃及男相愛,不顧家人反對閃婚!3年后積蓄被榨干才幡然覺醒…

84歲英國老太與37歲埃及男相愛,不顧家人反對閃婚!3年后積蓄被榨干才幡然覺醒…

最英國
2025-04-21 09:16:09
技術碾壓!中超唯一踢過世界杯的球員 半場奔襲轟入世界波

技術碾壓!中超唯一踢過世界杯的球員 半場奔襲轟入世界波

球事百科吖
2025-04-22 04:19:59
為什么一季度全國GDP大幅增長,但稅收顯著下降?

為什么一季度全國GDP大幅增長,但稅收顯著下降?

火星宏觀
2025-04-19 23:03:07
中年女人“默許發生關系”,往往會用以下“行為”來表示,很準

中年女人“默許發生關系”,往往會用以下“行為”來表示,很準

情感創作者無筆
2025-02-16 14:10:08
中國兩個友鄰相繼援烏抗俄,俄羅斯當前處境,給中國提了個醒

中國兩個友鄰相繼援烏抗俄,俄羅斯當前處境,給中國提了個醒

大國紀錄
2025-04-03 16:54:57
車禍3年后,多次整形的林志穎成了嫂子臉,郭德綱可以松口氣了

車禍3年后,多次整形的林志穎成了嫂子臉,郭德綱可以松口氣了

史行途
2025-04-16 18:21:29
以為是垃圾食品的 5 種食物,其實很健康

以為是垃圾食品的 5 種食物,其實很健康

丁香生活研究所
2025-04-20 11:51:01
收盤后證監會突然調整開市安排,是不是股市“割韭菜”的預兆?

收盤后證監會突然調整開市安排,是不是股市“割韭菜”的預兆?

風風順
2025-04-21 20:22:44
富士康創始人郭臺銘,解雇32萬大陸員工,670億投海外向印度轉移

富士康創始人郭臺銘,解雇32萬大陸員工,670億投海外向印度轉移

文史旺旺旺
2025-04-21 20:57:51
中國不給臺階下,特朗普下令啟動稀土“232調查”,誰料中方先發制人

中國不給臺階下,特朗普下令啟動稀土“232調查”,誰料中方先發制人

熱點網友
2025-04-21 20:12:32
余下賽程對比,皇馬西甲衛冕系于一戰,巴薩已現三冠王夢碎之兆

余下賽程對比,皇馬西甲衛冕系于一戰,巴薩已現三冠王夢碎之兆

體育世界
2025-04-21 12:54:21
2025-04-22 10:39:00
半導體行業觀察 incentive-icons
半導體行業觀察
專注觀察全球半導體行業資訊
10659文章數 34549關注度
往期回顧 全部

科技要聞

寒武紀一季營收頂一年,能否"平替"英偉達

頭條要聞

王毅、董軍同框 中國建立首個"2+2"部長級對話機制

頭條要聞

王毅、董軍同框 中國建立首個"2+2"部長級對話機制

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

關曉彤分手風波后首現身!甜美狀態好

財經要聞

沐邦高科危險信號:多筆交易存蹊蹺

汽車要聞

尺寸超5米/標配輔助駕駛 魏牌全新高山預售32.98萬起

態度原創

親子
家居
游戲
數碼
公開課

親子要聞

破解“帶娃焦慮”,北京首批托育"科班生"來了!

家居要聞

動靜結合 休閑娛樂并存

天胡開局!這個15年經典IP新作,讓300萬老玩家邊吐槽邊氪了3個億

數碼要聞

摩爾線程發布圖形顯卡驅動v290.100.2:《巫師3:狂獵》幀率飆升超80%

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 彭州市| 灌南县| 南投市| 温泉县| 兴和县| 永川市| 赤水市| 江华| 葵青区| 景东| 朔州市| 武强县| 繁昌县| 朝阳市| 徐水县| 沙雅县| 聂荣县| 溆浦县| 兴山县| 许昌县| 上栗县| 巨野县| 太仆寺旗| 望都县| 定安县| 通州市| 乌兰浩特市| 新和县| 虞城县| 磐石市| 纳雍县| 樟树市| 沙田区| 濉溪县| 宣威市| 凤台县| 丘北县| 五河县| 贡觉县| 镇赉县| 内乡县|