這幾年最火爆的公司,英偉達一定是其中之一。
隨著全球對AI算力需求的增長,做GPU芯片的英偉達,在近兩年內總市值增長很快,實現了歷史性的“三連跳”,躋身世界第二。
一年前的2023年5月英偉達成為首個市值超過1萬億美元的半導體企業,今年2024年2月突破2萬億美元, 之后又在僅僅4個月后的 6月5日這一天,總市值首次突破3萬億美元大關,達到3.0118萬億美元,超越蘋果,僅次于微軟,成為 全球繼蘋果和微軟之后歷史上第3家總市值超過3萬億美元的公司。
但由于美國的對華技術封鎖天花板戰略,英偉達先進的GPU算力硬件現在并不能被中國使用。
美國先是在2022年10月宣布禁止向中國出口A100和H100芯片,這里面像H100是當時美國人工智能公司(比如推出了ChatGPT的OpenAI公司)的主流首選芯片,功能很強大。
后來英偉達宣布針對中國市場推出了A800和H800,性能比A100和H100稍差一些,但性能剛好低于美國的禁令要求, 這也體現了英偉達想繼續在中國做生意的想法,但這兩個也在2023年10月被美國要求禁止出口了。
現在中國企業能從英偉達買的,只有低性能的老款芯片。
當然我國的互聯網公司等都在禁令前囤了不少芯片,所以暫時沒有太大影響,但長期看對我國形成嚴峻的算力增長挑戰。
1.一方面是我國算力的增長受到無法繼續獲得先進硬件和軟件生態的制約, 另一方面又是國內由于人工智能不斷發展,已有上百個大模型出現,并開始應用于各行各業,對算力的需求在迅猛增長。
在人工智能的發展歷史上, 大模型被認為是一個分水嶺, 此前業界更多關注和討論的是機器如何感知世界,例如識別日常生活中的各種物體,聽懂人類的語言等等。
而現在則是通過大模型的生成能力創造數字世界,預測未來趨勢。
通過對海量數據的預訓練,大模型可以在超高維度空間上對人類全部知識進行高度壓縮,進行微調就可以完成多個應用場景任務的泛化,應用到千行百業。
因此大模型技術現在成為人工智能發展的焦點。
而大模型又對算力需求很高, 2022年11月,美國OpenAI公司的ChatGPT發布在全球業界掀起了震動,我當時寫過一篇文章:
而那之后受ChatGPT熱潮帶動,國內各個公司大模型新品不斷推出, 截 至 2 023年7月,中國累計已經有130個大模型問世。
今年3月底的時候,我看到問答大模型比較火爆,就推薦給了我老婆,因為她日常工作需要大量的檢索,而這種問答式的AI極大方便了她的工作,最近幾個月,也有公司找我發AI大模型的廣告。
而大模型的推理和訓練場景都需要大算力,大模型訓練通常需要數千張GPU卡,基于TB級別的數據,耗時幾個月進行訓練,然后其他用戶在預訓練大模型的基礎上再進行強化學習,而這需要數百張GPU卡,耗時一兩個月。做大模型的企業越多,大模型的訓練規模越大,則多GPU卡的需求越大,不僅是百卡和千卡,有的大模型甚至需要萬卡以上進行訓練。
行業數據顯示,全球過去10年AI算力需求翻了30萬倍,而在未來10年AI算力將再增長500倍。
2.中國開始啟動“東數西算”國家工程,大規模建設全國算力基礎設施已經三年以上了
面對算力增長的挑戰,中國并非無動于衷,而是早已認識到了算力的重要性,把其視為基礎設施的一部分。
早在201 8年12月,中央經濟工作會議就已經把5G、人工智能、工業互聯網、物聯網等新型基礎設施建設列為2019年經濟建設的重點任務之一。
而根據央視新聞2019年3月2日的報道,“新基建”指發力于科技端的基礎設施建設,主要包括七大領域:5G基建、特高壓、城際高速鐵路和城際軌道交通、新能源汽車充電樁、大數據中心、人工智能和工業互聯網。
這里面大數據中心包含了機房樓,網絡,供電,溫控,存儲服務器,通用服務器等設施以及上面跑的各種軟件應用等。
而人工智能其實也是跑在數據中心上的,只是因為很重要而被單獨拿出來, 指的是 能夠支撐各種人工智能應用的,包括AI服務器以及上面的AI芯片在內的專門用于計算的軟硬件基礎設施。
像上面這個定義的七大新基建,到今天已經五年多了。
為什么國家如此重視算力基礎設施的發展?
因為“人工智能+”早已經是國家戰略,每個行業都要用人工智能提升生產力和效率,而 沒有算力服務基礎設施的支撐,人工智能的大發展就無從實現, 這就跟沒有十幾年前4G網絡的普及,也就不會有移動互聯網的大爆發一樣,我們今天用手機點外賣,購物,視頻通話,直播等生活方式,實際上都是基于4G高速移動網絡基礎設施普及這個基礎。
中國 早在2021年就規劃了東數西算工程,包括遍布 全國的 八個算力樞紐(分別是京津冀樞紐,長三角樞紐,粵港澳樞紐,內蒙古樞紐,寧夏樞紐,甘肅樞紐,成渝樞紐和貴州樞紐)以及分布在這八個樞紐的 10個算力中心集群。
國家發改委發布的《關于深入實施“東數西算”工程加快構建全國一體化算力網的實施意見》指出,要加快構建全國一體化算力網,以算力高質量發展支撐經濟高質量發展。
國家希望國內能夠提供算力服務的企業,統一在這些樞紐建立算力中心集群,為全國千行百業提供算力服務。
而這八大樞紐的選擇,綜合考慮了能源價格(數據中心很耗電,而西部能源基地價格低,也比電力傳輸到東部再用于計算更低損耗)和時延的因素,西部能源價格低,所以東部的數據放在西部計算能夠降低成本,同時考慮到時延因素,因此也在京津冀,長三角和粵港澳三大數據流量高地設立樞紐,那些對時延要求的高的需求就在這里計算,其余的可以在西部樞紐進行計算。
下圖是我在發改委官網找的,2021年5月26日,國家發改委高技術司司長就在貴陽正式宣布八大國家算力樞紐節點建設正式啟動,這個時間到今天已經三年以上了。
國內各大企業都在緊跟國家八大樞紐戰略。
以華為為例,其 華為云華東(蕪湖)數據中心,就于2024年6月14日在安徽蕪湖正式開服,也成為蕪湖集群首個開服的項目。
不只是華為,其他還有中國電信、中國移動、中國聯通、中科曙光、火山引擎等15個龍頭企業數據中心項目都將在蕪湖集群落地。
安徽這些年經濟不錯,經濟總量和人均GDP都在全國排名上升很多,而蕪湖集群則是八大算力樞紐--長三角樞紐的重要節點,蕪湖集群的建設不僅可以支持華東長三角區域的算力需求, 蕪湖自身也 因為 數據中心集群的建設而受益,或將成為提供算力基礎設施的 智算之城 。
而華為云的蕪湖數據中心開服后,就和已經部署的內蒙烏蘭察布數據中心,以及貴州的貴安數據中心一起作為華為云的三大數據中心,在全國地理位置上形成“鐵三角”,構成AI算力一張網。
華為云數據中心提供的云算力服務就是昇騰云服務。
華為的烏蘭察布+貴安+蕪湖數據中心鐵三角AI算力一張網+昇騰云服務, 可以分別對應支持國內京津,長三角,珠三角三大流量高地,可在區域內實現10ms以內的時延,支撐自動駕駛,大語言模型等區域內的需求。
3.為什么不管是中國的國家戰略布局,還是華為的鐵三角布局,都是采取建設大型數據中心集群提供云服務的形式?而不是讓每個企業都自建數據中心呢?
原因并不復雜,從國家的角度來講,是希望實現全國算力規模化,集約化的發展。像中國電信的副總經理在接受央視記者采訪時說,2021年中國電信集團數據中心耗電量就高達56億度,竟然占到了集團總耗電量的20%。
從國家頂層設計來講,東數西算的國家工程是像南水北調,西電東送一樣,通過統一的規劃建設,不僅能集約利用能源,還能降低算力成本,而如果是四處開花,顯然不利于實現低成本,高能效,規模化。
而從企業的角度來講, 大模型的推理和訓練場景都需要大算力,動輒就是幾千張GPU卡,規模更大的需要上萬張GPU卡,而一張GPU卡動輒就是幾萬,十幾萬乃至二十幾萬人民幣,這還不算數據中心的其他投資,這就導致如果自建數據中心,那么硬件投資金額就不會小。
而且硬件技術更新速度快,未來還可能面臨需要更新硬件的問題。
同時,AI算力對數據中心基礎設施的設計是很大挑戰,由于AI服務器的功率密度遠超通用服務器,單機柜的功耗是過去的6-8倍,并需要專用的液冷系統進行散熱,才能降低PUE(能效比)。
另外AI大模型訓練動輒需要千卡乃至萬卡,服務器之間的互聯、時延、可靠性、運維極為挑戰。而時延和可靠性直接影響到大模型的訓練。
因此企業自建數據中心,一旦算力需求高,則不僅建設周期長,投資金額大,而且還需要專業的運維團隊運維,對專業知識技能要求很高,而且有的企業的算力需求還是潮汐型的,這就讓自建數據中心更加不劃算。
不僅如此, 各地政府還根據碳達峰和碳中和戰略提出“綠色數據中心”要求,IDC新建/擴容嚴格受限。
相比之下,由類似華為云等國內的各種云計算公司統一建數據中心提供算力服務,由云計算公司專業的提供穩定可靠的算力保障, 各個企業去租用云計算公司的服務, 具有即開即用、按需使用、靈活部署、集群算力、專業服務、運維&安全等優勢 。
因此AI算力高度依賴云化部署,是行業的主流。 算力被認為是和自來水,電力等一樣的基礎設施,那么由專業的云計算公司來建設數據中心提供算力,是最優解,這就跟中國的自來水,電力,道路,橋梁等基礎設施都不是由使用者來建設,而是由專業的公司來建設和運維一樣,這樣才成本最優且最有效率。
4.各國算力基礎設施比拼的是全棧能力,英偉達的芯片是算力中的重要一環,但并非是全部。
在2022年和2023年,美國連續禁止英偉達先進算力芯片出口中國的背景下,國內更多把中美算力競爭的焦點注意到芯片和對應的軟件生態上。
但先進算力的競爭力比拼,芯片只是其中一環,而是要考慮全棧能力。
那么什么是全棧能力呢?
以華為云6月14日開服的這個蕪湖數據中心為例,我們可以從華為云昇騰云服務講的提供哪些算力服務,看一下國內一線的算力云服務公司,是如何考慮算力基礎設施服務的競爭力的。
首先要考慮資源獲取快的問題。
算力服務需要考慮兩個公認的難題,一是硬件的可獲得性,二是要快速獲得算力。
硬件可獲得性的挑戰,在過去的幾年中國企業已經一再的有了感受,各種先進芯片的獲取越來越難。
像華為等國內TOP AI芯片和相應的軟件生態供應商,在快速的提供用戶需要的算力方面就具有很大的優勢,用戶不需要去高價搶購GPU算力卡,而是可以直接在華為云官網購買昇騰AI云服務,有充足的AI算力可以獲取, 同時也避免了自建AI數據中心動輒半年一年以上的長周期等待等問題。
另外還要考慮模型遷移快的問題,簡單的說就是要方便簡單,可靠,快捷的把基于國外軟硬件生態開發的模型和應用遷移到國產算力中心上。
很多用戶已經基于英偉達或者其他公司的框架,生態構建了自己的大模型和應用,如果購買了國產的云算力服務,就必須考慮到軟件遷移的問題,因此國產云算力服務不僅僅是提供計算硬件,存儲等,而且還要提供了 大模型開發、通用AI開發及算力調優三大全流程工具鏈,要使得 典型場景遷移至生產環境時間小于2周以內。
當然非常重要的就是故障恢復快。
算力服務的可靠性非常重要,故障恢復越快,越有利于客戶的業務。
具有主動診斷故障功能的云算力中心,可以主動運維而非故障后發現處理問題, 這樣可以有效避免訓練中斷,確保集群長穩運行。
像國內頭部云算力服務公司已經可以做到集群故障1分鐘發現,5分鐘診斷,10分鐘恢復。
還有時延問題,這個國家在八大樞紐十大集群布局時已經考慮了,對于時延要求高的應用要做到10ms以內的時延水平。
當然最后還要考慮云上性能優。
衡量一個云算力中心的服務,可以從模型訓練效率高低來評估,而 MFU(Model FLOPs utilization)是評估模型訓練效率的通用指標,其含義是實際吞吐量與假設最大吞吐量之比,直接反映端到端的訓練速度。
而影響MFU的有三大因素(算子、顯存、通訊)。
這個算子是什么東西呢?深度學習算法由一個個計算單元組成,我們稱這些計算單元為算子(Operator,簡稱Op)。
而顯存是顯示內存,是和GPU配合用于圖像顯示的芯片。
通過對算子,顯存,通訊的軟件優化,可以提升MFU指標。
因此模型訓練效率MFU更優的云算力服務廠家,也具有更高的云上性能。
5.誰在算力基礎設施上領先,誰就能在人工智能競賽中領先
中國的家用電器,電動車為什么那么普及,物流效率為什么那么高,成本又那么低,跟基礎設施大規模建設有很大關系。
就以電動車為例,中國電動車滲透率在2024年已經在逐漸接近單月50%,這其中原因就是中國不僅有強大的電網消納大量電動車的充電功率和電量需求, 而且是因為中國政府大力鼓勵充電站建設,把充電樁列為新型基礎設施之一,中國現在充電基礎設施就遠比國外更加普及,現在在深圳給車充電,很容易就能找到充電站。
這直接導致2023年底,中國市場的電動汽車數量比全球其他所有國家加起來還多,或者說,比歐美加起來還多。
而人工智能的發展也是一樣的,通過2022年11月發布的ChatGPT,以及2024年2月發布的Sora,我們知道了AI大模型技術可以用于人機對話,以及文本生成視頻, 但AI大模型的發展遠不止這些領域,它不僅可以用于面向ToC領域進行應用,也還有千行百業的toB應用。
國內大中小型企業要想有效的把人工智能技術應用于自己的行業,都需要開發自己行業的大模型,因此就勢必需要能夠快速獲得,并且穩定可靠的各種算力服務。
還是拿華為云舉個例子, 華為云昇騰云服務不僅考慮了模型遷移問題, 而且開發了盤古大模型工程套件, 包括數據工程、模型開發和應用開發三大套件,支持 各行各業的大中小型企業,基于盤古大模型工程套件,進行適配本行業的大模型開發。
完成一個千億行業模型端到端開發,從過去需要5個月縮短到現在1個月,整體速度大大提升。
因此,中國希望提供給各行各業的算力基礎設施服務:
不僅僅是硬件芯片可以持續獲取和更新,而不是到處搶購GPU卡,
也不僅僅是可以快速獲得低時延的服務,
也不只是算力服務高可靠,故障恢復時間快,
而且是可以基于算力服務供應商提供的大模型工程套件,更簡單的迅速開發適用于本行業的人工智能大模型,快速的實現人工智能+的發展。
換言之有了這些基礎能力,中國千行百業走向智能化才有了生長的黑土地,而我們也看到國內已經有一批企業在努力的 做這件事情。
對于中美未來在算力領域的競爭,我是樂觀的,
因為就從基礎設施建設這一點來說,從電網,高速公路,高速鐵路,橋梁,5G網絡,自來水到充電基礎設施,作為基建狂魔的中國并不弱于美國,甚至很多方面還是領先的。而就企業的研發實力來說,像華為這樣的企業,在5G手機芯片,數據庫,大模型等軟硬件方面,也一直在突破。
就跟中國強大的移動網絡基礎設施催生了無數的移動互聯網應用一樣,中國的算力基礎設施不斷完善和進步,也會像黑土地一樣,更容易產生各種類似ChatGPT,Sora,以及應用于各行各業的to B行業大模型應用。
希望本文的簡單介紹,能夠讓人對我國政府和企業在如何應對英偉達為首的美國公司帶來的算力競爭壓力有所了解。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.