這幾天對我來說最大的新聞,就是當地時間12月2日美國大幅擴大對中國半導體產業鏈企業封鎖,包括大批中國半導體生產設備企業的140家企業被新列入了實體清單。感覺美國的“小院高墻”政策,在半導體領域并不成立,而是在走向對中國半導體企業全面封鎖。
尤其是北方華創, 盛美半導體,拓荊科技,芯源微等生產設備企業也上了清單, 北方華創一直是我最喜歡的企業,可能是因為2019年以來這是我賺最多錢的一支股票的緣故。
我國四大行業協會罕見的同一時間(巧了,都在12月3日下午五點多)發聲反對,包括中國互聯網協會、中國汽車工業協會、中國半導體行業協會、中國通信企業協會。
而且措辭風格都還比較相似,都不約而同的、也是歷史上第一次明確提到了美國芯片不再安全可靠,建議中國企業謹慎采購。
我對比了下以前我國行業協會的反應,可以說在措辭上大不相同,這是頭一次出現建議謹慎采購美國芯片的說法,以前發的聲明在對美措辭上要柔和的多,可見國內行業從業者的自信心這幾年增強了。
從2018年的中興事件開始,這些年美國在半導體產業方面和中國全面脫鉤的趨勢是明確的。
我想最后最大的原因還是,人工智能技術是現在和未來人類社會和經濟發展最大的變量,是會影響千行百業的技術,會極大的改變人類社會的面貌,而半導體又是為人工智能提供算力的底層技術之一。
而我國各界對于美國的制裁加碼,反應已經越來越淡定,而這正是因為我國對此已經有可以應對的解決辦法。
說到這里,我又不得不提起華為了,原因很簡單, 華為是目前國內唯一一家可以提供從芯片,操作系統,AI框架,網絡(網卡,交換機),存儲等全套自主研發AI算力基礎設施的廠家。
而且在可見的將來,我覺得國內也很難出現第二家做到這一點。
面對美國不斷在半導體領域加大封鎖, 華為公司的輪值董事長徐直軍,就 在2024年9月19日的華為全聯接大會2024上做主題發言中講述了華為如何應對:
首先認為要面對現實,國產芯片在相當長時間內先進性將受到制約,這是中國打造算力解決方案必須面對的挑戰。
然后華為認為人工智能正在成為主導性算力需求,需要的是系統算力,而不僅僅是單處理器的算力。這是包括華為在內的國產算力供應商的一個機遇。
而華為在這方面的戰略核心是,基于實際可獲得的芯片制造工藝,計算、存儲和網絡技術協同創新,開創計算架構,打造“超節點+集群”系統算力解決方案,長期持續滿足算力需求。
華為的這個“超節點+集群”是什么意思呢?
在算力中心里面,單臺服務器就叫做節點,而算力中心一定是幾百臺上千臺甚至可能更多的服務器節點組成的,那對于算力中心來說,算力的瓶頸就不只是單臺服務器節點的能力了,大規模節點之間的穩定和高速的通信就變得很重要了。
而通信則是華為的強項,因此如果通過華為擅長的高速互聯通信技術,把多個節點視為一個超節點,在超節點內部的各個節點之間實現高速度互聯,可以有效地提升訓練效率,還能減少各種故障發生。
而多個超節點,就又能組成集群了。
如何讓集群發揮最大功效,這里不得不提華為又一個聰明之處,就是集群裝上“指揮大腦”,華為用自研的瑤光智能云腦對云上資源進行多遠算力統一建模,靈活調度組合,按需提供給應用。
也就是說,不管是存儲服務器也好,計算服務器的NPU芯片也好,CPU芯片也好,還是服務器的內存也好,還是不同的服務器之間也好,互相之間都支持高速通信,速度從以前的百GB/s級別達到TB/s級別。
另外,不只是通信,超節點集群內部的各種資源都可以統一快速的智能調度,訓練和推理需要內存就分配內存資源,需要算力就分配NPU芯片資源,需要存儲就分配存儲硬盤資源,實現統一調配。
這就讓我想起了拿破侖說過的:
“兩個馬木留克兵可以對付三個法國兵,因為馬木留克兵武器更好、馬匹更好、訓練更好,擁有兩雙手槍、一支喇叭槍、一支馬槍、一頂有面甲的頭盔、一副鎖子甲、幾匹戰馬以及幾個步行仆役。但100名法軍騎兵無需害怕100名馬木留克兵,300法國兵就足以戰勝300個馬木留克兵,而1000個法國兵就總能打敗1500個馬木留克兵:戰術、隊形和隊形變換的影響實在是太大了!”
預計明年,華為云基于CloudMatrix全新架構的昇騰AI云服務將正式商用,用的就是這個思路。
實際上華為云經過這幾年的努力,打造的昇騰AI云服務就已經在國內向大量企業提供了大規模的AI算力。華為云分別在內蒙的烏蘭察布,安徽的蕪湖,貴州的貴安,以及香港建成了四大AI算力中心集群。
像如果是華東地區的企業上AI推理應用,可以就近通過昇騰云接入到蕪湖的算力中心,時延可以低至10ms。
這是華為將自己多年來打造的全自研獨立自主技術,為全社會提供安全可靠的算力服務,支撐中國人工智能產業的發展。
下圖就是華為云今年六月在蕪湖落成的智算中心,10ms時延專線直達華東六省一市及華中(湖南、湖北、江西)20多個熱點城市。
我們都知道自從2022年11月30日ChatGPT發布后,中國接著在2023年也迎來了大模型的大爆發,誕生了幾百個大模型,其中有不少就跑在昇騰云上面。
像騰訊音樂2024年9月發布的Muselight大模型就是在昇騰云上運行。這個大模型可以能夠輔助音樂人進行旋律構思、和聲編排以及歌詞撰寫等,還能對聽歌的用戶實現更加精準的個性化推薦,以及對音樂通過元素分析進行版權評估等。
同樣在今年9月順豐發布的豐語大模型也跑在昇騰云上面。快遞小哥不少是新員工,即使是老員工也有不少專業事情搞不清楚,比如寄國際快遞某項物品是否符合規定,不同價格的寄送時效等等,有了大模型能力加持,小哥直接在順豐自己的APP上問,馬上就能得到專業的回答,大大提升了工作效率。
華為云昇騰AI云服務為了能為國內的幾百個大模型提供算力,已經對一百多個主流大模型都做了適配,企業在用的大模型如果算力不夠,可以遷移到昇騰云上面。
在2024年12月的今天,人工智能的應用已經深入到了我們生活的方方面面,我們已經在主動和被動的大量使用人工智能技術,只是我們并沒有有意的去總結和察覺。
我認為每個人,每個公司都要開始自己的AI轉型。
我這里總結我日常生活會用到的10個人工智能高頻場景(主動或被動),從中可以一窺各行各業的智能化速度:
1:我開車會使用汽車的自動駕駛,這對應的是汽車行業智能化。
2:給孩子批改作業和輔導作業,會利用AI技術,如下圖。這對應的是教育行業智能化。
3:車牌識別,這背后是政務智能化和汽車服務業智能化。
4:人臉識別,比如我線上辦證,進公司大樓,機場的閘機等。這對應的是政務,金融智能化和公司園區智能化。
5:手機的輸入法,直接語音轉化為文本,這對應的是手機智能化。
6:每天打開手機,資訊和購物APP會自動推薦感興趣的內容,這是屬于被動的使用AI。這對應的是互聯網行業智能化。
7:每天接到的電話尤其是銀行的電話,不少是AI客服打過來的。這對應的是客服場景智能化。
8: 最近幾個月,我很愛在開車的時候聽各種AI生成的歌曲,例如AI模仿孫燕姿的聲音唱各種周杰倫的歌,被廣大網友認為是AI的神作。
這和上面使用昇騰云服務的騰訊音樂一樣,對應的是音樂行業智能化。
9:AI翻譯功能,例如在手機上長按圖片自動翻譯,這對應的是翻譯行業智能化。
10:使用AI助理,有問題問AI。
除了這10個高頻場景外, 我喜歡周末去爬山,看到不認識的植物直接拍照就能識別出是什么名字以及詳細資料。
另外現在各種無人機表演也很多,甚至可以上萬架協同表演,也是應用了人工智能技術,我還特地帶娃去看無人機表演,這對應的是無人機智能化。
對中國的千行百業來講,智能化已經是必由之路,而向華為云這樣的算力供應商購買算力服務是個很好的選擇。
在2023年底,中國光是規模以上工業企業都高達50.1萬家,如果所有行業加起來規模以上工業企業估計超過百萬家。
我個人認為這里面99%以上的企業都需要在外部采購算力服務,能完全靠自建算力滿足自身需求的企業是極少數。
并不是每個企業都要自己建設大規模AI算力,像AI芯片硬件迭代速度很快,自建不僅成本高,而且如果你沒有做超節點和集群的能力,單純只是買AI服務器硬件,那么過一兩年在性能上可能就落后了;
而且算力中心里面往往是多個代際的硬件在跑,導致資源調度復雜度高,如果沒有專業的廠家來做資源調度,可能因為歷史代際產品的“木桶短板”效應,拖累新一代產品性能的充分發揮,影響大模型訓練的能力,不僅如此多代際產品共存還導致運營維護很困難。
另外從基礎大模型這兩年的發展看,大模型的訓練需要越來越多的高質量數據,預訓練數據量已經進入10萬億tokens量級。
而且大模型參數量也在持續增大,帶來的是訓練成本升高,這就導致能玩得起大模型訓練的廠家在以后會越來越少,大部分企業未來將會聚焦自身業務,而去采購業界巨頭公司訓練的大模型。
在這樣一個趨勢下,各大廠商也在不斷的在技術上升級自己提供的算力服務,以滿足中國千行百業智能化的需要。
上文我提到過,昇騰云預計將在明年商用的Cloudmatrix架構,就踐行了超節點+集群的理念。
在算力中心里面,一切資源(CPU,NPU,內存)可池化,一切可對等連接,一切可進行組合,極大的提升效率,極大的提升可靠性。
這就像一個大公司打破了管理的部門墻,可以任意的讓不同的員工組合成一個優秀的團隊。
華為內部用盤古大模型做了測試,使用同樣的模型,在CloudMatrix架構下稠密模型訓練效率可提升20%,而稀疏模型訓練效率可提升60%,在推理場景性能也能提高30%,這就彌補了在單顆芯片制程上落后英偉達的不足。
大模型訓練時,并不像我們想象的那樣會一直從0%-100%,只需要等待即可,而是會不斷的中斷。
今年7月份,Meta 在一份研究報告中揭示了訓練他們的Llama 3 (4050億參數)模型遇到的問題:該系統在包含 16384 個 Nvidia H100 GPU 的集群上運行,在訓練期間平均每三個小時就發生一次故障, 54 天內經歷了 419 次意外故障。
這充分體現了上萬張訓練卡一起運行時的巨大挑戰。
而華為云持續優化昇騰 AI 云服務,目前已經實現將萬億參數模型的訓練無中斷時長從 2.8 天提升至 40 天,并將集群故障恢復時間從 60 分鐘縮短至 10 分鐘,這表明在優秀的集群架構下,國產算力中心的可靠性完全可以達到甚至超過英偉達的水平。
另外,針對大模型訓練的數據安全,華為云還采用了數據傳輸與存儲加密、數據安全清除、數據訪問控制、數據水印防泄漏等多重技術,確保大模型訓練數據的全生命周期安全。
AI實際上已經滲透到我們生活的各個方面,中國各個行業都在不斷的引入和使用AI,用來提升效率,并引起經濟,軍事和社會變革,而率先變革的國家將對后來者形成巨大優勢。
例如自動駕駛的全面普及,將會影響數百萬出租車司機,滴滴司機,公交車司機,大巴車司機的工作崗位;
個人AI助理逐漸普及,在逐漸沖擊谷歌和百度這樣傳統搜索引擎的份額。
AI如此重要,也無怪乎美國人將此作為主要封鎖點,美國在半導體行業進行封鎖后,國內還有華為昇騰云能提供全棧國產并且效率和可靠性都不錯的算力服務,已經實屬難得。
國內各行各業共同將國產的算力生態不斷壯大,相信未來總有最終徹底沖破封鎖的一天。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.