網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

無問芯穹夏立雪：讓算力成為標(biāo)準(zhǔn)化的“拎包入住”基礎(chǔ)設(shè)施

2025-04-29 16:20:58　來源: 量子位

北京舉報(bào)

分享至

編輯部發(fā)自凹非寺
量子位 | 公眾號 QbitAI

當(dāng)數(shù)據(jù)與AI的協(xié)同鏈路被打通，如何讓算力真正成為驅(qū)動數(shù)智升級的核心引擎，釋放AI的終極潛能？

無問芯穹正是其中深耕AI芯片與算力優(yōu)化的玩家，在第三屆AIGC產(chǎn)業(yè)峰會上，無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪博士分享了最新行業(yè)心得：

要實(shí)現(xiàn)“算力即生產(chǎn)力”，讓算力成為標(biāo)準(zhǔn)化、高轉(zhuǎn)化率的“拎包入住”基礎(chǔ)設(shè)施。讓算力像水電煤一樣流入到千行百業(yè)，流入到千家萬戶。

夏立雪博士畢業(yè)于清華大學(xué)電子工程系，長期致力于深度學(xué)習(xí)系統(tǒng)與AI芯片的前沿研究，入選AI2000人工智能全球最具影響力學(xué)者榜單（芯片方向Top100）、斯坦福學(xué)科Top2% 科學(xué)家榜單。他在大語言模型的壓縮加速、生成式AI模型芯片等領(lǐng)域的相關(guān)工作，是世界首個面向深度學(xué)習(xí)語音合成領(lǐng)域的定制化硬件設(shè)計(jì)，在國際上處于領(lǐng)先地位。

為了完整體現(xiàn)夏立雪的思考，在不改變原意的基礎(chǔ)上，量子位對其演講內(nèi)容進(jìn)行了編輯整理，希望能給你帶來更多啟發(fā)。

中國AIGC產(chǎn)業(yè)峰會是由量子位主辦的AI領(lǐng)域前沿峰會，20余位產(chǎn)業(yè)代表與會討論。線下參會觀眾超千人，線上直播觀眾320萬+，累計(jì)曝光2000萬+。

話題要點(diǎn)

推理范式變化帶來百倍算力需求增長：Deepseek問世引發(fā)巨大關(guān)注，進(jìn)一步幫助千行百業(yè)快速把更智能化模型能力應(yīng)用在自己的場景里，帶來超百倍的算力需求增長。
高質(zhì)量、高性價比算力仍供不應(yīng)求：在算力需求上，最終推理落地所帶來需求場景和需求方式的變化，供給側(cè)還有很大的優(yōu)化空間。
算力生態(tài)方需提供更專業(yè)化的服務(wù)能力和精細(xì)化運(yùn)營能力：相當(dāng)于在裸金屬服務(wù)集群上疊加上運(yùn)營交付能力、深度服務(wù)客戶業(yè)務(wù)的算力服務(wù)能力，這才是我們在這個時代應(yīng)強(qiáng)化的能力。
最終我們希望實(shí)現(xiàn) “算力即生產(chǎn)力”：讓算力成為標(biāo)準(zhǔn)化、高轉(zhuǎn)化率的“拎包入住”基礎(chǔ)設(shè)施。

以下為夏立雪演講全文：

Deepseek推理模型興起，算力需求暴漲

今天非常榮幸能夠在這里和非常多的行業(yè)伙伴們一起探討中國AIGC未來的發(fā)展。我今天的演講題目是《算力即是生產(chǎn)力——數(shù)智升級的核心引擎》。

我們本身依托清華大學(xué)電子系的基因，一直在解決怎么把算法和硬件更好更高效連接，今天非常高興能夠把最近的成果、行業(yè)觀察，還有我們的一些進(jìn)展和大家做一個分享。

我相信在座的各位已經(jīng)對人工智能的發(fā)展有非常深的理解，今天不從上世紀(jì)講起，我們講最近三年看到的一些現(xiàn)象。
大模型真正走入“全民”視野，算是以2022年的ChatGPT火爆為源頭。

如果把當(dāng)時的算力需求作為一個基線，可以看到經(jīng)過這幾年的發(fā)展，最近又有了兩個重要的變化。

第一是在2023年的時候，一方面，OpenAI把GPT-4更優(yōu)秀的能力引入到ChatGPT，整個AI應(yīng)用火爆全球；另一方面，像Llama這樣的一些開源生態(tài)方也進(jìn)一步幫助大家把使用AI的成本降到更低，激發(fā)了2023年整個產(chǎn)業(yè)對于“怎么把好的開源模型進(jìn)一步部署在自己場景里”的需求。

在全產(chǎn)業(yè)層面帶來了30倍左右的算力增長的需求。

事情在2024到2025年間進(jìn)一步發(fā)生變化。

o1推理模型興起，除了預(yù)訓(xùn)練模型之外，在推理過程中可以引入長思考、慢思考方式，進(jìn)一步發(fā)揮有限數(shù)據(jù)的價值。

像今年年初，Deepseek引發(fā)巨大關(guān)注，推理能力是它的長項(xiàng)，同樣它也是非常優(yōu)秀的開源模型，進(jìn)一步幫助了千行百業(yè)快速把更智能化模型能力應(yīng)用在自己的場景里，進(jìn)一步帶來超過百倍的算力需求增長
有很多產(chǎn)業(yè)方在這樣時代發(fā)展的過程中，也逐漸把AI真正集成在自己的實(shí)際生產(chǎn)中，也有一些非常令人激動的數(shù)據(jù)。

首先從全球來看，2024年李飛飛教授的一份report中有一個統(tǒng)計(jì)，在2023—2024年這一年里面，全球生成式AI部署熱度達(dá)到非常高的增長態(tài)勢，在一年時間里，從2023年55%的狀態(tài)快速增長到78%，將近五分之四的企業(yè)組織表示已部分將AI能力部署到自己的組織中。

中國作為全球最大的應(yīng)用市場、應(yīng)用場景方，一直走在“怎么把好技術(shù)用在真實(shí)場景里”的最前沿，以億級用戶規(guī)模的APP生態(tài)為觀測樣本，當(dāng)前超過70%億級用戶APP都已經(jīng)在做“AI轉(zhuǎn)型”，大家也在不斷備案自己有特色有場景能力的算法模型。

以我們的客戶美圖為典型范例，隨著AI轉(zhuǎn)型的深入，美圖接入AI功能之后，其付費(fèi)用戶實(shí)現(xiàn)了快速增長，達(dá)到歷史新高1200萬量級，證明了AI在真實(shí)場景中能產(chǎn)生相當(dāng)大的價值。

算力需求供給側(cè)比較粗放式

同時我們也看到了新的問題。

在算力需求上，最終推理落地所帶來需求場景和需求方式的變化，供給側(cè)還是沒有做到很好的支持

推理和訓(xùn)練的區(qū)別大家也都知道，推理是一種不可預(yù)測的流式任務(wù)，任務(wù)量跟實(shí)際的業(yè)務(wù)體量有非常大的相關(guān)性。

大家做一個業(yè)務(wù)的時候常常需要規(guī)劃考慮未來業(yè)務(wù)突然增長起來算力怎么辦？目前在供給側(cè)，常用的解決方案還是臨時應(yīng)對和準(zhǔn)備，整個供給側(cè)算力供給還是比較粗放式的，主要是以數(shù)取勝。

如果未來業(yè)務(wù)有可能在一個月內(nèi)快速增長1倍，但我又不想為這部分波動提前支付，也不想等業(yè)務(wù)起量后再來慌慌張張臨時準(zhǔn)備，現(xiàn)在應(yīng)該采用什么樣的算力方案？目前大多數(shù)運(yùn)營商很難有非常好的服務(wù)能力。
另一方面，訓(xùn)練和推理在延時和功能上的要求也是完全不一樣的

推理要求反應(yīng)速度非常快，運(yùn)營商不能說請你等一下，等我把你的請求和別人的請求拼一起，一天之后再給你出結(jié)果。所以在算力使用技術(shù)上，訓(xùn)練追求高吞吐量和大批次處理的效率優(yōu)化，而推理部署則要求低延遲、高并發(fā)和實(shí)時響應(yīng)能力。若簡單沿用傳統(tǒng)算力優(yōu)化手段，將難以滿足用戶對毫秒級響應(yīng)、動態(tài)資源調(diào)度的需求，甚至可能因批量等待導(dǎo)致服務(wù)體驗(yàn)下降。

兩者之間的差距最終導(dǎo)致實(shí)際使用中算力成本變高，成本壓力傳導(dǎo)到性能上形成瓶頸，最終性價比不劃算，會進(jìn)一步阻礙有應(yīng)用能力的伙伴真正把AI技能用起來。

過去整個算力供給市場如果用當(dāng)年城市化的例子比喻，供給側(cè)更像是粗放式的 “高端毛坯房”，只能期待優(yōu)質(zhì)大客戶“自帶裝修能力”包下毛坯房。

但現(xiàn)在市場要求算力面向更多創(chuàng)新應(yīng)用伙伴，算力供給需要做到幫助他們快速落地創(chuàng)業(yè)想法，就像商戶能輕松入駐“成熟商業(yè)廣場”一樣使用算力

作為算力生態(tài)方，我們需要提供更專業(yè)化的服務(wù)能力和精細(xì)化運(yùn)營能力，區(qū)別于以往算力供給只提供“算力毛坯房”，現(xiàn)在我們要在裸金屬服務(wù)集群上疊加上運(yùn)營交付能力、深度服務(wù)客戶業(yè)務(wù)的算力服務(wù)能力，這才是我們在這個時代應(yīng)強(qiáng)化的能力。

無問芯穹希望團(tuán)結(jié)更多合作伙伴，集中加速能力，喚醒沉睡的算力。如何把不同地方的零散算力、異構(gòu)算力統(tǒng)一成像水電煤一樣“開箱即用、拎包入住”的標(biāo)準(zhǔn)化服務(wù)

我們一直致力于把裸金屬升級成更好的一站式AI平臺，面向AI開發(fā)者，甚至直接以大模型服務(wù)的方式支撐AI創(chuàng)業(yè)團(tuán)隊(duì)，最終讓中國建設(shè)的強(qiáng)大算力更好地被下游AI應(yīng)用使用。

讓算力成為可“拎包入住”的基礎(chǔ)設(shè)施

這部分最近我們也做了一些新的努力，取得了新的進(jìn)展。

首先在最底層激活各種多元異構(gòu)算力，面對中國特色的市場環(huán)境，將國產(chǎn)芯片及國內(nèi)不同小算力集群進(jìn)行標(biāo)準(zhǔn)化統(tǒng)一。

一方面通過軟硬協(xié)同優(yōu)化，讓算法與硬件更好結(jié)合；另一方面讓不同算力協(xié)同完成復(fù)雜大任務(wù)，從而“抹平”算力生態(tài)壁壘，以標(biāo)準(zhǔn)化方式使服務(wù)能力在應(yīng)對彈性擴(kuò)展和高性價比需求時更具支撐力。

最終我們希望大家享受到更加易用、更加廉價且性能更優(yōu)的算力服務(wù)，這對性能提出了更高要求。

大模型推理部署分為云和端兩個場景，端側(cè)在智能終端和硬件領(lǐng)域存在廣泛需求，我們推出了名為SpecEE的加速技術(shù)。

簡單來說，SpecEE能讓同類型模型在終端運(yùn)行得更快更好，以3B模型為例，不同結(jié)構(gòu)和計(jì)算量分配會導(dǎo)致硬件計(jì)算效率差異，推理中可能存在大量算力等待與浪費(fèi)，而該技術(shù)通過算法與硬件結(jié)構(gòu)的深度匹配解決這一問題。

實(shí)測顯示，在真實(shí)AI PC場景中，其加速比達(dá)70%至2倍以上，助力筆記本、手機(jī)等端側(cè)設(shè)備更好地部署AI。

視頻鏈接：https://mp.weixin.qq.com/s/g0WghQpe2TKjGSJXeg-SzQ

云側(cè)則聚焦“省錢”，讓相同算力實(shí)現(xiàn)更多產(chǎn)出。我們研發(fā)的推理引擎/框架針對大模型的Prefill（預(yù)填充）和Decode（解碼）環(huán)節(jié)（簡稱PD），結(jié)合PD分離與融合模式，形成semi-PD方案，顯著加速計(jì)算推理輸出。

從優(yōu)化結(jié)果可見，直觀體現(xiàn)了加速效果，這里面隱含了一些更深的技術(shù)。

同時，我們在計(jì)算和通信Overlap上也做了非常多的工作。

針對大模型參數(shù)龐大導(dǎo)致的計(jì)算與通信硬件數(shù)據(jù)傳輸?shù)却龁栴}，我們開發(fā)了FlashOverlap功能，通過觸發(fā)式信號實(shí)現(xiàn)計(jì)算與通信的低成本覆蓋，讓硬件持續(xù)運(yùn)行無閑置，使消費(fèi)級與生產(chǎn)級顯卡實(shí)現(xiàn)約1.5倍加速，有力推動多類推理場景落地。

上述后端技術(shù)旨在讓客戶更好地利用算力，同時，我們還推出系列工具與工具鏈，通過WorkFlow封裝和托管服務(wù)降讓產(chǎn)業(yè)用戶更好地把AI平臺能力直接使用起來。

以生圖社區(qū)為例，開發(fā)者可將平時開發(fā)生圖的工作流一鍵部署至生產(chǎn)環(huán)境，無需深入了解AI部署細(xì)節(jié)，我們以黑盒模式處理底層復(fù)雜操作，讓開發(fā)者低成本將創(chuàng)意轉(zhuǎn)化為穩(wěn)定服務(wù)，一鍵調(diào)用算力能力完成應(yīng)用開發(fā)。

我們在算力規(guī)模化使用、部署加速及易用性等方面進(jìn)行了多重優(yōu)化，并將能力整合為平臺化服務(wù)，集成合作伙伴的優(yōu)化成果，以統(tǒng)一平臺助力創(chuàng)業(yè)者和行業(yè)快速拓展應(yīng)用，避免算力成為業(yè)務(wù)發(fā)展瓶頸。

目前，這些能力已集成至上海及各地公共算力平臺，為孵化器、創(chuàng)業(yè)者和本地企業(yè)提供支持。

最終，我們希望實(shí)現(xiàn)“算力即生產(chǎn)力”讓算力成為標(biāo)準(zhǔn)化、高附加值的“拎包入住”基礎(chǔ)設(shè)施。算力像水電煤一樣流入到千行百業(yè)，流入到千家萬戶

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.