99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減

0
分享至

量子位智庫
量子位 | 公眾號 QbitAI

在大模型爭霸的時代,算力與效率的平衡成為決定勝負的關鍵。

端側部署一直是大模型落地的最后一公里,卻因算力瓶頸困難重重。

面壁智能和清華走出了一條與MoE不同的路徑——神經元級稀疏激活,讓模型在保持性能的同時大幅降低資源消耗。

這次技術探索的背后,是一個融合腦科學靈感與工程創新的故事。



△《Configurable Foundation Models: Building LLMs from a Modular Perspective》論文

本期「大模型創新架構」主題訪談量子位邀請到面壁智能&清華CFM論文作者肖朝軍,聊聊這場算力與效率的博弈以及大模型架構創新的未來。

以下為量子位面壁智能&清華CFM論文作者肖朝軍的對話實錄整理:

探索原生稀疏

量子位:能簡單介紹一下CFM(Configurable Foundation Models)技術的核心優勢嗎?

肖朝軍:CFM是一種原生稀疏技術,利用模型本來就有的稀疏激活性質,相比MoE可以極大提升模型參數效率。

量子位:參數效率是什么?極大提升參數效率意味著哪些優勢?

肖朝軍:參數效率是指模型單位參數的有效性,一般能夠反映在相同參數規模下,模型是否表現更好。參數效率提升最直接的影響就是省顯存、省內存。

尤其手機端不可能像云端一樣用好幾臺GPU服務器一起推幾千億參數規模的模型。手機內存有限,操作系統占一部分,個人應用需要一部分,如果大模型把內存占滿,那手機基本上就不可用了,所以參數效率在端側應用里非常重要

量子位:CFM與MoE(Mixture of Experts)的區別在哪里?

肖朝軍:我們的稀疏粒度更細,更強調神經元級別的稀疏,可以說CFM的顆粒度比其他許多在FFN層做稀疏化改進的工作要更細,在稀疏化上走得更極致。

現在超大參數規模的MoE稀疏化可能已經成為主流,但不適合端側。MoE的稀疏粒度是專家級別,CFM是神經元級別,而且CFM動態性也強于MoE。MoE固定激活Top k個expert,CFM是靠模型自己的激活函數來定義具體激活多少expert。

任務難的話可能需要激活10-100個,任務簡單可能就激活1-2個。



△CFM積木式組合構建高效任務模型

量子位:為什么MoE不使用你們這種更強的動態性?

肖朝軍:本質是參數效率原因。

MoE的目的是增大模型參數,比如600B的模型無法在一臺機器上放下,必須在訓練過程就卡死激活專家的數量,必須限制住最多激活top k或top p個專家,要不然就可能算不下了。

他們必須在訓練階段就要有負載均衡的loss,使每個expert和每個token大致均衡。而我們參數效率高,所有參數可以放在一起像傳統稠密模型的FFN一樣計算。



△涌現模塊的形成過程示意圖

模型架構之爭

量子位:你怎么看待像Mamba、RWKV這些計算復雜度為線性的非transformer架構模型帶來的挑戰?

肖朝軍:從模型效果上來說,transformer仍是天花板最高的架構。當前所有其他的非transformer架構探索都是在做效率,而不是效果

我觀察目前優化路徑大概有兩種:

一種是線性派,包括Mamba、Linear Attention、Gated Linear Attention、RWKV等;

另一種是基于transformer,但對KV cache做管理,比如KV eviction、KV compression等。做FFN改進的其實不多,我們強調的稀疏可能是FFN改進中非常重要的一點。

量子位:很多非transformer架構都在多個測試集上打敗了主流transformer模型,你怎么看?

肖朝軍:需要辯證看待。

首先要考慮公平性,比如Mamba實際上有固定的memory,在短文本時可能memory size更大,這可能是用更多存儲換取更好效果。

像RULER等一系列長文本評測中,線性模型目前還是打不過transformer。大家報的結果都是”在某方面比transformer好”,但為什么沒有廣泛應用?因為沒辦法全面打敗transformer

量子位:今年1月份大模型六小強中的一家訓的千億參數線性attention模型在RULER上打敗了GPT-4o、Claude-3.5-Sonnet等transformer模型,你怎么看?
肖朝軍:他們的模型是混合架構,純線性很難做到同樣的表現。但能有這樣的成績說明他們混合之后的效果還是很厲害的。

量子位:如何才能客觀評價模型架構之間的優劣?

肖朝軍:確實很難有一個放之四海而皆準的評判方式。transformer之所以取代CNN和RNN成為主流,是因為它真的能scaling。

之前的架構是scaling不了的,transformer帶來了一種新可能性:我們可以訓練很大的模型,用很多數據獲得更多智能。而且它不需要任何trick,不需要人為調參就能獲得好效果。

量子位:你認為transformer成為主流架構有偶然性嗎?

肖朝軍:既有偶然性也有必然性。有個概念叫“硬件彩票”

軟件往往走在硬件前面,我們會開發很多算法,但真正實現加速的是被硬件廠商選中的那種。transformer高強度對著GPU設計,真能打滿GPU利用率,所以踩中了硬件彩票。

現在的Mamba、RWKV誰能踩中下一波硬件彩票,誰也說不準。



△硬件彩票內涵

小模型與智能未來

量子位:目前一個小模型的定義是多大size?最小能在什么尺寸的模型里壓縮進主流大模型的能力?這個極限在哪?

肖朝軍:現在小模型的大小沒有明確定義,基本上端側的話,可能還是在2-3B的范圍算小模型。

關于模型壓縮極限,我們發表過Densing Law的論文,但極限在哪里我們確實還不知道。很多人問未來是不是用64個比特就能放下GPT-4,那顯然不可能,但具體極限還不明確。

量子位:智能的本質是壓縮嗎?

肖朝軍:這樣說有點怪。之前有一篇“語言模型即壓縮”的論文,只是把壓縮率和PPL做了轉換,這很難說成本質。

Ilya最早提出智能本質是壓縮這個思想的時候,強調的是“壓縮器”能夠很好地建模數據分布規律,而不是直接用語言模型來構建數據壓縮器。

Hinton說過,智能的本質是學習,就是學習能力才是智能的本質。我認為抽象能力可能更接近智能本質。你看語言本身就是一種符號,能表征世間萬物,承載人類知識,是抽象和總結的載體。

量子位:面壁智能的小模型落地情況如何?

肖朝軍:我們開源的最大模型是是MiniCPM-3-4B,也有一些未開源的項目級模型可能有幾十B。

我們的端側場景很廣泛,包括手機端、電腦端、智能家居等都在射程范圍。



△面壁智能官網

量子位:精度優化方面,你們怎么看FP8等低精度計算?

肖朝軍:精度降低后模型效果會變差,需要非常多的設計才能保證效果。

但現在DeepSeek已經開源FP8算子部分了,只要跟著做一些補全就行,現在再訓新模型的只要有卡肯定都上FP8了,25年會更多人做FP8,做的更實用更激進。未來還會有FP4,一步步發展。

量子位:小模型在多模態方面有限制嗎?

肖朝軍:效果都挺好的。小模型在多模態這塊,從打榜上看差異沒有那么大。你會發現多模態現在還沒有一個非常漂亮的scaling law。

而且也還沒有一個統一共識的多模態模型架構。知識能力上,小模型可能還有差距,差距主要體現在對知識的調度和理解上。

量子位:你怎么看o1的這條技術路線?

肖朝軍:o1主要是用強化學習和高質量數據,強調強化學習和推理的scaling。
當前強化學習整個推理過程很慢,硬件利用率也不高,這會使強化學習過程需要使用大量算力但模型思考步數不深、探索空間不夠。

未來肯定會繼續往高效的深思考方向發展,讓模型能夠生成超長的思維鏈,之后會像pre-training一樣,先把強化學習的訓練規模做上來,然后再往小做、往高效做。

量子位:超長文本推理會是transformer架構的下一個突破點嗎?

肖朝軍:對,CoT(思維鏈)是目前很重要的方向。這種長思考一定是下一波大家要突破的點

目前o1這種長思維鏈和普通的長文本大海撈針完全不同。大海撈針只是找到信息就完事了,而o1的長思維鏈需要回到當時的狀態,重新做推理、重新搜索。

思考的時候走一條路走到底之后,可能還要繼續之前考慮過的另一條路。現有測試集都很難全面評測o1這種長思維鏈能力。



△直接推理與思維鏈區別示意

o1之后,我覺得下一步還有一個很重要的問題是創新能力的問題。就像OpenAI的技術規劃,到后面有個innovation

現在的搜索還是在已有的語義空間去搜索,但是真的要讓AI去做創新出之前沒有的東西,去探索一些新的未知的事物的時候,它一定要跳出之前預訓練階段見過的所有的東西去突破,但這個事情咋做?還不知道。

量子位:對于長文本推理,線性架構會有優勢嗎?

肖朝軍:目前沒有實證研究證明純RNN模型的推理能力,我個人認為類RNN的線性架構技術路線大概率會失敗,混合架構另當別論

效果為王,解決不了效果問題,談效率是不現實的

現有RNN模型其實等價于滑動窗口,在推理中會對記憶不斷乘一個遺忘系數。即使遺忘系數連續一萬步都是0.999這么大,那一萬步之前的內容也會遺忘完,上限天然太低。

量子位:大模型不可能三角(大模型無法同時實現低計算復雜度、高性能和并行化)問題有解決方案嗎?



△大模型不可能三角示意

肖朝軍:這個問題依舊存在,Mamba也依然沒有解決。如果真解決了,現在大家都會用起來。

Mamba等線性模型在短文本上能與transformer打平或更好,但長文本上仍有壓縮,而壓縮一定代表信息損失。我們還是無法兼顧計算復雜度和效果。

這個問題也許長期來看可以解決,因為人類思考也不是O(n2)復雜度的,不需要把之前所有KV都算一遍。但人腦存儲可能是分級的,有長期記憶和短期記憶,還可能利用外部工具如筆記本。具體怎么解決,目前還沒有摸到答案。

論文地址:
https://arxiv.org/abs/2409.02877

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
從趕超中國到一夜崩塌,訂單跌80%,4萬工廠停擺,越南制造成笑話

從趕超中國到一夜崩塌,訂單跌80%,4萬工廠停擺,越南制造成笑話

奉壹數碼
2025-03-02 22:54:39
李想官宣:MEGA再次上市!

李想官宣:MEGA再次上市!

電動知家
2025-04-11 10:30:58
兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

史二了
2024-07-27 17:12:02
聯盟第1!聯盟第2!NBA最強王炸組合誕生,西部要變天了

聯盟第1!聯盟第2!NBA最強王炸組合誕生,西部要變天了

世界體育圈
2025-04-12 21:04:23
歐盟將禁止在汽車中使用碳纖維

歐盟將禁止在汽車中使用碳纖維

MOTO
2025-04-11 18:39:29
知道她矮,但沒想到居然那么矮,遠看酷似小學生

知道她矮,但沒想到居然那么矮,遠看酷似小學生

歸史
2025-04-10 23:11:46
美國國防部長談論中美開戰結果:10艘航母對上中國,20分鐘后全滅

美國國防部長談論中美開戰結果:10艘航母對上中國,20分鐘后全滅

清游說娛
2025-04-10 15:55:27
今天是4月12日夜晚,剛剛傳來一個驚天大消息,要來大動作嗎?

今天是4月12日夜晚,剛剛傳來一個驚天大消息,要來大動作嗎?

股市皆大事
2025-04-12 16:31:31
全球關稅大戰波及民生,馬上要漲價的5樣東西,現在囤貨還來得及

全球關稅大戰波及民生,馬上要漲價的5樣東西,現在囤貨還來得及

阿器談史
2025-04-12 06:20:06
炸裂!黃渤出海釣了16條藍鰭金槍魚!一條30多斤,邀約大美女相伴

炸裂!黃渤出海釣了16條藍鰭金槍魚!一條30多斤,邀約大美女相伴

新語愛八卦
2025-04-12 14:13:57
兩岸關系新動向:臺當局兩項舉措引發大陸戰略考量

兩岸關系新動向:臺當局兩項舉措引發大陸戰略考量

暖心的小屋
2025-04-13 00:39:20
建議睡覺時把手機放1.5米以外?不是因為輻射,而是……

建議睡覺時把手機放1.5米以外?不是因為輻射,而是……

環球網資訊
2025-02-25 14:51:04
費舍爾:賽季初沒人能想到湖人會西部第三 雷迪克展現了執教能力

費舍爾:賽季初沒人能想到湖人會西部第三 雷迪克展現了執教能力

直播吧
2025-04-12 21:11:13
關稅上調后,100萬的美國豪車入華能賣到225萬?實際上會更高!

關稅上調后,100萬的美國豪車入華能賣到225萬?實際上會更高!

李子櫥
2025-04-12 14:58:20
突發!29歲鄭州帥哥凌晨自殺!獨子遺言曝光,全網淚崩

突發!29歲鄭州帥哥凌晨自殺!獨子遺言曝光,全網淚崩

侃侃娛季
2025-04-12 16:47:41
遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

書畫藝術收藏
2025-03-15 19:15:05
太炸裂!導演王晶凌晨發文,怒噴香港頂流男星:求你滾出娛樂圈

太炸裂!導演王晶凌晨發文,怒噴香港頂流男星:求你滾出娛樂圈

洲洲影視娛評
2025-04-13 01:24:43
半導體“流片地即原產地”規則再明確!美系大廠產能轉移難 國產進程加速信號已現?

半導體“流片地即原產地”規則再明確!美系大廠產能轉移難 國產進程加速信號已現?

財聯社
2025-04-12 11:31:05
特朗普下令“松綁”軍售

特朗普下令“松綁”軍售

參考消息
2025-04-11 20:08:04
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

影史侃談
2025-03-16 22:40:07
2025-04-13 03:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10304文章數 176095關注度
往期回顧 全部

科技要聞

大變化!美國免除部分“對等關稅”

頭條要聞

央視網發聲:特朗普政府已圖窮匕見 中國放棄幻想

頭條要聞

央視網發聲:特朗普政府已圖窮匕見 中國放棄幻想

體育要聞

復仇之戰,還是最后一舞?

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

游戲
本地
時尚
親子
軍事航空

未來新作有望?負責人稱《暗黑》已制定十多年規劃

本地新聞

華北將迎“歷史罕見”大風

“格紋裙”陪你閃耀春天,這么搭拿捏時尚感,通勤時尚兩不誤

親子要聞

人類幼崽在睡夢中微笑,這小姿勢看著真是太悠閑了,網友:真可愛,看來做了一個美夢

軍事要聞

普京與美國中東問題特使結束會談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 金寨县| 吉安县| 平泉县| 类乌齐县| 南宁市| 屏边| 天柱县| 昌江| 石景山区| 鱼台县| 德江县| 礼泉县| 论坛| 锡林郭勒盟| 房产| 新宾| 黔南| 隆林| 新源县| 吉木萨尔县| 泾川县| 顺平县| 石河子市| 得荣县| 孝感市| 栾川县| 惠安县| 鹤岗市| 连山| 北碚区| 铜鼓县| 兴文县| 大冶市| 双城市| 伊宁市| 珠海市| 盐城市| 宣武区| 德保县| 五常市| 资兴市|