來自Meta AI的華人科學(xué)家劉壯團(tuán)隊(duì),聯(lián)合AI大神何愷明, 圖靈獎(jiǎng)得住Yann LeCun等大牛搞了個(gè)大新聞——他們的最新論文證明了:Transformer 模型,竟然可以不用Normalization(歸一化)層也能達(dá)到甚至超越現(xiàn)有性能!,論文已經(jīng)被CVPR 2025接收
Normalization層在現(xiàn)代神經(jīng)網(wǎng)絡(luò)中幾乎是標(biāo)配,大家都覺得它是必不可少的“定海神針”。但劉壯團(tuán)隊(duì)卻打破了這個(gè)固有認(rèn)知,簡單來說事實(shí)證明,你可以用參數(shù)化的 tanh() 代替正則化層來訓(xùn)練深度網(wǎng)絡(luò)
核心秘密:Dynamic Tanh (DyT),一個(gè)“復(fù)古”又強(qiáng)大的替代品!
他們的秘訣是什么呢?答案出乎意料地簡單:Dynamic Tanh (DyT)。沒錯(cuò),就是那個(gè)我們在上世紀(jì)80年代就見過的 tanh 函數(shù)!
DyT 的公式也很簡潔:DyT(x) = tanh(αx)
,其中 α 是一個(gè)可學(xué)習(xí)的縮放因子。這個(gè)操作簡單來說,就是先通過 α 調(diào)整輸入激活值的范圍,然后再用 tanh 函數(shù)進(jìn)行“擠壓”,把極端值壓下去
為什么要用 DyT?
莊劉團(tuán)隊(duì)的靈感來自于一個(gè)樸素的觀察:Layer Normalization 在 Transformer 中,經(jīng)常會產(chǎn)生類似 tanh 函數(shù)的 S 型輸入輸出映射。也就是說,LayerNorm 實(shí)際上也在做類似“擠壓”的操作
既然如此,為什么不直接用 tanh 函數(shù)呢?
DyT 的優(yōu)勢:性能不輸,速度更快,成本更低!
更讓人驚喜的是,DyT 不僅簡單,而且非常有效!劉壯團(tuán)隊(duì)在各種不同的任務(wù)和模型上進(jìn)行了驗(yàn)證,發(fā)現(xiàn):
?覆蓋面廣:從圖像識別到生成,從監(jiān)督學(xué)習(xí)到自監(jiān)督學(xué)習(xí),從計(jì)算機(jī)視覺到語言模型,DyT 都能勝任
?模型適用性強(qiáng):ViT、ConvNeXt、MAE、DINO、DiT、LLaMA、wav2vec 2.0、HyenaDNA、Caduceus,這些當(dāng)下最火的模型,都能用 DyT 來替換 Normalization 層
?性能給力:在大多數(shù)情況下,DyT 都能達(dá)到或超越原有 Normalization 層的性能,而且?guī)缀醪恍枰~外的超參數(shù)調(diào)整
?速度更快:在 H100 這樣的高端 GPU 上,DyT 甚至比 RMSNorm (一種在大型語言模型中常用的 Normalization 層) 還要快!
這意味著什么?
這意味著,我們可以用更簡單、更快速的方法,訓(xùn)練出性能更好的 Transformer 模型!考慮到模型訓(xùn)練和推理需要耗費(fèi)大量的計(jì)算資源,DyT 有潛力為我們節(jié)省大量的成本
代碼和論文地址:
?論文:http://arxiv.org/abs/2503.10622
?代碼和網(wǎng)站:http://jiachenzhu.github.io/DyT/
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.