深度學習的成功已經無需多言。一直以來,研究者們都嘗試從數學角度去解釋神經網絡的有效性。然而,由于網絡的結構可以看作是高維線性變換和逐元素的非線性變換(如 ReLU 激活函數)之間的多重復合,因此實際上并沒有很好的數學工具去破解這樣復雜的結構。
所以,對于神經網絡的理論研究往往局限在諸如網絡的逼近、優化、泛化以及其他觀測到的現象等方面。
如果拋開理論的限制,一個無可爭議的事實是:更寬、更深的網絡總是有著更好的效果。小到幾層的全連接網絡、大到萬億規模的大模型,都一致性地保持著這樣的規律。
那么,如何從理論上理解這樣的事實?激活函數又在其中扮演什么樣的角色?
相比于寬度,對深度的研究更加具有挑戰性,因為層數的增加還伴隨著非線性函數的不斷復合。
一個典型的問題是,當模型寬度固定的時候,增加模型的深度是否比淺層的模型擬合更多的數據點?
中國科學院應用數學所博士畢業生蓋闊在讀博期間完成一個生成網絡算法設計的工作和一個現象驅動的可解釋性工作之后,希望探索關于人工智能的為題。
圖 | 蓋闊(來源:蓋闊)
因為自己是數學背景出身,所以就想做一些理論的結果。但在當時神經網絡理論研究的框架已經很清晰,研究剩下的空白難題則都非常有難度。
“以至于我讀了很久的已有文獻,也沒能找到原創性的切入點。”他說。
經歷一系列不成功的嘗試之后,蓋闊又回到了最初的一個直覺的想法:因為網絡的寬度更容易分析,比如對于一個簡單的線性方程
來說,當增加 W 的尺寸之后,能求解的關于 X 和 Y 之間的方程個數也會線性增加。
如能把深度等效為寬度,將兩層網絡等效為一個單層的大矩陣,那么就可以通過消元法去找到這個大矩陣方程的解,也就對應著兩層神經網絡的解,這也說明增加網絡深度就像增加寬度一樣有效。
但是,對于逐元素非線性激活函數與矩陣乘法之間的復合幾乎沒有什么工具來幫助計算,也不具備很好的優化性質。
例如,對于方程
假設
都是已知的,如果
是 ReLU 或者 Sigmoid 函數,那么求解這個方程是很困難的。
因為不是凸問題,所以即便使用優化后的方法也無法保證一定會求到解答。但是,求解這樣一個方程卻是他在課題構想中的重要一步。
雖然沒能進一步推進,不過問題的具體形式已經相對清晰了。蓋闊表示如果將激活函數的范圍拓寬,這樣的方程就可以找到解(例如把激活函數換成矩陣指數)。
這樣做的好處是,當兩個矩陣是可交換的時候,經過矩陣指數函數激活之后,所得到的矩陣也是可交換的。
為了使特定矩陣具有可交換的性質,就需要額外增加一層網絡參數。有了可交換的性質,就很容易求解上述方程,那么就可以在等效的大矩陣里做消元,找到三層函數的一組解。
就這樣,他就在這種特殊的激活函數下實現了最初的設想。
具體來說,蓋闊和博士導師張世華研究員討論之后認為:如能找到一個簡單直接的例子,能夠說明在有激活函數的情況下,網絡加深一層后能夠擬合更多的數據點,那么這樣的結果可能更有意義。
為此他們將網絡參數擴展到復數域,并且將逐元素的激活函數替換為矩陣指數激活函數,從而可以對三層的神經網絡:
找到一組解析解使得:
其中,所有的矩陣均為 d 維的方陣,這就說明了網絡深度的有效性,因為假如只有一層網絡的話就只能滿足一組
總的來說,他們在理論上找到了一個解釋性較好的例子,可以幫助人們更好地理解神經網絡深度以及非線性激活函數的有效性。
實驗中他們觀察到,雖然本次理論結果是針對矩陣指數激活函數而言的,但對于逐元素的 ReLU 或者 Sigmoid 激活函數,也能在網絡較寬時觀察到類似的優化結果,即兩層網絡擬合數據點的能力大概是單層的二倍。而這可能會啟發其他研究者發現更加一般性的結論。
日前,相關論文以《矩陣指數激活函數的三層網絡的解析解》(ANALYTICAL SOLUTION OF A THREE-LAYER NETWORK WITH A MATRIX EXPONENTIAL ACTIVATION FUNCTION)為題發在arXiv[1]。
圖 | 相關論文(來源:arXiv)
蓋闊表示:“非常感謝張世華老師的支持與鼓勵。當課題遲遲沒有進展的時候,張老師沒有就論文發表施加壓力,也沒有催促更換課題。”
“幸運的是,本來已經計劃和張老師討論放棄這個課題了,但在討論前一天又突然有了靈感,最終找到了解決的路徑。如果張老師沒有這樣多的耐心,可能我也最后等不來靈感出現。”他最后表示。
參考資料:
1.https://arxiv.org/pdf/2407.02540
排版:溪樹
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.