99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

何愷明在MIT的最新講座!

0
分享至

來源:Datawhale

麻省理工學院施瓦茨曼計算學院(MIT Schwarzman College of Computing)舉辦的“拓展計算視野”系列講座中,“深度學習日”邀請了麻省理工學院電氣工程與計算機科學系副教授、計算機科學與人工智能實驗室成員何愷明(Kaiming He)博士,就生成式模型(Generative Modeling)這一主題發(fā)表了精彩演講。


何愷明博士首先介紹了生成式模型的概念及其廣泛應用,包括文本生成、圖像生成、視頻生成(如Sora),以及在科學領域如蛋白質設計和天氣預報中的應用。他強調了生成式模型與判別式模型的區(qū)別,并指出生成式模型的核心在于概率建模,即學習數(shù)據(jù)背后的潛在分布。

隨后,何愷明博士深入探討了深度學習在生成式模型中的作用,并介紹了當前主流的生成式模型方法,包括變分自編碼器(VAE)、生成對抗網(wǎng)絡(GAN)、自回歸模型和擴散模型。他還特別強調了生成式模型作為“下一級抽象”的概念。最后,他通過多個實例,展示了如何將現(xiàn)實世界的問題(如自然語言對話、圖像描述、機器人控制等)形式化為生成式模型,并強調了其廣泛的適用性。 講座深入淺出,為理解生成式模型提供了寶貴的視角。



視頻地址:
https://www.youtube.com/watch?v=2yJSoaGU2i4

綱要

生成式模型 ├── 一、 介紹 (Introduction) │   ├── 生成式模型 (Generative Modeling) 概述及其影響 │   ├── 生成式AI時代的應用舉例 (ChatGPT, 文本生成圖像/視頻) │   ├── 日常生活中的應用 (AI 輔助編程) │   ├── 科學問題中的應用 (蛋白質設計, 天氣預報) │   └── 生成式模型的歷史發(fā)展 (Photoshop 內(nèi)容感知填充, 紋理合成) ├── 二、 什么是生成式模型?(What are Generative Models?) │   ├── 生成式模型的特性 │   │   ├── 多種可能的預測 │   │   ├── 預測的合理性 │   │   ├── 分布外生成 │   │   └── 預測的復雜性 │   ├── 與判別式模型 (Discriminative Models) 的比較 │   └── 概率建模 (Probabilistic Modeling) 的重要性 ├── 三、 深度學習與生成式模型 (Deep Learning and Generative Models) │   ├── 深度學習是表示學習 (representation learning) │   ├── 生成式模型中的深度學習 │   │   ├── 表示數(shù)據(jù)實例和概率分布 │   │   └── 分布之間的映射 │   └── 深度生成模型的要素 │       ├── 問題形式化 │       ├── 表示 (Representations) │       ├── 目標函數(shù) (Objective Functions) │       ├── 優(yōu)化器 (Optimizer) │       └── 推理算法 (Inference Algorithm) ├── 四、 現(xiàn)代生成式模型方法 (Modern Approaches to Generative Models) │   ├── 生成式模型為什么難? │   │   ├── 無監(jiān)督學習 (Unsupervised Learning) │   │   └── 分布映射 │   └── 主要方法介紹 │       ├── 變分自編碼器 (Variational Autoencoders, VAE) │       ├── 生成對抗網(wǎng)絡 (Generative Adversarial Networks, GAN) │       ├── 自回歸模型 (Autoregressive Models) │       ├── 擴散模型 (Diffusion Models) │       └── 流匹配 (Flow Matching) ├── 五、 將生成式模型應用于現(xiàn)實世界問題 (Formulating Real World Problems into Generative Modeling) │    ├── 條件分布 p(x|y) 的解釋 (y: 條件, x: 數(shù)據(jù)) │    └── 不同應用場景下的 x 和 y │       ├── 自然語言對話 (chatbot) │       ├── 文本到圖像/視頻生成 │       ├── 3D 生成 │       ├── 蛋白質生成 │       ├── 無條件圖像生成 │       ├── 圖像分類與開放詞匯識別 │       ├── 圖像描述 (Image Captioning) │       └──機器人策略學習 ├── 六、 總結 (Conclusion) │    ├── 生成式模型以深度神經(jīng)網(wǎng)絡為構建塊 │    ├── 生成式模型是下一級的抽象 │    └──未來的發(fā)展:更高級別模型的構建塊 └── 七、 問答環(huán)節(jié) (Q&A)      ├── 關于分類任務中生成模型與判別模型的比較      └── 關于 p(x|y) 的方向性和目標函數(shù)的問題

講座實錄 一、 介紹 (Introduction)

大家好!今天我將和大家聊聊生成式模型 (Generative Modeling)。在座的各位,有多少人用過 ChatGPT 或者類似的工具?(停頓,觀察聽眾反應)可能每個人都用過,對吧?那么,在接觸 ChatGPT 之前,有多少人聽說過“生成式模型”這個術語?(停頓,觀察聽眾反應)嗯,還是有不少人了解的。

在這次演講中,我將對生成式模型做一個高度概括的介紹,并探討它如何影響我們的生活以及未來的研究方向。

毫無疑問,我們正處在一個所謂的“生成式AI”時代。對公眾而言,這個時代可能始于 ChatGPT 或其他聊天機器人的出現(xiàn)。我們可以用自然語言與計算機交流,提出各種問題,它就像一個助手,幫助我們解決各種問題。但這并不是唯一的生成式AI模型。

另一個非常流行且強大的工具是“文本到圖像生成”。用戶可以給計算機一段文本,通常稱為“提示詞”(prompt),然后計算機會生成一張圖片。例如……(切換幻燈片,展示“一只泰迪熊在黑板前講授生成式模型”的圖片)我希望這能正常工作……(調試設備)……抱歉,出了點小問題。


好,回到正題。例如,在這個例子中,提示詞是“一只泰迪熊在黑板前講授生成式模型”。計算機算法很可能以前從未見過這張確切的圖像,但這就是它如何根據(jù)給定的文本提示生成圖像的。

我們甚至可以更進一步,要求計算機算法生成一段視頻。(播放 Sora 生成的紙飛機視頻)這是由 Sora 在一年前生成的,非常令人印象深刻。我相信,可能沒有哪個制片人會以這種方式拍攝視頻,讓這么多紙飛機在樹林或森林上空飛翔。這完全是計算機算法想象出來的。

實際上,生成式模型可以成為我們?nèi)粘I钪蟹浅姶蟮纳a(chǎn)力工具。例如,它仍然是一種聊天機器人,但它可以幫助我們編寫代碼。這是一個AI助手,它可以閱讀你的代碼,嘗試修復代碼中的問題,你可以直接用自然語言與助手交流,助手會將你的指令轉換成代碼。從某種意義上說,以前的編程語言可能是 C++、Python 或 Java,而下一代的編程語言可能就是英語,或者說人類的語言。

生成式模型的應用遠不止計算機科學領域。實際上,它已經(jīng)被用于許多科學問題中。例如,蛋白質設計與生成 (Protein Design and Generation)。我們的終極目標是設計或生成某種類型的蛋白質,來解決我們關心的問題,比如治愈某些非常危險或致命的疾病。這項工作被稱為 RF diffusion,它實際上是今年諾貝爾獎得主工作的一部分。

還有許多其他的科學問題可以從生成式模型中受益。這是 DeepMind 幾年前的一項工作,他們可以使用這個模型來預測未來幾小時或幾天的天氣變化。對于經(jīng)典算法來說,這是一個非常困難的問題,因為我們知道,天氣或氣候的變化是混沌的,很難精確預測。我們可能不想要那一時刻的確切物理狀態(tài),我們想要的是一些定性的行為,比如那一時刻是否下雨或刮風。從這個意義上說,生成式模型或深度學習可以為這個問題提供一個很好的解決方案。


實際上,在生成式模型最近進入我們的日常生活之前,它已經(jīng)被開發(fā)和應用了幾十年。有一個工具叫做 Patchmatch,或者在 Photoshop 軟件中被稱為“內(nèi)容感知填充”(Content Aware Fill)。當我還是博士生的時候,這是一個非常令人印象深刻的工具,當時我研究的正是同一個問題。這里的場景是,你會得到一張照片,用戶可以指定照片中的某個區(qū)域或結構,計算機算法會嘗試根據(jù)用戶的指令修復或編輯照片。


事實上,在那個時候,還沒有深度學習。老實說,對于這個應用或這個算法,甚至沒有機器學習。這是一個非常經(jīng)典的計算算法,但在概念上,這也是一種生成式模型。這項生成式模型背后的技術,實際上可以追溯到更早的10年前。這是一種叫做紋理合成 (Texture Synthesis) 的算法,它的目標是,給你一個紋理示例,你希望將紋理擴展到更大的圖像,或者將紋理粘貼到你關心的某個 3D 對象上。這里的想法非常簡單,你只需根據(jù)已經(jīng)合成的內(nèi)容,逐像素地合成紋理。在今天的語境下,這實際上就是一個自回歸模型 (autoregressive model)。

二、 什么是生成式模型?(What are Generative Models?)

這就是我接下來要講的內(nèi)容。我將快速介紹生成式模型的概念,然后介紹一些現(xiàn)代方法,如何使用當今的深度神經(jīng)網(wǎng)絡構建生成式模型,以及如何將現(xiàn)實世界的問題形式化為生成式模型。


首先,什么是生成式模型?事實證明,這是一個非常困難的問題,因為當生成式模型變得越來越強大時,生成式模型的范圍也在不斷變化。即使我將介紹一些生成式模型的經(jīng)典定義,我只想說,也許今天,每一個問題都可以被形式化為一種生成式模型。

現(xiàn)在,讓我們看看剛才介紹的應用場景。這些場景有什么共同點?例如,圖像生成、視頻生成和文本生成,實際上,對于一個輸入,存在多個預測,或者從概念上講,存在無限個預測。假設你希望計算機生成一張貓的圖像,你會告訴計算機“這是一只貓,我想要一只貓”。從概念上講,存在無限多種可能的貓。

生成式模型的另一個特性是,某些預測比其他預測更合理 (plausible)。例如,如果你想要一只貓,計算機可能會生成一只獅子,也可能生成一只狗。根據(jù)常識,在這種情況下,獅子比狗更合理,當然,貓比獅子更合理。

生成式模型還有一個非常有趣的特性,你的訓練數(shù)據(jù)可能不包含精確的解決方案。正如我們所看到的,我相信計算機從未見過一只泰迪熊站在黑板前講授生成式模型,同樣,計算機也肯定沒有見過這些在森林上空飛翔的紙飛機。這是一種“分布外”生成 (out-of-distribution generation)。計算機算法是在某些數(shù)據(jù)上訓練的,但它們生成的內(nèi)容可能超出了訓練數(shù)據(jù)的分布。

此外,大多數(shù)情況下,生成式模型的預測可能比它們的輸入更復雜、信息量更大,從概念上講,維度也更高。例如,在文本到圖像生成中,如果你希望計算機生成一只貓,這只是一個很短的詞,而輸出圖像將有數(shù)百萬像素,甚至更多。

所有這些特性使得生成式模型比一些經(jīng)典的深度學習或識別問題困難得多。


在教科書中,這是生成式模型的正式定義。通常,當介紹生成式模型時,人們會將其與所謂的判別式模型 (Discriminative Models) 進行比較。什么是判別式模型?正如你在這次演講中看到的,如果我們關心圖像分類問題,你會得到一張圖像,然后你要訓練一個模型,例如一個神經(jīng)網(wǎng)絡,你希望神經(jīng)網(wǎng)絡輸出一個標簽,比如說“狗”。從概念上講,在這個非常簡單的場景中,我們可以將生成式模型想象成逆轉這個過程。

在這種情況下,你會得到一個“狗”的標簽,然后你希望訓練一個模型,同樣,這可以是一個神經(jīng)網(wǎng)絡,然后你希望輸出圖像,也就是 x。在這種情況下,會有許多可能的輸出,許多可能的狗。輸出的維度會更高,輸出會是你以前從未見過的另一只狗。

從概念上講,這是判別式模型和生成式模型的一種概率可視化。左邊是判別式模型,有一些綠點,代表一個類別,還有一些橙點,代表另一個類別。判別式模型的目標是找到一個可以分離這兩個類別的邊界,這似乎更容易。從概念上講,任務是找出這個條件概率分布,這意味著你會得到 x,比如一張圖像,然后你想要估計 y 的概率,比如它是標簽 0 還是標簽 1。

相比之下,在生成式模型的上下文中,你仍然會得到相同的數(shù)據(jù),相同的點。但這里的目標是估計這些點的概率分布。假設在這個類別中,對應于 y=1,你想要估計這個類別的條件概率分布。從概念上講,在生成式模型中,我們關心的是概率建模 (Probabilistic Modeling)。這是生成式模型想要解決的關鍵問題,也是關鍵挑戰(zhàn)。


你可能會想,為什么,為什么會有概率?為什么我們關心概率建模?實際上,在許多現(xiàn)實世界的問題中,我們可以假設存在一些潛在的分布。你也可以假設你的數(shù)據(jù)實際上是由一些非常復雜的世界模型 (world model) 生成的。

例如,如果我們關心人臉圖像,我們可以將問題形式化為存在一些潛在因素 (latent factors),比如姿態(tài)、光照、尺度,實際上還有人臉的身份。這些是潛在因素,然后你假設這些潛在因素存在一些分布。這些潛在因素會被一個世界模型渲染,例如,你如何將一個 3D 對象投影到一個 2D 像素網(wǎng)格上。然后,這些潛在向量將被這個世界模型渲染,而你實際能觀察到的只是一個 2D 網(wǎng)格。

這就是觀察值 x。然后,你的 2D 網(wǎng)格會遵循一些非常復雜的分布,這些分布不能簡單地用一些潛在分布來描述。這就是為什么我們關心概率建模,而生成式模型正試圖揭示這些潛在向量,以逆轉這個過程。


例如,假設我們有一些數(shù)據(jù),假設我有一個狗的數(shù)據(jù)集,這意味著我有很多數(shù)據(jù)點,每個數(shù)據(jù)點對應一張狗的圖像。從概念上講,我們想象存在一個潛在的分布,可以對所有狗的分布進行建模。值得注意的是,這已經(jīng)是你建模的一部分,因為你可以用許多不同的方式對潛在的世界生成器進行建模。即使我們經(jīng)常假設存在這個潛在分布,這個分布也是建模的一部分。

然后,生成式模型的目標是學習一個神經(jīng)網(wǎng)絡,或者其他模型,來近似這個分布。假設這個紅色分布是我們從神經(jīng)網(wǎng)絡中學到的,這里的目標是最小化數(shù)據(jù)分布和你估計的分布之間的距離。這仍然是一個非常困難的問題,有很多解決方案,但從概念上講,幾乎所有現(xiàn)有的生成式模型都可以用這種方式形式化,它們只是試圖解決這個問題所暴露出的挑戰(zhàn)。

從概念上講,假設你的模型在這方面做得很好,那么你就可以開始從你估計的分布中進行采樣 (sampling)。如果你的模型做得很好,這意味著當你從這個分布中采樣時,你所做的在概念上類似于從原始數(shù)據(jù)分布中采樣。在這種情況下,希望它會產(chǎn)生另一只你的算法從未見過的狗。

也有可能進行概率估計 (probability estimation)。也就是說,你的模型會得到另一張圖像,比如說一只貓,然后你可以問模型,這張圖像在原始數(shù)據(jù)分布下的可能性有多大。在這種情況下,如果原始數(shù)據(jù)分布是關于狗的,而輸入圖像是一只貓,那么希望它會產(chǎn)生一個較低的概率密度估計。

這就是我們?nèi)绾问褂酶怕式硇问交墒侥P蛦栴}。

三、 深度學習與生成式模型 (Deep Learning and Generative Models)

正如你可以想象的那樣,今天我們解決生成式模型最強大的工具是深度學習。Philip 已經(jīng)對深度學習做了一個非常出色和快速的介紹。從概念上講,簡而言之,深度學習是表示學習 (representation learning)。

Philip 介紹的是學習表示數(shù)據(jù),或者從概念上講,表示數(shù)據(jù)實例的過程。這意味著你會得到數(shù)據(jù),比如說圖像,然后你想要將圖像映射到標簽。這是使用深度神經(jīng)網(wǎng)絡進行表示學習的一種方式。


在生成式模型中,實際上有另一種使用深度學習的方式,但仍然是為了表示學習的目標。也就是說,我們不僅要學習單個數(shù)據(jù)實例的表示,還要學習概率分布的表示。這是一個更復雜的問題,從概念上講,它可以被視為學習另一種方式的映射。假設這里,輸出是標簽,比如說貓的標簽或狗的標簽,然后你想要將其映射回像素空間。

因此,正如你可以想象的那樣,深度學習或深度神經(jīng)網(wǎng)絡是生成式模型的一個非常強大的工具。從概念上講,當你將這個工具用于這個問題時,模型實際上同時扮演著這兩個角色:首先,學習表示數(shù)據(jù)實例;其次,學習表示概率分布。


從概念上講,這就是模型的樣子。你的模型會得到一個非常簡單的分布,例如,它可以是一個高斯分布,也可以是一個均勻分布,這無關緊要。在圖像的情況下,這看起來就像一張完全嘈雜的圖像。然后,目標是學習一個神經(jīng)網(wǎng)絡,使得它可以將嘈雜的圖像映射到輸出空間中的另一張圖像。從概念上講,如果你的模型可以做得很好,希望輸出會是一張視覺上合理的圖像,比如說,在這種情況下是一只狗。然后,你可以不斷地從輸入分布中采樣噪聲,希望神經(jīng)網(wǎng)絡會將所有內(nèi)容轉換成輸出中有意義的圖像。

從概念上講,當你這樣做時,實際上,你的神經(jīng)網(wǎng)絡正試圖將一個簡單的分布(例如這里的高斯分布)映射到另一個分布,從概念上講,這是為了近似潛在的數(shù)據(jù)分布。從這個意義上說,生成式模型是分布之間的映射 (mapping between distributions),它不僅僅是一對數(shù)據(jù)點和一個標簽之間的映射,它是從一個分布到另一個分布。

接下來的幻燈片會有一點技術性,也許我可以快速過一下。這些是深度生成模型的一些基本要素 (Fundamental Elements of a Deep Generative Model)。首先,你可能需要將現(xiàn)實世界的問題形式化為概率模型或生成式模型。這是我們設計算法最關鍵的部分之一。

在你完成之后,你需要一些表示 (Representations),今天,通常這是一個神經(jīng)網(wǎng)絡。你想要表示數(shù)據(jù)及其分布。然后,你需要引入一些目標函數(shù) (Objective Functions) 來衡量兩個分布之間的差異。然后,你需要一個優(yōu)化器 (Optimizer),可以解決非常困難的優(yōu)化問題。然后,你還需要一個推理算法 (Inference Algorithm),從概念上講,這是一個采樣器 (sampler),可以從潛在分布中采樣。


今天,許多數(shù)學和理論研究都與這個列表中的一個或多個要素有關。我不打算深入細節(jié),但接下來我將對生成式模型的一些現(xiàn)代方法和流行方法做一個非常高層次和快速的概述。我還將解釋為什么生成式模型是一個難題。

四、 現(xiàn)代生成式模型方法 (Modern Approaches to Generative Models)

這是你剛剛看到的圖。如你所見,這里的問題是,如果你的模型得到一張嘈雜的圖像或嘈雜的輸入,你希望它將噪聲映射到輸出圖像。為什么這很難?回想一下,在 Philip 的演講中,他談到了監(jiān)督學習的問題。在這種情況下,你會得到一張圖像,以及該圖像的標簽,你有一對輸入和輸出。這是一個形式化非常好的監(jiān)督學習問題,這個問題對于現(xiàn)代神經(jīng)網(wǎng)絡來說很容易解決。

但在生成式模型中,從概念上講,這是一個無監(jiān)督學習 (Unsupervised Learning) 問題。也就是說,你會得到一張圖像,但從概念上講,你不知道什么輸入噪聲會對應于那張圖像。這種對應關系或配對問題也是你的底層算法應該嘗試解決的問題。從這個意義上說,從概念上講,這不僅僅是映射圖像對或數(shù)據(jù)對,而是映射兩個分布。你想要將一個簡單的高斯分布映射到一個非常復雜的數(shù)據(jù)分布,這就是為什么生成式模型很難。

有許多有效且非常聰明的算法可以解決這個問題。我將從一些非常基本和優(yōu)雅的算法開始,然后我將開始討論一些當今最先進的算法。


首先,我將討論變分自編碼器 (Variational Autoencoders, VAE)。從概念上講,在生成式模型中,正如我們已經(jīng)介紹過的,你想要將輸入分布映射到輸出分布。然后,我們可以將其形式化為一個自編碼 (autoencoding) 問題。這意味著,如果你有數(shù)據(jù)的分布,那么你可以訓練另一個神經(jīng)網(wǎng)絡,將數(shù)據(jù)分布映射到你喜歡的分布,比如說高斯分布。然后,在你得到這個分布之后,你可以學習生成器將其轉換回來。從概念上講,你計算輸入和輸出之間的距離。

這是深度學習中非常經(jīng)典的自編碼思想。但在經(jīng)典算法中,通常從概念上講,這會被應用于數(shù)據(jù)實例的概念,也就是說,你將其應用于每一張圖像。在變分自編碼器中,從概念上講,自編碼的概念被應用于分布。你可以想象這個分布只是一個對象,只是一個你想要處理的實體。你將這個對象轉換成這個更簡單的對象,然后你再將其轉換回來。這就是自編碼的思想。


另一個非常流行的解決方案,可以說是 10 年前生成式模型研究的開端,叫做生成對抗網(wǎng)絡 (Generative Adversarial Networks, GAN),簡稱 GAN。從概念上講,GAN 也只是想學習一個生成器,從一個簡單的分布到數(shù)據(jù)分布。但 GAN 并沒有在簡單分布之前引入另一個網(wǎng)絡,而是在你獲得估計分布之后引入了一個額外的神經(jīng)網(wǎng)絡。這個額外的神經(jīng)網(wǎng)絡被稱為判別器 (discriminator)。判別器的目標是判斷你的樣本是來自預測分布還是來自真實分布。如果判別器無法判斷它來自哪個分布,那么這意味著這兩個分布將非常相似。

GAN 是過去十年中最流行和最強大的生成式模型,直到過去三四年出現(xiàn)了一些非常強大的工具。

另一個非常強大的生成式模型工具叫做自回歸模型 (Autoregressive Models)。在自然語言處理的上下文中,這通常被稱為“下一個詞預測”(next token prediction)。但從概念上講,自回歸或自回歸的思想不僅僅是預測下一個詞。基本上,如果我們關心涉及許多元素或許多變量的概率,那么根據(jù)概率論的基本原理,我們總是可以將這個聯(lián)合概率分解為一系列條件概率。


自回歸模型的關鍵思想是分別對每個條件概率進行建模,而不是對整個聯(lián)合概率進行建模。如果你按照序列的順序進行這種分解,假設在這種情況下,你想要首先預測 x1,然后預測 x2,條件是 x1,依此類推,如果你遵循這個順序,那么你可以將你的問題轉化為下一個詞預測。

自回歸模型的思想是將一個非常復雜的問題分解為一堆更簡單、更小的問題。例如,在這種情況下,在第一個輸出中,你將估計一個非常簡單且低維的分布。在這個例子中,例如,這將是一個一維分布。然后在第二個節(jié)點中,它將預測變量的下一個維度。然后,它將是一個二維分布,依此類推。很難可視化更高維的分布,但從概念上講,當你這樣做時,這將是一個高維空間中的分布。這是自回歸模型的關鍵思想。

然后,在過去的三四年里,出現(xiàn)了一種非常強大的模型,特別是在圖像生成和計算機視覺領域。這個模型的靈感來自物理學中的熱力學。其思想是,你可以將問題形式化為通過添加高斯噪聲來反復破壞干凈的數(shù)據(jù)或輸入圖像,然后你可以逐步將其轉換為完全噪聲的圖像。然后,學習的目標是逆轉這個過程。如果你能做到這一點,那么你就可以逐步從嘈雜的輸入回到干凈的圖像。這個想法被稱為擴散 (diffusion),或者通常也被稱為去噪擴散 (denoising diffusion)。


從概念上講,使用概率或概率分布的術語,這意味著你將有一個輸入數(shù)據(jù)分布,希望它是關于干凈圖像的。然后,你只需在其上反復添加噪聲。從概念上講,這就像在分布空間上運行一個卷積核。通過多次這樣做,最終你將把數(shù)據(jù)分布轉換為高斯分布。然后,你的模型只是試圖學習逆轉這個過程。

這是擴散模型在推理時的樣子。它將從一個非常簡單的分布開始,比如說高斯分布。然后,它將逐步逆轉這個過程,回到數(shù)據(jù)分布。實際上,這種可視化與圖形學中流行的許多概念非常相似。例如,你可以想象這個過程的起點是一些圓錐形的形狀,比如說一個球體或一個圓柱體。然后,你想要逐步變形或扭曲這個對象、這個形狀,變成你喜歡的另一個形狀。假設這可以是,例如,一座山或一只兔子。

你想要逐步將輸入球體扭曲成一只兔子,這是一個研究得很好的問題。在分布建模的情況下,我們可以將這個分布字面上想象成一個幾何實體。然后,你可以形式化一個過程來進行這種轉換。實際上,我剛才描述的是一種新興的思想,叫做流匹配 (Flow Matching)。你想要從一個非常簡單的對象或非常簡單的形狀(如球體)流向另一個更復雜的形狀(如兔子)。如果你有這個算法,然后如果你將你的底層形狀形式化為一些概率分布,那么你就可以使用這個思想來進行概率建模,也就是生成式建模。


從概念上講,這只是同一件事的另一種可視化。你將從一些簡單的分布開始,比如說高斯分布。這將是你想建模的數(shù)據(jù)分布。這里的目標是逐步將你的輸入分布更改為輸出分布。然后,在計算機圖形學中,有許多優(yōu)秀的解決方案可以解決這個問題。這里的一個想法是學習一個流場 (flow field)。你可以想象,如果這實際上是一個 3D 對象,那么你將有一些 3D 頂點或 3D 表面。你想要逐漸將這些 3D 表面從球體移動到兔子中的一些 3D 表面。如果你這樣做,那么將有一個流場可以通過這個過程構建。背后會有很多數(shù)學細節(jié),當然,我不會深入探討,但這是生成式模型最新進展的高層思想,也就是流匹配。


從概念上講,這些是當今生成式模型的一些流行方法。我沒有涉及任何數(shù)學細節(jié),但瀏覽所有這些方法是很有趣的。我想說明的一點是,在所有這些生成式模型中,都會有一些深度神經(jīng)網(wǎng)絡作為構建塊。這就像在深度神經(jīng)網(wǎng)絡中,會有一些層作為構建塊。這些層是 Phillip 剛剛介紹過的模型。它們可以是線性層,可以是 ReLU,可以是歸一化層或 softmax 層。


神經(jīng)網(wǎng)絡是由所謂的層構建的一些實體。而今天,這些生成式模型是由深度神經(jīng)網(wǎng)絡構建的一些實體。從這個意義上說,生成式模型是下一級的抽象。

五、 將生成式模型應用于現(xiàn)實世界問題 (Formulating Real World Problems into Generative Modeling)

接下來,我將討論如何在解決現(xiàn)實世界問題的背景下使用這些數(shù)學模型或生成式模型的理論模型。正如我們已經(jīng)介紹過的,生成式模型中的關鍵問題是關于這個條件分布。你想要建模一個分布,從概念上講,你會得到條件 y,這是關于你的數(shù)據(jù) x 的分布。但在現(xiàn)實中,什么是 y,什么是 x?


在通用術語中,y 被稱為條件 (conditions)。假設你想要生成一只貓,它也可能是一些約束 (constraints),假設你不希望生成某種類型的輸出圖像。它也可能是標簽 (labels),文本標簽,或者其他標簽。它也可能是屬性 (attributes),假設你想要生成一個大的對象或一個小的對象。

在大多數(shù)情況下,條件 y 會更抽象,信息量也會更少。相比之下,輸出 x 通常被稱為數(shù)據(jù) (data),或者它是你在現(xiàn)實世界問題中可以看到的樣本的觀察 (observations) 或測量 (measurements)。在圖像生成的情況下,通常 x 就是圖像。通常,x 會比條件 y 更具體,信息量更大,維度更高。


現(xiàn)在,讓我們回顧一下我們剛剛介紹過的應用,并討論什么是 x,什么是 y。在自然語言對話或聊天機器人的上下文中,條件 y 是用戶給出的所謂提示 (prompt),輸出 x 是聊天機器人的響應。通常,輸出的維度更高,并且會有許多合理的輸出可以對應于同一個提示。


同樣,在文本到圖像生成或文本到視頻生成的上下文中,條件將是文本提示,它可以是一個句子,可以是一個類標簽,可以是一些屬性。輸出將是生成的視覺內(nèi)容,例如圖像和視頻。輸出的維度更高,更復雜。這些是典型的用例。


當然,在 3D 生成方面也是如此。在這種情況下,條件仍然是一個文本提示,輸出將是 3D 文本結構。在計算機視覺或圖形學應用中,3D 文本結構將是形狀、紋理,甚至可能是底層對象的光照。

然后,我們可以更進一步,將場景推廣到蛋白質生成的問題。在這種情況下,輸入條件仍然可以是一些提示,仍然可以是一些文本。假設你可以嘗試告訴計算機,我想生成一種可以治愈癌癥的蛋白質。這是有效的,但問題是,計算機無法理解“治愈癌癥”是什么意思,或者它能做什么來治愈癌癥。


在這種情況下,關于如何表示你關心的潛在條件,會有很多研究。你希望你的輸出蛋白質具有某些屬性,你希望這些屬性與治愈癌癥或治愈某些特定疾病有關。在這種情況下,條件會更抽象,它也可能是更高維的,因為它是某些行為的抽象,比如說治愈癌癥。輸出將是另一種表示,也是高維的,比如說 3D 中的蛋白質結構,它就像另一種 3D 對象。

然后,讓我們談談一些其他的場景,通常,人們不會認為它們是生成式模型。假設這是一個非常經(jīng)典的例子,人們會將其視為我們介紹過的判別式模型。哦,抱歉,不是這個。這是圖像生成的典型例子。你會得到一個類標簽,然后你的算法會被要求生成輸出圖像。這就是所謂的類條件情況,這意味著你的 y 將非常具體地針對一個標簽。


但還有另一種情況,你可以想象你不會得到任何條件。這意味著你想要生成一個數(shù)據(jù)輸出,該輸出將遵循數(shù)據(jù)的整個分布。在這種情況下,你可以將潛在條件想象成一個隱式條件,這意味著你希望圖像遵循你的底層數(shù)據(jù)集的分布。如果你的模型在這方面可以做得很好,那么它將嘗試區(qū)分這個數(shù)據(jù)集的分布與任何其他數(shù)據(jù)集的分布。


好,這就是我剛才混淆的例子。這是我們可以將生成式模型應用于判別式模型場景的想法。這是一個非常典型的監(jiān)督學習或判別式學習的例子,也就是圖像分類。你會得到一張圖像,然后你想要估計該圖像的標簽。如果我們要將其形式化為生成式模型,那么在這種情況下,實際上 y(在之前幾乎所有例子中都是標簽)在這種情況下將是圖像。在這種情況下,圖像是你的條件。然后,類標簽 x 將是預測的輸出。你想要對輸出的概率分布進行建模。

僅僅因為這個問題太簡單、太瑣碎,通常人們不會將其視為生成式模型,但它可以是。那么,這里的重點是什么?如果你可以將圖像分類建模為生成式模型,那么實際上,你可以將場景從閉集詞匯表分類(這意味著你會得到一組預定義的類標簽)擴展到開放詞匯表識別 (Open Vocabulary Recognition) 的場景。這意味著你不會得到一組預定義的類標簽。這意味著對于同一張圖像,可能有許多合理的答案。在這種情況下,你仍然會得到一張圖像,但你的輸出不再是一個唯一的正確答案。可能有許多不同的可能答案可以描述這張圖像。


例如,在這種情況下,這些都是合理的答案,可以說這是一只鳥或一只火烈鳥,這是紅色或橙色。正如你所看到的,即使對于這個非常經(jīng)典的圖像分類問題,如果我們嘗試將其形式化為生成式模型,它也可以開啟新的機會,并且將啟用新的應用,這對于經(jīng)典的判別式模型來說是不典型的。

我們甚至可以更進一步。你可以想象輸入條件 y 仍然是一張圖像,你希望輸出不僅僅是一個標簽或一個簡短的描述,它可以是一個完整的句子,甚至可以是一些可以描述這張圖像的段落。實際上,這也是計算機視覺中的一個經(jīng)典問題,被稱為圖像描述 (Image Captioning)。你希望計算機為這張圖像寫一個標題。


然后,在這種情況下,我們甚至可以更進一步。這張圖像可能只是你在對話中、在你與聊天機器人的自然語言對話中的輸入的一部分。在這種情況下,條件將是輸入圖像和一些其他的文本,也就是用戶給出的一些其他的文本提示。輸出將是聊天機器人基于這張圖像和文本提示的響應。假設在這種情況下,給定這張圖像,用戶可能會問,這張圖像有什么不尋常之處?聊天機器人可以嘗試提出一些關于這個問題的答案。它說,把衣服熨在固定在行駛中的出租車車頂上的熨衣板上是不尋常的。


在許多其他的現(xiàn)實世界問題中,例如機器人技術,我們也可以將策略學習的問題形式化為生成式模型。例如,在機器人控制中,可能有許多合理的軌跡、許多合理的策略可以完成相同的任務。在這種情況下,例如,你希望機器人將這些 T 形物體移動到它們的目標位置。機器人可以從右側移動,也可以從左側移動。這兩種軌跡都是合理的,沒有唯一的答案。這也是我們可以使用生成式模型來建模這個策略學習問題的地方。


總的來說,這就是我們剛才看到的。生成式模型從概念上講,只關心這個條件分布。在我看來,實際上,對于什么是 x 或什么是 y,沒有任何約束或要求。從概念上講,它們可以是任何東西。這意味著我們可以使用生成式模型來解決許多種類的現(xiàn)實世界問題。我們可以嘗試將所有這些現(xiàn)實世界問題形式化為某種條件分布問題,然后我們可以嘗試應用生成式模型的最新進展作為解決這個問題的工具。這也是為什么生成式模型在今天變得越來越普遍的部分原因,人們用它來解決現(xiàn)實世界的問題。



六、 總結 (Conclusion)

這將是這次演講的最后一張幻燈片,但我只想給出一些高層次的想法,并傳達一些我認為最重要的信息。正如我們所看到的,生成式模型有一些深度神經(jīng)網(wǎng)絡作為它們的構建塊。這就像深度神經(jīng)網(wǎng)絡有一些層作為它們的構建塊。10 年前,深度學習的研究主要圍繞這些層,比如說卷積、激活函數(shù)、歸一化、自注意力層等等。那是大約十年前的研究。


然后,我們有了生成式模型,生成式模型成為下一級的抽象。所有先前關于深度神經(jīng)網(wǎng)絡的研究仍然適用,但有一個新的研究層次將圍繞生成式模型構建。

展望未來,當人們使用這些生成式模型來做更多驚人的事情時,比如說大型語言模型、推理、智能體,以及機器學習(我們將在這次演講的其余部分中介紹),在這種情況下,這些現(xiàn)有的生成式模型將成為另一級的構建塊。正如我們可以看到的,正如你從 Philip 的介紹幻燈片中看到的那樣,我們正在構建一個由許多不同層次的模型組成的堆棧。

這些是不同層次的抽象。抽象可以是層,可以是深度神經(jīng)網(wǎng)絡,它們可以是生成式模型,也可以是推理智能體。這就是過去一個世紀左右計算機科學進步的方式。人們正在構建不同層次的抽象,然后我們可以解鎖不同層次的新機會。從這個意義上說,我想說生成式模型是下一級的深度學習,也是下一級的抽象和構建塊。

七、 問答環(huán)節(jié) (Q&A)

  • ?觀眾 1 提問:既然建模主要是映射分布,那么對于像分類這樣的簡單任務,是不是一個更難解決的問題?因為你在映射概率分布,這是一個更復雜的任務。這是否意味著它們在簡單任務上表現(xiàn)更差?

  • ?Kaiming He 回答:你是說生成式模型在簡單的監(jiān)督學習任務上表現(xiàn)更差嗎?我認為目前還沒有確定的答案。因為在某種意義上,我認為使用生成式模型來解決判別式問題還沒有成為一種普遍的共識。如果這是一個非常簡單的,比如說,閉集詞匯表分類任務,如果你非常清楚地知道你有 10 個可能的標簽或 1000 個可能的標簽,那么通常一個簡單的解決方案就足夠了。但是,即使在所謂的開放詞匯表識別的情況下,比如說,你會得到一張圖像,你仍然想要一個標簽,比如說一個主題標簽。那么你仍然可以有一個詞匯表,但那個詞匯表只是英語詞匯表,人類的詞匯表,它可能非常長。即使在這種情況下,我認為生成式模型也是一個好主意。然后,如果你想更進一步,你想要一個句子作為描述,或者如果你想要一些基于這張圖像的對話,那么生成式模型可能是你應該使用的唯一解決方案。

  • ?觀眾 2 提問:非常精彩的演講。我有兩個問題。當我們談論給定 y 時 x 的概率時,這似乎是單向的。我想知道你對雙向的可能性有什么看法。其次,在蛋白質合成的情況下,是否要求我們至少有一個明確的目標,也就是說,我們確切地知道如何啟動?是否可能有一個明確的目標函數(shù)范圍,有能力……(問題未說完)

  • ?Kaiming He 回答:好問題。第一個問題是,是否可以反向進行?我認為這取決于具體的方法。我認為最近,答案是肯定的。流匹配算法可以讓我們做到這一點。正如你可以想象的那樣,在我的類比中,如果你把流匹配想象成從一個球體移動到一個兔子,那么從概念上講,它不需要是一個球體,它可以是一只貓。你可以從一只貓變形到一只兔子。在這個類比中,這意味著你可以從一個任意分布轉換到另一個任意分布。然后它們的位置是對稱的。所以從概念上講,你可以交換它們,對吧?這是第一個問題。第二個問題是,如果我沒記錯的話,是關于機器人場景的。是否存在一個明確的目標函數(shù)?或者它是否可以在不明確的情況下工作?(問題未說完)

  • ?觀眾 2 補充:是的(目標函數(shù)不明確的情況)。

  • ?Kaiming He 回答:是的,好問題。我認為這更像是強化學習和模仿學習之間的區(qū)別,或者基本上就是監(jiān)督學習。我認為從概念上講,我們總是可以將問題形式化為強化學習。也就是說,你只想接近目標。假設目標是將 T 形物體移動到目標位置,如果你能做到,你就會得到獎勵。如果你做不到,你就什么也得不到,或者你的獎勵是零。這是可能的。然后,模仿學習或監(jiān)督學習是另一種方式。你試圖給出一些可能的軌跡的例子,然后你試圖模仿這種行為。是的,我想我可以在線下回答問題,因為我已經(jīng)超時了。讓我們繼續(xù)下一個演講。

引用鏈接

[1]Deep Learning Day: Generative Modeling: https://www.youtube.com/watch?v=2yJSoaGU2i4


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王勵勤上任!第一個離隊的教練曝光,王皓馬琳去留懸念揭曉

王勵勤上任!第一個離隊的教練曝光,王皓馬琳去留懸念揭曉

體育就你秀
2025-04-26 09:00:58
加1%都不行!中國聲音讓特朗普跌倒在地:徹底取消所有單邊關稅

加1%都不行!中國聲音讓特朗普跌倒在地:徹底取消所有單邊關稅

大風文字
2025-04-25 13:47:46
外國留學生群毆中國學生,打到頭破血流失去意識,學校:理性看待

外國留學生群毆中國學生,打到頭破血流失去意識,學校:理性看待

溫讀史
2025-04-26 14:26:25
隨著湖人1-2落后森林狼,快船2-1掘金,雷霆3-0,西部4強基本出爐

隨著湖人1-2落后森林狼,快船2-1掘金,雷霆3-0,西部4強基本出爐

球場沒跑道
2025-04-26 12:58:14
損失慘重!美官員承認:7架被擊落

損失慘重!美官員承認:7架被擊落

環(huán)球時報國際
2025-04-25 20:45:02
日本大爺?shù)暨M下水道已經(jīng)88天了,當?shù)卣Q預計5月中旬后救援

日本大爺?shù)暨M下水道已經(jīng)88天了,當?shù)卣Q預計5月中旬后救援

瀟湘晨報
2025-04-25 21:15:30
劉國梁卸任乒協(xié)主席不到三天,令人惡心的一幕還是出現(xiàn)了!

劉國梁卸任乒協(xié)主席不到三天,令人惡心的一幕還是出現(xiàn)了!

小嵩
2025-04-26 14:29:08
留學生在澳大利亞接到詐騙電話,竟飛越8800公里到四川自貢取現(xiàn)85萬元,幸被警方緊急攔截

留學生在澳大利亞接到詐騙電話,竟飛越8800公里到四川自貢取現(xiàn)85萬元,幸被警方緊急攔截

紅星新聞
2025-04-25 23:16:16
“你以為我們怕美國嗎?”美媒記者探訪義烏工廠得到這樣的回應

“你以為我們怕美國嗎?”美媒記者探訪義烏工廠得到這樣的回應

環(huán)球網(wǎng)資訊
2025-04-26 14:38:32
日本74歲大爺墜入道路塌陷深坑,至今89天未獲救,民眾已懷疑大爺是否真實存在

日本74歲大爺墜入道路塌陷深坑,至今89天未獲救,民眾已懷疑大爺是否真實存在

西游日記
2025-04-26 12:56:07
周正毅上海瑞吉酒店慶生后與老友聚會,抽雪茄疑提醒朋友不要借錢

周正毅上海瑞吉酒店慶生后與老友聚會,抽雪茄疑提醒朋友不要借錢

阿矗論古今
2025-04-25 23:24:02
剛從美國回來,說幾句很多人不愛聽的大實話

剛從美國回來,說幾句很多人不愛聽的大實話

曉風說
2025-04-25 21:54:25
江西一家三口被開快車泄憤男子撞死后 失獨老人發(fā)現(xiàn)兒子的獻血證和聯(lián)合國兒童基金會“月捐”證書

江西一家三口被開快車泄憤男子撞死后 失獨老人發(fā)現(xiàn)兒子的獻血證和聯(lián)合國兒童基金會“月捐”證書

閃電新聞
2025-04-25 22:54:13
感謝印度為我們指明了方向

感謝印度為我們指明了方向

低調看天下
2025-04-25 23:12:34
大錯特錯!“給特朗普獻計的人,壓根不懂中國”

大錯特錯!“給特朗普獻計的人,壓根不懂中國”

觀察者網(wǎng)
2025-04-26 16:18:17
外籍學生群毆中國人后續(xù):受害者已毀容,畫面不忍直視,官方介入

外籍學生群毆中國人后續(xù):受害者已毀容,畫面不忍直視,官方介入

歸史
2025-04-26 11:25:34
男子買魚要求不宰殺被扔秤砣后續(xù):結果已出,武漢官方賬號淪陷

男子買魚要求不宰殺被扔秤砣后續(xù):結果已出,武漢官方賬號淪陷

小人物看盡人間百態(tài)
2025-04-25 13:34:02
燒光7億,關店近一半!40元一碗的高端面,年輕人實在咽不下去了

燒光7億,關店近一半!40元一碗的高端面,年輕人實在咽不下去了

阿傖說事
2025-04-24 14:25:34
中國取消1.2萬噸美國豬肉訂單 較前一周大幅減少72%

中國取消1.2萬噸美國豬肉訂單 較前一周大幅減少72%

財聯(lián)社
2025-04-25 17:43:44
初中女生遭多人侵犯后,家屬奔波三年要追責那個“案外”的生物學父親

初中女生遭多人侵犯后,家屬奔波三年要追責那個“案外”的生物學父親

澎湃新聞
2025-04-26 08:06:30
2025-04-26 18:24:49
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
259文章數(shù) 125關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

美媒記者探訪義烏工廠 工人們懟:你以為我們怕美國嗎

頭條要聞

美媒記者探訪義烏工廠 工人們懟:你以為我們怕美國嗎

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經(jīng)要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

時尚
本地
數(shù)碼
旅游
公開課

今夏流行“不穿褲子”!洋氣顯瘦顯腿長,誰穿誰好看!

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

數(shù)碼要聞

由于未能通過測試 Google已放棄三星的HBM3E工藝轉用美光

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 郸城县| 长治市| 大英县| 固原市| 镇江市| 平果县| 朝阳市| 平顶山市| 伊吾县| 泾源县| 南木林县| 鲜城| 万盛区| 盐津县| 加查县| 台南县| 斗六市| 平塘县| 荔波县| 绥德县| 武威市| 彭阳县| 咸丰县| 茶陵县| 抚州市| 宜春市| 嵊州市| 南华县| 达州市| 新蔡县| 科技| 蒙自县| 习水县| 西平县| 黔南| 武安市| 长武县| 雷山县| 太谷县| 久治县| 长沙县|