6月23日,由中國人工智能學會主辦,CAAI智能傳媒專業委員會、中國傳媒大學數據科學與智能媒體學院、媒體融合與傳播國家重點實驗室、新浪新聞承辦的主題為“變量激蕩 增量涌現”2024全球人工智能技術大會 智能傳媒專題活動在杭州拉開帷幕。加拿大工程院外籍院士、寧波東方理工大學(暫名)科研副校長、講席教授、lEEE Fellow曾文軍分享了題為《可解釋可控制AI內容生成》的演講。
以下是曾文軍演講實錄,內容經編輯略有刪減:
感謝組委會的邀請,今天很高興有這個機會,在這里基于我的團隊前幾年的一些工作,給大家分享一下我們對可解釋、可控制的AI內容生成的一些認知和理解。
大家知道,人工智能自從1956年概念提出來之后,其發展是幾起幾落的。最近這十幾年的發展,特別是近幾年生成式大模型的發展,使我們看到了通用人工智能的一些希望。
生成式人工智能是通過機器學習,從數據中學習它的特征,進而生成全新的、原創的數據。從著名的Gartner技術成熟度曲線上可以看到,它最近處在非常高速發展的階段。
生成式人工智能可以生成各種模態的內容:語言、語音、圖像、代碼等等。我們可以進行內容開發、內容生成和傳媒方面的應用,也可以為我們的科學研究提供一些知識的參考。
Open AI的ChatGPT大家都非常熟了,它可以回答問題,生成文本、翻譯等,也是Open AI希望達到實現通用人工智能目標的一個重要步驟。
目前一些人工智能大模型,在很多任務上已經可以通過圖靈測試了,也就是它的能力是非常強的。其在很多方面引起了變革,微軟對Open AI很早就開始有投入,所以現在整個產品線都圍繞著它在發展。比如對于搜索可能是最大的一個沖擊,所以百度、谷歌壓力也非常大。微軟從去年、前年開始,就已經把Open AI的大模型和搜索引擎深度結合了,所以有了現在的New Bing。當時發布的時候引起了一些大的反響,股票一夜暴漲了800億美元,在市場份額中提升了一兩個百分點。
微軟在全盤擁抱大模型,把Open AI的GPT系列和它的辦公室軟件深度融合,所有的產品線,包括研究,都在圍繞著大模型在開展。所以可以看到有些它的產品,像PPT能力等能夠得到很大的提升。
在編程方面,因為微軟有GitHub,擁有很多數據,這方面有大模型的加持,可以比較快地編程,可以減輕一些代價的代碼。
在科學研究方面,我們有一些領域的大模型,包括在醫療方面、生物醫學方面、化學方面,對研究的發展也起到了很大的作用。
在創造力方面,在內容生成方面,都有它的創新性。
在數字人方面,我們團隊最近也有一些工作,比如在視頻里面如何生成人人交互,就是有一個主動人做一個動作,另外一個人反應的動作序列是怎么樣的,可以通過生成式人工智能的方式,對數字人的制作也可能有一定的作用。
我們因此也發布了目前最大規模的人人交互3D動作數據集,可以用來做motion to text,還有reaction motion generation,就是反應式動作生成等。
但是去年比爾·蓋茨說了,生成式AI已成過去,已經達到峰頂了,未來應該是可解釋AI的天下。所以他認為,我們在通往通用人工智能方面還有很多工作需要做。
什么叫可解釋人工智能?它指的是AI的行為可以被人類理解,它與深度學習中的“黑匣子”概念形成一個鮮明對比,“黑匣子”完全是數據驅動的,所以有時候我們不知道里頭發生了什么事情。我們希望可解釋AI至少對模型的運行機理能夠有比較好的解釋。
這方面的工作可以分成三大類,一類是在建模前我們對數據做一些可解釋的分析,通過可視化數據,對數據有一定的理解。還有一類是構建可解釋性的模型,也就是模型本身希望它有一定的解釋性,我們知道它是如何工作的,我們得到的一些結果也知道它是如何產生的。還有一種,也有一些前期工作,就是模型先建,然后對模型進行可解釋性分析,去理解這個模型怎么做的。這個應該控制性稍微小一點,模型本身可能有可解釋性,可能也沒有,我們只是對它做一個事后分析。
從最近這幾年關于可解釋性AI文章數量也可以看出,它越來越受到大家的關注,當然大家用詞可能不一樣,但其實都是這個意思,希望我們對于模型或者是數據或者是功能方面有一定的解釋性。
生成式AI還是面臨一些挑戰的,它有一定的問題,比如在谷歌Bard發布的時候,產生了一些用詞是不真實的,不符合事實的,它的代價也很大,所以兩天市值蒸發了1500億美元,大家對大模型本身的能力有一定的質疑,對于它的應用有一定的質疑。
同樣,ChatGPT也有幻覺的問題,比如它曾經發布一個丑聞,里面指認了實際的一個人作為一個被告,還引用了一些虛構的文章。這種現象,大家不理解它為什么會產生這種文章,也許因為它就是基于概率的。所以這方面讓大家產生很多困惑,就是我們怎么對待大模型產生的一些內容。我們對它的機理,如何產生這些內容沒有更好的理解。
大語言模型能力非常強,它與我們大腦運作在很高層次上是比較接近的,比如人腦是與環境交互進行強化學習,大模型也用了人類反饋的強化學習的機制。我們人腦有法律和道德的約束,在大模型上我們試圖去增加一些警示,增加一些規章制度,避免它產生一些不太合適的內容。但是大模型確確實實太大了,所以它里面的參數含義也很難理解,完全控制它的輸出幾乎是不太可能的,有時候我們不理解它為什么產生這些內容。
在文生視頻方面Open AI 的Sora的能力非常強了,它的真實感非常強,對我們的提示詞的表達也比較逼真,它有比較強大的能力,但同樣這種大模型也存在內容生成方面不太可理解的問題。
Sora技術背景是利用了Transformer能力,再加上和擴散模型的結合,能夠產生一個高質量的逼真視頻。Sora也存在反事實生成等一些問題。比如這個杯子倒了,但是它表現出來的跟自然規律不太一樣,也就是它不太理解這個杯子的水倒了的物理原理是什么。同樣,在跑步機上跑步,看起來也不太符合邏輯,背著跑步機在跑。也就是說,它能夠產生一定的內容,但是對一些后面的物理原理、機理的東西還不太理解。包括吹蠟燭,吹了以后這個火焰也沒有反應等等,還是缺少對我們物理原理的認知。
所以生成式AI面臨著安全方面的挑戰,有幾方面:一個是數據安全,數據的隱私、數據的質量本身也是一個問題,里面的數據可能還有一些偏見;二是模型方面,模型的可解釋性是非常有限的,模型本身也會受到一些攻擊,也可能帶有一些數據的偏見;三是內容生成方面,可以看到虛假的信息,不真實的信息,準確性問題等等。
Open AI的CEO自己也說了,在這個階段,不能夠依賴ChatGPT去做任何重要的事情。也就是說它不太可靠,你讓它去做一些醫療、工業生產等后果嚴重的事,還要比較小心,因為可解釋性方面還是有一定的局限性。
因為前期技術發展,大家比較重視它的性能、質量,忽視了對它的可解釋性,這方面工作相對來說少一點。最近學術上有一些工作,國家層面上也有這方面的一些投入,比如美國就有一個NSF/NDIF項目,就是希望對大模型本身各個部件的機理有一個更好地理解,每個部件到底是做什么事情,通過探究型的形式,對各個不同的部件進行放大、理解。
這也說明我們存在一個問題,這是一個挑戰,也是一個機會,從學術角度來講,我們怎么去解決這些問題? 有不同的方法,我今天在這里關注的是我們認為比較有前途、有意義的方向,叫表征解耦,這個概念是Bengio 2013年提出來的,他說如果想讓AI能根本性地理解我們的世界,必須將隱藏在數據背后的可解釋的factor解耦出來。什么意思呢?
這是些圖像,這些圖像后面可解釋的因素是什么?是它的物體的形狀、顏色、大小,包括相機的角度等等,這是產生這個圖像的基本概念或者是我們對這個圖像的一個理解。
這些是在數據背后的可解釋因素,如果我們做到對這些因素的表征解耦,我們在生成的時候,可以通過獨立地調整這個參數生成一系列圖像,只有對應的屬性是在變化的,其他屬性不變。這就是我們對它有比較深的理解了,知道它是如何生成這些圖像的。
同樣,我們也希望給我這個圖像,能夠設計出AI模型,能夠提取出比較獨立的、比較可解釋的因素。如果我們能夠做到這點,我們對圖像的理解以及它的生成就有比較好的可解釋性,我們知道它是如何生成的,跟物理世界的契合度就比較高。
Bengio提出這么一個概念,但是他并沒有提出解決方案。這個概念是非常重要的,它對可解釋性,對后面做一些推理,對一些概念的學習,都有非常基礎性的意義。
從應用的角度,我們今天在談內容生成,實際上它對圖像的生成、對圖像的編輯,只改變某個屬性,而不改變其他屬性,都有很大的意義。你如果能夠理解透了以后,就不需要那么多數據對新的場景做重復訓練,因為它后面的本質是一樣的。我個人認為比較重要的是泛化性的應用,因為我們現在面臨工業應用領域很大的問題是泛化性。換了一個場景后,一個模型性能可能會下降很多,就是因為你對它的理解并不是很透,它完全是數據堆積起來的,如果它按照表征解耦的方式去理解這個物體,你換了一個環境,它可以清楚哪些是不變的因素,哪些是變的因素,它只要針對那些變的因素就行了,不變的因素它已經學得很好了,模型可以很快適應。所以,有了這個表征解耦之后,對于我們傳媒領域應該有比較大的幫助。
這是2021年ICLR文章的統計,表征解耦已經是比較受關注的一個課題。下面舉一些例子,什么叫表征解耦?我們怎么做?從解決方案角度來講。
這是比較早期的一個解決方案,它是利用VAE網絡結構,你有一個encoder,有一個decoder,它有一些不確定性,通過概率分布參數的表達,它的均值、方差,通過采樣去做生成。這里面Loss方程有兩項,第一項就是圖像重建的質量,你這個圖像分解了以后再重建應該盡量接近。所以第一項表示輸入和輸出要一樣;第二項,在傳統的VAE里,β是等于1,它實際是描述兩個分布的差異,也就是說這個表征空間的表達Z,它的分布,我們覺得應該不錯的是獨立的聯合高斯分布。所以希望在系統里面,分布跟獨立的聯合高斯分布是接近的,通過這種方式去約束它。但傳統的VAE的方法,第一,它重視質量,它能重建得好;第二,它希望Z表征空間的分布有一定特性。但是我們現在關注的是表征解耦,我們就要更重視第二項,也就是它的元素是要獨立的,因為這是一個必要條件。如果你想獨立控制它,我們希望這些元素都是相互獨立的。所以我就把β值加大,讓它更注重、更關注這個,這樣就能夠保證表征空間上的元素獨立性更強一點,所以這是一個基本思想。
但是也有工作提出,這個獨立性只是一個必要條件,不是充分條件,實際上有很多可能的解是可以滿足它是獨立,但是它并不是解耦的。所以它指出來這個問題,就是你這么做是一個好的方向,但是簡單這么做是不夠的,不能完全解決這個問題。
實際上更大的一個問題,表征解耦從概念上大家都可以理解,但是從數學定義上,什么叫表征解耦?這個問題Bengio沒有把它解決掉,只是提出一個概念問題。所以后來在這方面比較重要的一個工作,他用數學的方法來表達什么叫表征解耦,從這個角度來定義滿足什么樣的條件叫做表征解耦。一般來說給定一個圖像,你對圖像有一個描述,圖像通過編碼映射到表征空間Z,所以我們希望這個表征空間Z是可解耦的。這個基于群論的定義大概的意思是說,我們可以用群的方式表達對圖像的操作,它可以分成幾個子空間Gi。如果這個從W到 Z的映射f滿足一定條件,即同樣的行為G,比如改變顏色,我可以在W和Z上做,在哪里做沒有關系,最后是一回事。滿足了這個條件,如果Z空間也可以分解成幾個子空間Zi,而且每個Zi只受到前面那個相應群Gi的影響,有一個對應的關系。如果能夠滿足這些條件,這個Z的表達就是解耦的,所以從數學的角度定義了什么叫表征解耦。
這個定義非常好,讓我們從理論的角度有一個比較清晰的定義。但是這里的問題是這個定義是作用在W空間上,需要對圖像進行標注描述,在實際應用中或優化中難度比較大,理想的情況下,我們希望不需要標注,只給圖像,就想辦法把它訓練好。
VAE/GAN-based很好地把它結合在一塊了,最后發現它們是很契合的。最主要的是通過前面的那個定義,你可以推導出三個主要的約束,第一個是對數據的約束,基本上是對應前面基于VAE的方法,即表征Z要獨立,它只是必要條件,不是充分條件。根據這個理論的定義還有另外一個約束,什么意思呢?要滿足那個理論的定義,我在對圖像做變化的時候,比如對圖像做一個上下翻轉,需要通過先Encode,做一個相應變換,即改變Z的值,再做Decode,可以得到你想要的圖像。還有一個約束是什么叫可解耦,也很簡單,對于剛才提到的可解釋因素,其實每一個都是非常基本的操作,任何操作都可以在里面進行組合,我要滿足它可解耦,其中一個必要條件是我對先做哪一個操作沒有關系,比如先變顏色,再變大小,會等價于我先變大小,再變顏色,不會改變最后形成圖像的樣子。所以很簡單,你可以做基本操作1,再做基本操作2,也可以先做基本操作2,再做基本操作1,會得到同樣的結果。所以這兩個操作非常接近或者是完全一樣,這就是我們對可解耦的理解,最后轉換成的兩個差異要很小。
通過這些額外約束,可以做到更好地解耦。這是一些評價解耦能力的參數,值越大越好。所以通過結合基于群論的定義以后,就可以把均值增大一些。更重要的是 通過這個解耦以后,解耦的確定性是更大的,原來的方案,因為它只是滿足一個必要條件,所以它的解耦性能變化范圍很大,有時候解耦,有時候不解耦了,所以它的解耦能力有很大的方差。
從生成圖像也可以看出,原來的方案要改變車的轉向,但同時車的顏色也在變,也就是說,顏色和轉向這兩個因素還是耦合在一塊的,它并沒有很好解耦。 但是通過我們的技術,改變轉向并不會改變顏色,也就是說這些因素已經分開了。改變表征空間的一個因素,看它生成圖像的變化,可以看出解耦性。
再舉一個例子,我們前段時間做的一個工作。對于生成模型,我們訓練的時候并沒有專門做解耦,但是會發現里面有一定解耦性,某些特定隱參數變化,生成圖像會沿著某一個屬性在變化,它隱含了這種能力,但是這種能力有多強不好說,但是確實有這個能力。GAN等生成模型的好處是質量比較高。所以我們能不能利用生成模型圖像高質量的能力,同時又使它能夠有解耦的能力,這樣可以解決解耦合生成質量的矛盾。所以這也是我們提的一個方法,也很簡單,我們知道在隱空間,我們可以設定它的變化方向,好的方向可能對應某個屬性的變化,如果這個方向是對的,確實對應某個屬性,生成的圖像別的不變,只有某個屬性是在變化的。再加了Encoder,前后輸出差別會有一定規律,因為只有一個屬性變,別的屬性不變。如果方向不是對應某個屬性的,是混雜的、耦合的方向,前后生成的圖像就會比較亂,它不是只是某個屬性變化,輸出差別分布會很不一樣。你可以用對比學習的方法,如果一致就有一個分布,不是一致它的分布不一樣。可以同時訓練這個隱空間方向搜索和解耦Encoder這樣做,我們希望它重建的圖像質量比較高,同時它又達到解耦的特性。
再舉一個例子,也是我們最近的工作,用到VAE結構,我們希望訓練出一個表達空間,它是解耦的。但是我們可以借助于擴散大模型的強大能力,我們知道擴散模型里圖像生成是一個迭代的過程,它有不同質量的生成,這樣閉環交互訓練、互相輔助。比如這里生成解耦的表征結果,去控制上面擴散模型的生成,這樣可以讓它生成的時候效率更高一些。同時上面擴散模型的圖像質量又能夠幫助下面的訓練過程,比如β-VAE的誤差函數里有一個參數C,它在控制對解耦的影響。原來的工作里C是人為調的,從大到小來設。在我們的方案里,完全由上面擴散模型這一路中間結果來自適應控制,這樣生成質量各方面都會更好,解耦性也會更好。
剛才談了半天,我們對解耦的表達到底是什么形式?可以是前面提到的可解釋因素,這是一個很基本的東西,但我們相信更重要的是要結合語言的表達,因為語言描述圖像通常就是一個解耦的描述。所以如何用語言的描述表達一個視覺模型,也是一個很基本的思想,我們也正在探索這方面的工作。
比如這幅圖像,用大語言模型可以得到一個caption,可能開始比較亂,因為大語言模型本身沒有顯式解耦能力,只是告訴你有什么東西,我們可以通過后處理得到一個解耦的Text。但是我們現在最大的目的是在視覺表征空間上得到解耦的表征,怎么樣去做它?多模態大模型里面有一個對齊問題,如果你能夠想辦法讓文本和視覺表征對齊以后,就會具有一定的意義,而且有對應性。這方面有很多工作可以去做,舉個例子,假如它們對齊以后,可以改變文本的屬性值,相應視覺表征會改變,相應重建圖像屬性也會改變。你可以把依此編輯過的圖像作為輸入,再走一遍,讓它改回來,改完以后就應該恢復成原圖像,這樣就形成一個Loss了。
解耦有一個很大的好處,就是解耦完還可以做組合,生成圖像的時候可以組合,不管是在物體層面的組合還是屬性組合。如果做好,改變是很容易的,比如我們可以用場景圖作為一種解耦表達去控制圖像生成,有兩只羊還是三只羊,就可以很好地控制它。在這個過程中還可以顯式加入Layout過程,兩只羊放在哪,每只羊都可以分別控制。這樣可以做到最后只改變一只羊的顏色,或者只改變一面墻的顏色,做到更好的可控性。
總結一下,生成式人工智能是新型的生產力和創造力,但是有效利用還存在一些問題,可解釋AI的基本理論的發展非常重要,如何真正去做到可解釋、可控制的生成,還需要結合我們的先驗知識、物理原理等要素。
謝謝大家。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.