2025年3月20日,《每日科學》發布《新型人工智能工具生成高質量圖像的速度比現有頂尖方法更快》(New AI tool generates high-quality images faster than state-of-the-art approaches),文章探討了新型人工智能圖像生成工具的原理、優勢和潛力應用。啟元洞見編譯文章主要內容,旨在為讀者了解新型人工智能圖像生成工具提供參考。
能夠快速生成高質量圖像,對于構建逼真的模擬環境至關重要,這些環境可用于訓練自動駕駛汽車以避開不可預知的危險,從而使其在真實道路上更安全。
然而,當前越來越多被用于生成此類圖像的生成式人工智能技術也存在一些缺陷。一種流行的模型類型——擴散模型(diffusion model)——能夠生成極為逼真的圖像,但速度較慢且計算資源消耗巨大,不適用于許多實際應用。另一方面,驅動像ChatGPT這樣的語言大模型的自回歸模型(autoregressive model)雖然速度更快,但生成的圖像質量較差,常常充滿錯誤。
對此,來自麻省理工學院(MIT)和英偉達(NVIDIA)的研究人員開發出了一種全新的方法,將兩種模型的優點結合起來。他們的混合圖像生成工具使用自回歸模型快速勾勒出整體圖像輪廓,然后再通過一個小型擴散模型對圖像細節進行精細化處理。
他們的工具被稱為HART(Hybrid Autoregressive Transformer,混合自回歸變換器),能夠生成與最先進的擴散模型相媲美甚至超越的圖像質量,同時速度提升了約九倍。
這一生成過程比傳統擴散模型消耗更少的計算資源,使得HART能夠在普通筆記本電腦或智能手機上本地運行。用戶只需在HART的界面中輸入一個自然語言提示詞,即可生成圖像。
HART有望在多個領域得到廣泛應用,例如幫助研究人員訓練機器人完成復雜的現實任務,或幫助設計師創作出令人驚艷的視頻游戲場景。
“如果你在畫一幅風景畫,直接一次性涂滿整個畫布,可能不會太好看。但如果你先畫出整體構圖,再用更細的筆觸去完善細節,效果可能會好很多。HART的基本理念就是如此?!痹撜撐牡墓餐蛔?、MIT博士生唐昊天(Haotian Tang)這樣說道。
論文的另一位共同一作是清華大學本科生吳業成(Yecheng Wu);通訊作者是麻省理工學院電氣工程與計算機科學系副教授、MIT-IBM Watson AI Lab成員、英偉達杰出科學家韓松(Song Han);參與研究的還有來自MIT、清華大學以及英偉達的其他研究人員。該研究成果將于國際學習表征大會(ICLR)上進行展示。
一、兼得兩種優勢
目前流行的擴散模型,如Stable Diffusion和DALL·E,以生成細節豐富的圖像而聞名。這類模型通過迭代過程生成圖像:在每一步中預測圖像像素中的一定程度的隨機噪聲,然后去除這些噪聲,并重復“預測—去噪”的過程多次,直到最終生成完全無噪聲的新圖像。
Stable Diffusion 宣傳圖(圖源網絡)
DALL·E 宣傳圖(圖源網絡)
由于擴散模型在每一步都對圖像中的所有像素進行去噪處理,而整個過程可能需要30步甚至更多,因此其運算過程非常緩慢且計算開銷巨大。但正因為模型有多次機會修正細節上的錯誤,最終生成的圖像質量極高。
自回歸模型則常用于文本預測,它們也可以通過依次預測圖像中的圖塊(patch),即每次生成少量像素的方式來生成圖像。這類模型無法回頭修正之前的錯誤,但由于預測過程是線性的,生成速度遠快于擴散模型。
自回歸模型使用稱為“token”的表示形式來進行預測。模型通過一個自動編碼器(autoencoder)將原始圖像像素壓縮為離散token,并通過這些token來重建圖像。這種方式提高了生成速度,但在壓縮過程中會丟失部分信息,導致最終生成的圖像容易出現錯誤。
針對這個問題,研究人員開發了HART,采用一種混合方法:首先使用自回歸模型預測壓縮后的離散圖像token,然后引入一個小型擴散模型來預測殘差token。殘差token彌補了離散token在信息壓縮中遺失的部分,能夠捕捉那些未被還原的圖像細節。
“我們在圖像重建質量方面獲得了顯著提升。殘差token學會了高頻細節,比如物體的邊緣、人物的頭發、眼睛或嘴巴等,這些部分是離散token最容易出錯的地方?!碧脐惶旖忉尩馈?/p>
由于擴散模型只需要補充自回歸模型未捕捉到的細節,因此它只需執行8步操作即可完成任務,而不像傳統擴散模型那樣需要30步或更多來生成整張圖像。這種輕量化的擴散模型帶來的開銷極小,使得HART在保留自回歸模型速度優勢的同時,顯著提升了圖像細節的生成能力。
“擴散模型的任務變得更簡單了,這就帶來了更高的效率。”他補充道。
二、超越更大規模模型的性能
在開發HART的過程中,研究人員面臨著如何有效整合擴散模型以增強自回歸模型的挑戰。他們發現,如果在自回歸過程的早期就引入擴散模型,反而會導致錯誤的積累。而最終采用的設計方案是:僅在最后一步使用擴散模型來預測殘差token,這種方法顯著提升了圖像生成的質量。
該方法結合了一個擁有7億參數的自回歸Transformer模型和一個輕量級、僅有3700萬參數的擴散模型,其生成的圖像質量可媲美使用20億參數的傳統擴散模型,但速度卻快了約9倍,計算資源消耗也減少了約31%,相較于最先進的模型大幅優化。
此外,由于HART使用自回歸模型完成大部分圖像生成任務——這類模型正是大語言模型的核心——因此更容易與新一代統一視覺—語言生成模型進行集成。未來,人們甚至可以通過與此類模型交互,例如,要求它展示如何組裝一件家具的中間步驟等視覺流程。
唐昊天表示,“大語言模型是各種模型之間良好的接口,比如多模態模型和具備推理能力的模型。這是一種將智能推向新前沿的方式。一個高效的圖像生成模型將釋放出大量新的可能性?!?/p>
展望未來,研究團隊希望基于HART架構進一步開發“視覺—語言”模型。由于HART具備良好的可擴展性和跨模態泛化能力,他們還計劃將其應用于視頻生成和音頻預測等任務中。
免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!
轉自丨啟元洞見
研究所簡介
國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務?!叭蚣夹g地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.