99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型裝進口袋:手機運行9倍速秒出高清圖,質量比肩頂級模型

0
分享至


(來源:MIT News)

在自動駕駛技術的演進過程中,實時生成高保真圖像的能力已經成為構建虛擬訓練環境的核心突破點。

比如,通過模擬暴雨中的道路塌陷、暴雪天突發交通事故等極端場景,讓自動駕駛系統在虛擬世界中積累應對突發狀況的經驗,從而提升實際道路行駛的安全性。

盡管生成式 AI 技術為這一領域展現出巨大潛力,但現有的一些主流模型在實際應用中仍存在短板。例如,擴散模型雖然能夠生成細節驚人的逼真圖像,但它的處理速度較慢且計算成本高昂,這種特性使得其在需要實時響應的車載系統中可能難以落地應用。

與之形成對比的是,類似于驅動 ChatGPT 的自回歸模型,在處理速度上有顯著優勢,但所生成的圖像質量往往不盡如人意,容易導致圖像結構紊亂,特別是在處理復雜光影和精細紋理時,經常出現車輛零件錯位、交通標志扭曲等“幻覺”現象。

近期,來自麻省理工學院和英偉達的研究人員開發出一種新方法,這款名為HART(Hybrid Autoregressive Transformer)的新工具巧妙地結合了這兩種模型的優點:首先,它利用自回歸模型迅速捕捉到圖像的整體框架,然后通過一個較小的擴散模型來精細調整圖像細節

實驗數據顯示,這種結合兩種模型優勢的 HART 不僅能夠達到甚至超越當前頂尖擴散模型的圖像質量,而且效率提高了9 倍之多。

與傳統的擴散模型相比,HART 的運行更加高效,減少了所需的計算資源,這意味著它可以在筆記本電腦或智能手機這樣的本地設備上直接運行。

操作過程也十分簡單,用戶只需簡單地在 HART 界面上輸入一條自然語言指令,就可以輕松生成高質量的圖像。

正如這篇研究論文的共同第一作者、麻省理工學院 Haotian Tang 博士所說的那樣,“想象你在畫一幅風景畫,如果直接一次涂滿整個畫布,效果可能并不會好;但若是先勾勒出大致輪廓先勾勒出大致輪廓,然后再用小筆觸精修逐步完善,最終的作品會顯得更加精致。”而這,也是 HART 創作背后的基本理念。

研究人員表示,HART 有著非常廣泛的應用前景,比如,可以幫助機器人學習如何完成復雜的現實世界任務,亦或是輔助設計師為電子游戲打造栩栩如生的游戲場景。

這項新研究是由來自麻省理工學院、清華大學和英偉達的一支多學科研究團隊共同完成的,其中包括 Haotian Tang 博士和清華大學的本科生 Yecheng Wu(兩位是論文的共同第一作者)、麻省理工學院電子工程與計算機科學系副教授韓松等。

他們的這項研究成果即將在國際學習表征會議(ICLR)上展示。這項研究工作得到了 MIT-IBM Watson AI 實驗室、MIT 和 Amazon 科學中心、MIT AI 硬件項目以及美國國家科學基金會的部分資助。此外,研究中用于訓練該模型的 GPU 基礎設施由英偉達捐贈。



取兩者之所長

在生成式 AI 領域,以 Stable Diffusion 和 DALL-E 為代表的擴散模型憑借其卓越的圖像生成質量,已成為當前計算機視覺領域的重要技術。

這些模型通過模擬物理擴散過程的反向推導,擁有精密的多步迭代去噪機制,即通過一種“迭代過程”生成圖像。在這個過程中,模型會預測并消除圖像中每個像素上的隨機噪聲。這個“去噪”過程需要多次重復進行,直到最終生成一張完全無噪點的新圖像。

由于擴散模型在每一步都需要對整個圖像的所有像素進行處理,并且可能需要 30 步甚至更多的步驟才能完成這一過程,因此這種方法既耗時又耗費大量計算資源。

然而,恰恰正是這種多次的“修正”機會使得最終生成的圖像具有非常高的質量。

相比之下,自回歸模型通常被用于文本預測,但也能用來生成圖像,其方式是逐個區域地預測圖像內容,每次只處理幾個像素。

雖然這種方法不允許模型“回頭”修正之前的錯誤,但由于其順序性的特點,它生成圖像的速度要比擴散模型快得多。

這類模型依賴于所謂的“標記”,即一種表示形式來進行預測。自回歸模型使用自動編碼器將原始圖像的像素信息壓縮成離散的標記,并基于這些標記來重建圖像。

盡管這提高了模型的運行速度,但在壓縮過程中不可避免的信息丟失會導致生成圖像時出現錯誤。


(來源:MIT News)

HART 方法的獨特之處在于,研究人員巧妙結合了自回歸模型的速度優勢與擴散模型的精細細節捕捉能力。

首先,它利用自回歸模型快速預測出壓縮后的離散圖像標記;然后,再應用一個小規模的擴散模型來預測那些未被捕獲的剩余標記,以此彌補信息丟失帶來的不足。

“通過這種方式,我們在圖像重建的質量方面取得了顯著進步。剩余標記能夠學習到高頻細節,比如物體邊緣、人物頭發、眼睛或嘴巴等部位,這些都是離散標記容易出現錯誤的地方。”Haotian Tang 解釋說。

由于擴散模型僅需在自回歸模型完成后對剩余細節進行預測,它只需要8 步就能完成任務,遠少于傳統擴散模型所需的 30 步甚至更多步驟。

此外,這種額外的“小負擔”擴散模型的應用,不僅讓 HART 保留了自回歸模型的速度優勢,還顯著地增強了其生成復雜圖像細節的能力。

這種方法的創新性在于它有效地平衡了速度與質量之間的矛盾,“如此一來,擴散模型的任務變得簡單了許多,這就帶來了更高的效率。”他補充道。



超越強大模型

在開發 HART 的過程中,研究人員面臨了如何有效地將擴散模型與自回歸模型結合以提升圖像生成質量的挑戰。

他們的初期嘗試表明,在自回歸過程的早期階段引入擴散模型會導致錯誤累積,影響最終圖像的質量。

為了解決這一問題,他們設計了一種策略,即僅在最后一步應用擴散模型來預測剩余標記,這不僅有效減少了錯誤積累,還顯著提升了生成圖像的整體質量。

這種新方法結合了一個擁有 7 億參數的自回歸變換模型和一個具有 3700 萬參數的小型擴散模型。

盡管這兩個組件的總參數量遠小于某些頂級擴散模型(比如那些擁有 20 億參數的擴散模型),但它們協作生成的圖像質量卻毫不遜色,同時處理速度提高了大約9 倍

此外,對比最先進的同類技術,這種方法所需的計算資源減少了大約31%,大幅降低了運行成本和能耗。

由于 HART 主要依靠自回歸模型(即驅動大語言模型的同類模型)完成大部分工作,因此它特別適合與新一代視覺-語言生成模型集成使用。

這意味著未來用戶可以通過與這些智能系統互動,例如要求展示組裝一件家具的具體步驟,從而獲得更加直觀、詳細的指導。

“大語言模型可以作為各種類型模型之間的一個非常好的接口,比如多模態模型或推理模型,這是推動智能化向新領域發展的關鍵,高效的圖像生成模型將解鎖更多可能性。”Haotian Tang 表示。

展望未來,研究人員希望沿著這條路線繼續深入探索,并基于 HART 架構進一步開發視覺-語言模型。

除此之外,鑒于 HART 具有良好的可擴展性和跨模式應用潛力,他們還打算將其應用于更廣泛的領域,如視頻生成和音頻預測任務。

這樣的拓展不僅能夠豐富 HART 的應用場景,還有望為多媒體內容創作、虛擬現實等前沿技術的發展提供支持。

https://news.mit.edu/2025/ai-tool-generates-high-quality-images-faster-0321

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
養老金補發金額到賬時間公布!最早這批退休人員本周可查詢

養老金補發金額到賬時間公布!最早這批退休人員本周可查詢

新語愛八卦
2025-04-14 12:45:26
授勛典禮變葬禮,烏軍官團被一窩端,王牌旅長身亡,白送俄軍助攻

授勛典禮變葬禮,烏軍官團被一窩端,王牌旅長身亡,白送俄軍助攻

起喜電影
2025-04-15 17:50:49
越野車涉水游玩被沖走!兩名年輕護士溺亡!一人28歲長得很漂亮!

越野車涉水游玩被沖走!兩名年輕護士溺亡!一人28歲長得很漂亮!

古今小史
2025-04-15 09:45:48
科大訊飛消博會推動AI與價值消費共振

科大訊飛消博會推動AI與價值消費共振

iMobile愛科技
2025-04-14 14:02:09
馬競4-2逆轉,曼城舊將阿爾瓦雷斯無敵雙響炮,西蒙尼驚艷破門

馬競4-2逆轉,曼城舊將阿爾瓦雷斯無敵雙響炮,西蒙尼驚艷破門

側身凌空斬
2025-04-15 04:59:20
國內油價或迎近三年最大跌幅!每升降0.4-0.42元

國內油價或迎近三年最大跌幅!每升降0.4-0.42元

金融界
2025-04-15 17:05:36
克倫克:擁有巔峰約基奇是種責任 若不問他的意見我就是最傻的人

克倫克:擁有巔峰約基奇是種責任 若不問他的意見我就是最傻的人

直播吧
2025-04-15 15:20:31
調皮!美記:昨天的船勇卡位戰,哈登曾詢問庫明加為何拒絕上場

調皮!美記:昨天的船勇卡位戰,哈登曾詢問庫明加為何拒絕上場

雞丁侃球
2025-04-15 12:40:38
真是瘋了:巴塞羅那為拉菲尼亞設定8000萬~9000萬歐元要價

真是瘋了:巴塞羅那為拉菲尼亞設定8000萬~9000萬歐元要價

油潑辣不辣
2025-04-15 17:15:04
越南突然向中國提出要借錢修鐵路?這可不是小數目,整整83億美元

越南突然向中國提出要借錢修鐵路?這可不是小數目,整整83億美元

南權先生
2025-04-10 18:01:02
俄國防部:俄軍對蘇梅的烏軍指揮人員進行導彈打擊

俄國防部:俄軍對蘇梅的烏軍指揮人員進行導彈打擊

新華社
2025-04-15 01:16:04
窮人的富養是帶娃到處旅游,增長欲望;富人卻教孩子看透世界規則

窮人的富養是帶娃到處旅游,增長欲望;富人卻教孩子看透世界規則

豆芽媽媽育兒
2025-03-12 15:17:38
大連英博官方:對河南隊球票已售罄,本輪暫不開放三層看臺

大連英博官方:對河南隊球票已售罄,本輪暫不開放三層看臺

直播吧
2025-04-15 16:43:39
半夜 “容易醒”的人,八成是這2處堵住了!照著一排,好處可不少

半夜 “容易醒”的人,八成是這2處堵住了!照著一排,好處可不少

罐兒哥中醫自媒體
2025-04-13 14:14:43
巧合?三河市委書記曾任固安縣一把手,固安招牌也曾忌諱“紅黑藍”

巧合?三河市委書記曾任固安縣一把手,固安招牌也曾忌諱“紅黑藍”

小蘿卜絲
2025-04-12 11:20:39
轉播方被迫消音!山西全場高喊晚安,瘋狂嘲諷羞辱徐杰,太霸氣了

轉播方被迫消音!山西全場高喊晚安,瘋狂嘲諷羞辱徐杰,太霸氣了

嘴炮體壇
2025-04-14 22:40:19
蘋果死守中國是因為廉價勞動力?庫克:在美國湊不齊的模具工程師,中國一個省能填滿幾個足球場【附智能手機行業市場分析】

蘋果死守中國是因為廉價勞動力?庫克:在美國湊不齊的模具工程師,中國一個省能填滿幾個足球場【附智能手機行業市場分析】

前瞻網
2025-04-14 17:12:11
美國關稅變動引發連鎖反應,中國跨境電商爆火!概念股集體大漲

美國關稅變動引發連鎖反應,中國跨境電商爆火!概念股集體大漲

覽富財經網
2025-04-15 17:46:55
重磅!庫克直言:選擇中國制造原因在于技術,蘋果離不開中國!

重磅!庫克直言:選擇中國制造原因在于技術,蘋果離不開中國!

挖貝網
2025-04-14 19:36:07
俄軍再接收2架蘇-57戰斗機,總數量終于追平了我國052D驅逐艦

俄軍再接收2架蘇-57戰斗機,總數量終于追平了我國052D驅逐艦

科羅廖夫
2025-04-14 08:06:11
2025-04-15 19:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15064文章數 513545關注度
往期回顧 全部

科技要聞

對等關稅下顯卡被爆炒:黃牛背刺游戲玩家

頭條要聞

1家3口被撞案受害者親屬:肇事者對著寶寶遺體談笑風生

頭條要聞

1家3口被撞案受害者親屬:肇事者對著寶寶遺體談笑風生

體育要聞

父母是臺灣移民!女林書豪被WNBA球隊選中

娛樂要聞

娛樂圈模范夫妻塌房?私生活曝光!

財經要聞

美國財長,突然發聲!涉及“對華關稅”

汽車要聞

轉型中的"穩健派" 一汽-大眾的智能化突圍路徑

態度原創

時尚
藝術
數碼
家居
公開課

今年初夏“九分褲”太火了,學會這些技巧,輕松變腿精

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

一加 SUPERVOOC 150W 超能核移動電源預熱:1C + 1A + 自帶線

家居要聞

現代本真 展現歸零心態

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永清县| 甘孜县| 渑池县| 元朗区| 保山市| 八宿县| 称多县| 读书| 望奎县| 耒阳市| 台中市| 八宿县| 彭州市| 赤水市| 桦南县| 江都市| 岱山县| 张家港市| 京山县| 宣恩县| 衡阳县| 建德市| 时尚| 德江县| 胶南市| 金寨县| 汤原县| 兰州市| 中江县| 沾化县| 东宁县| 横山县| 德庆县| 抚州市| 乌兰浩特市| 富锦市| 昌宁县| 龙泉市| 咸阳市| 荣成市| 交城县|