99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

你的美圖App,在CVPR技術5連秀

0
分享至

  • 美圖 投稿
    量子位 | 公眾號 QbitAI

圖像編輯大禮包!美圖5篇技術論文入圍CVPR 2025。

比如無痕改字,手寫體書面體、海報廣告上各種字體都可以修改。



又或者基于語義的局部編輯,只需涂抹或框選工具就能在指定區域生成。



還有超級精細的交互式分割算法等等。



更關鍵的是,這些前沿技術已經在美圖各大APP(美圖秀秀、WHEE、美圖設計室等)中上線了。

今天就帶大家一文看盡美圖在AI圖像編輯最新成果。

美圖5篇論文入選CVPR 2025

美圖旗下美圖影像研究院(MT Lab)聯合清華大學、新加坡國立大學、北京理工大學、北京交通大學等知名高校發布的5篇論文入選CVPR 2025,均聚焦于圖像編輯領域,分布在生成式AI、交互式分割、3D重建三個方面。

從技術路徑來看,突破主要體現在以下3個方面:

精細化策略設計:通過結合精細化策略(如基于點擊的交互式分割方法NTClick、兩階段細化框架SAM-REF)顯著提高交互分割的效率與精度,同時大幅降低用戶操作復雜度。

垂類場景下基于擴散模型的框架創新:結合特定編碼器,提升生成任務質量,以及基于多任務訓練框架,提升結構穩定性和風格一致性。

外推視角的高質量合成:基于增強視圖先驗引導的方案,成功實現高保真的3D重建。

其中GlyphMastero、MTADiffusion屬于生成式類任務,這不僅是CVPR最熱門的前沿方向之一,美圖近年來在該方向上也屢獲突破,圍繞生成式AI推出的多項功能與多款產品吸引了海內外大量用戶,旗下美顏相機近期憑借AI換裝功能,成功登頂多國應用商店總榜第一。

NTClick、SAM-REF關注交互分割工作,通過用戶簡單交互指導的精確引導圖像分割,交互分割在復雜場景下能夠顯著提升分割效果和可靠性,在美圖面向電商設計、圖像編輯與處理、人像美化等功能的AI產品中有廣泛應用,憑借在交互分割方面的領先優勢,也帶動旗下產品美圖設計室的亮眼表現。根據美圖最新財報數據顯示,這款被稱為“電商人必備的AI設計工具”2024年單產品收入約2億元,按年同比翻倍,是美圖有史以來收入增長最快的產品。

EVPGS則是3D重建方面成果,受益于深度學習的驅動,尤其是高斯潑濺(Gaussian Splatting)的興起,3D重建在新視角生成、增強現實(AR)、3D內容生成、虛擬數字人等領域應用需求激增,在多個行業展現出強大的潛力。

GlyphMastero:高質量場景文本編輯的創新方法

針對場景的文本編輯任務,既要求保證文本內容符合用戶編輯需求,還要求保持風格一致性和視覺協調性。研究人員發現,現有方法往往使用預訓練的OCR模型提取特征,但它們未能捕捉文本結構的層次性,即從單個筆畫到筆畫間的交互,再到整體字符結構間的交互,最后到字符與文字行間的交互,這就導致在處理復雜字符(如中文)時容易產生扭曲或難以辨認的結果。

對此,美圖影像研究院(MT Lab)的研究人員提出專為場景文本編輯設計的字形編碼器GlyphMastero,旨在解決當前擴散模型在文本生成任務中面臨的質量挑戰。



GlyphMastero核心由字形注意力模塊(Glyph Attention Module)和特征金字塔網絡(FPN)兩大部分組成。



GlyphMastero方法整體架構

字形注意力模塊(Glyph Attention Module)

通過創新的字形注意力模塊,建模并捕捉局部單個字符的筆畫關系以及字符間的全局排布。該模塊不僅對局部細節進行編碼,還實現了字符與全局文本行之間的跨層次交互。



特征金字塔網絡(FPN)

GlyphMastero還實現了一個特征金字塔網絡(FPN),能夠在全局層面融合多尺度OCR骨干(Backbone)特征,確保在保留字符細節特征的同時,又能夠捕捉全局風格,并將最終生成的字形用于指導擴散模型對文本的生成和修復。

基于跨層次和多尺度融合,GlyphMastero可以獲得更細粒度的字形特征,從而實現對場景文本生成過程的精確控制。

實驗結果表明,與最先進的多語言場景文本編輯基準相比,GlyphMastero在句子準確率上提高了18.02%,同時將文本區域風格相似度距離(FID)降低了53.28%,這表明生成文本實現了更加自然且高融合度的視覺風格。



對比結果顯示,在海報、街景和廣告圖等場景下,GlyphMastero 能夠生成與原圖風格高度契合的文本,無論是字體粗細、色調還是透視關系,都比之前的SOTA方法更為自然和精細。



目前GlyphMastero已落地美圖旗下產品美圖秀秀的無痕改字功能,為用戶提供輕松便捷的改字體驗。



美圖秀秀無痕改字效果

MTADiffusion:語義增強的局部編輯方法

圖像局部修復(Image Inpainting)提供了一個無需PS或其它圖像處理工具,就可以輕松進行改圖的全新方式,大大降低使用難度,用戶只需要使用涂抹或者框選工具,選定想要修改的局部Mask區域,輸入Prompt就能夠在指定區域生成想要的圖像。

但現有的Inpainting模型,常常在語義對齊、結構一致性和風格匹配方面表現不佳,比如生成內容不符合用戶輸入的文本描述,或是修復區域的細節缺乏準確性,光照、顏色或紋理與原圖也容易存在差異,影響整體視覺一致性。

針對以上問題,美圖影像研究院(MT Lab)的研究人員提出了一種圖文對齊的Inpainting訓練框架——MTADiffusion,MTADiffusion先使用分割模型提取出物體的mask,再通過多模態大模型對圖像局部區域生成詳細的文本標注,這種圖文對齊的訓練數據構造方式有效提升了模型的語義理解能力。



為了優化生成物體的結構合理性,MTADiffusion使用了多任務訓練策略,將圖像去噪任務(Inpainting)作為主任務,進行噪聲預測,將聯合邊緣預測任務(Edge Prediction)作為輔助任務,用于優化物體結構。此外,MTADiffusion還提出了基于Gram矩陣的風格損失,以提升生成圖片的風格一致性。



MTADiffusion整體框架

基于MTADiffusion方法,圖像局部修復模型在BrushBench和EditBench上的效果都有明顯提升,同時這些通用的策略也可以適配不同的基礎模型。



在BrushBench上的對比效果



在EditBench上的對比效果

目前,MTADiffusion已落地美圖旗下AI素材生成器WHEE,實現輕松高效的一站式改圖。

此外,開發者目前也可通過美圖AI開放平臺集成局部重繪能力,賦能更多創意場景。



WHEE的AI改圖效果

NTClick:基于噪聲容忍點擊的精細交互式分割方法

交互式圖像分割(Interactive Segmentation)旨在通過盡可能高效的用戶輸入,預測物體的精確Mask,該技術廣泛應用于數據標注、圖像編輯等領域,其中“點擊”憑借其高效與靈活性,逐漸成為交互分割中最主流的交互形式之一。

但隨著目標對象復雜性和細節的增加,基于前背景點擊的交互方式的優勢逐漸減弱,因為在處理細小或復雜的目標區域時,準確點擊對于精確定位的需求會大大降低交互效率,同時用戶和設備友好性都非常有限。

為了解決這個問題,美圖影像研究院(MT Lab)的研究人員提出了一種基于點擊的交互式分割方法NTClick,大幅降低了對精確點擊的依賴,支持用戶在處理復雜目標時,能憑借目標區域附近的粗略點擊,預測精準的Mask。



NTClick 提出了一種全新的交互形式:噪聲容忍點擊,這是一種在選擇細節區域時不需要用戶精確定位的點擊方式。

NTClick通過一個兩階段網絡來實現對于粗糙交互的理解以及細節區域的精修:

第一階段:Explicit Coarse Perception (ECP) 顯式粗糙感知網絡:

該階段通過一個用于初步估計的顯式粗略感知網絡,在低分辨率下對用戶的點擊進行理解,并且預測出一個初步的估計結果-FBU Map。受到摳圖技術中三元圖的啟發,FBU map將圖像分為三類區域——前景、背景和不確定區域。其中,不確定區域通常對應細小或邊緣模糊的部分,為后續精細化處理提供指導。

第二階段:High Resolution Refinement (HRR) 高分辨率精修網絡:

該階段將 ECP 得到的FBU Map進行上采樣,并與原始 RGB 圖像拼接,輸入到高分辨率精修網絡中。HRR 網絡專注于細粒度區域的像素級分類,通過稀疏網格注意力機制和近鄰注意力機制的組合,在計算開銷可控的前提下,在高分辨率下進行精細化感知,實現對微小結構(如植物細枝、精細雕塑等)的精準分割,輸出最終的預測結果。



NTClick 兩階段架構

在包含精細目標的DIS5K等多個數據集上的實驗結果顯示,NTClick擁有明顯更高的感知精度,并且在越復雜的場景下優勢越明顯。這表明,NTClick不僅保持了高效且用戶友好的交互方式,在分割精度上也顯著超過了現有方法。



實驗結果

可視化結果也顯示,NTClick 在處理細小目標(如首飾、線繩)時,相比傳統方法具有更清晰的邊界和更高的分割精度,同時用戶的交互負擔明顯降低。



對比結果

近年來美圖在分割算法上屢獲突破,友好的交互方式疊加強大算法泛化能力,持續提升場景覆蓋率與分割精細度,而對場景的理解深度與對用戶體驗的極致追求,也助力智能摳圖這個垂類場景一躍成為美圖設計室的王牌功能。



美圖設計室智能摳圖效果

SAM-REF:高精度場景下的交互式分割

交互式分割當前有兩種主流方法,FocalClick、SimpleClick等早期融合(Early fusion)方法,這是現有專家模型所采用的方法,這類方法在編碼階段就將圖像和用戶提示進行結合以定位目標區域,但該方法基于用戶的多次交互操作,需要對圖像進行多次復雜計算,會導致較高的延遲。

相反的,Segment Anything Model (SAM)、InterFormer等后期融合(Late fusion)方法,能夠一次性提取圖像的全局特征編碼,并在解碼階段將其與用戶交互進行結合,避免了冗余的圖像特征提取,大大提高了效率。

其中SAM是具有里程碑意義的通用分割模型,盡管它具備高效性和強大的泛化能力,但由于采用晚期融合策略,限制了SAM直接從提示區域提取詳細信息的能力,導致其在目標邊緣細節處理上存在不足。例如,對于細小物體或紋理復雜的場景,SAM 往往會出現邊界模糊或局部信息缺失的問題。

為了解決這一問題,美圖影像研究院(MT Lab)的研究人員提出了兩階段細化框架——SAM-REF,能夠在維持SAM運行效率的同時,提升 SAM的交互式分割能力,尤其是在高精度場景下。



SAM-REF在后期融合的基礎上,引入了輕量級細化器(Refiner),從而在保持效率的同時,提升SAM在高精度場景下交互式分割能力,其核心結構包括:

全局融合細化器(Global Fusion Refiner, GFR)

該模塊專注于捕獲整個對象的詳細信息,通過輕量特征提取,結合SAM的Embeds中的語義信息,利用圖像和提示重引導來補充高頻細節。

局部融合細化器(Local Fusion Refiner, LFR)

該模塊對目標區域進行局部裁剪,并對局部細節進行精細化處理,避免對整個圖像進行重復計算,提高計算效率。

動態選擇機制(Dynamic Selector, DS)

通過分析目標區域的誤差率,自適應選擇 GFR 處理的全局特征,或者 LFR 處理的局部細節,以達到最佳分割效果。



SAM-REF核心架構

實驗結果顯示,SAM-REF在NoC90上相較于基線方法(如SAM和FocSAM)提升了16.3%,在NoF95減少了13.3%,同時Latency僅有早期融合方法(如FocalClick)的16.5%。可以看出,SAM-REF 在分割精度上有明顯提升,且計算成本僅增加 0.003 秒/幀,基本維持了 SAM 的高效性。

可視化結果也顯示,相較于SAM,SAM-REF在具有挑戰性的場景中能更有效地識別纖細的結構,并能夠在持續點擊交互中提升分割精度。



SAM-REF的可視化結果

結合在交互分割領域的能力提升,美圖旗下美圖設計室為用戶帶來簡單、高效、精準的智能摳圖體驗,用戶無需精準點擊,就能輕松調整選區。無論是人像、商品、復雜背景甚至發絲細節等難處理元素,分割質量都更加穩定,無需專業技能就可以獲得高質量摳圖。



美圖設計室交互分割效果

EVPGS:基于3D高斯潑濺的外推視角合成

新視圖合成(Novel View Synthesis, NVS)旨在生成與輸入圖像不同視角的新圖像,但傳統方法(如 NeRF、3D Gaussian Splatting)依賴于“數量較多”且“分布均勻”的訓練視角來保證重建質量。

針對”數量較多“的要求,一些研究已經探索了極少視角(三張甚至更少)的三維重建方法。然而,在許多實際應用場景中,“分布均勻”卻難以實現。例如,當用戶手持手機繞物體或某個場景拍攝一圈時,往往能獲得幾十甚至上百張訓練圖像,但這些圖像的視角通常集中在同一水平面上,缺少豐富的角度變化。

在這樣的情況下,若嘗試從俯視視角或仰視視角合成新圖像,重建質量會顯著下降。如下圖所示,當拍攝的訓練數據僅包含藍色標記的水平視角時,嘗試從紅色標記的視角進行圖像合成,結果往往出現嚴重的失真問題。



為應對此類實際應用挑戰,美圖影像研究院(MT Lab)的研究人員提出了基于增強視圖先驗引導的外推視圖合成方案——EVPGS,解決高斯潑濺(Gaussian Splatting) 在外推視角下的失真問題,有效提升合成質量。



EVPGS的核心思想是在訓練過程中得到外推視角的先驗信息,應用視角增強策略來監督GS模型的訓練。EVPGS可以生成可靠的視角先驗,稱之為增強視角先驗(Enhanced View Priors),整個過程采用由粗到細(coarse-to-fine)的方式,對視角先驗進行偽影去除和外觀優化。

EVPGS技術實現路徑分為三個階段:

預訓練階段:

該階段選用RaDe-GS作為Backbone,僅使用訓練視角作為監督進行預訓練。EVPGS可以支持不同的GS方法作為Backbone,均能在外推視角合成任務中取得顯著的效果提升。

粗優化階段:

該階段選用Stable Diffusion 2.1模型對外推視角先驗進行偽影去除,再使用預訓練階段得到的物體Mesh渲染的深度圖,對GS模型直接渲染的深度圖進行監督,二者分別從外觀和幾何兩個維度對預訓練模型進行正則化,有效提升了外推視角先驗的表現。

細優化階段:

該階段采用幾何重投影方法,從訓練視角中尋找外推視角先驗的對應像素值,并將其作為外推視角先驗的像素。然而,該過程受到視角差異帶來的遮擋和光照變化的影響,可能導致投影結果不準確。因此,該階段還引入了遮擋檢測策略與視角融合策略,有效緩解上述問題的影響,生成更加可靠的增強視角先驗,用于監督 GS 模型的訓練。



EVPGS訓練方案

實驗結果顯示,在平均約30° 的外推角度下,相比于基于高斯潑濺的系列方法(3DGS、2DGS、GOF等),EVPGS 的細節保真度顯著提高,紋理重建更清晰,無明顯偽影。這也證明EVPGS可以接入到不同的GS Backbone中,并取得顯著的效果提升,以RaDe-GS作為Backbone,在外推視角合成任務中達到了業界最佳效果。



實驗結果

可視化結果顯示,EVPGS比起Baseline有更少的偽影,能夠恢復更多高頻率的紋理和文字細節。



可視化結果



美圖3D重建方案效果

此外,EVPGS主要針對物體場景的重建,但將其在室外場景數據集(Mip-NeRF360)上進行測試時,發現依舊可以取得不錯的效果,這也進一步證明了EVPGS在外推視角合成任務的場景可擴展性。



EVPGS在室外場景數據集的實驗結果

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
好炸裂!網傳重慶一初三學生因在廁所玩泄物,被學校以書面警告…

好炸裂!網傳重慶一初三學生因在廁所玩泄物,被學校以書面警告…

火山詩話
2025-04-04 07:48:31
多項反制!經國務院批準,對原產美國所有進口商品加征關稅

多項反制!經國務院批準,對原產美國所有進口商品加征關稅

政知新媒體
2025-04-04 18:48:23
網友自曝去中醫館開中藥,竟然發現一粒西藥藥片:這就是中西醫結合嗎?

網友自曝去中醫館開中藥,竟然發現一粒西藥藥片:這就是中西醫結合嗎?

可達鴨面面觀
2025-04-04 22:35:46
特朗普給我們宣布增加34%的關稅后,中美幾乎不存在談判可能了

特朗普給我們宣布增加34%的關稅后,中美幾乎不存在談判可能了

橘色密碼
2025-04-03 11:10:36
深夜大跳水!暴跌超1500點

深夜大跳水!暴跌超1500點

新浪財經
2025-04-04 00:12:05
熱門中概股美股盤前全線下行,阿里巴巴、拼多多跌逾8%,京東跌7.7%,百度、貝殼、小鵬等多股跌6%

熱門中概股美股盤前全線下行,阿里巴巴、拼多多跌逾8%,京東跌7.7%,百度、貝殼、小鵬等多股跌6%

每日經濟新聞
2025-04-04 19:02:07
戰隼出擊,烏軍F16飛入俄境內轟炸

戰隼出擊,烏軍F16飛入俄境內轟炸

史政先鋒
2025-04-04 15:16:19
歐爾班宣布匈牙利退出ICC

歐爾班宣布匈牙利退出ICC

風華講史
2025-04-04 10:09:13
韋立,被查

韋立,被查

新京報政事兒
2025-04-04 21:55:54
美聯儲主席鮑威爾:美聯儲有條件等一等 再考慮是否調整政策

美聯儲主席鮑威爾:美聯儲有條件等一等 再考慮是否調整政策

財聯社
2025-04-04 23:35:33
邊牧在墓區偷吃供品胖成百斤“肥豬”,墓園:會叮囑大爺看好狗狗

邊牧在墓區偷吃供品胖成百斤“肥豬”,墓園:會叮囑大爺看好狗狗

瀟湘晨報
2025-04-04 16:05:04
反制來的太重!數千噸美國牛肉被中國拒絕,美國廠商該偷哭了!

反制來的太重!數千噸美國牛肉被中國拒絕,美國廠商該偷哭了!

皓月前沿
2025-04-04 12:50:12
不容易!庫里賽后將原味球衣送貝克漢姆 腰上纏著厚厚的繃帶

不容易!庫里賽后將原味球衣送貝克漢姆 腰上纏著厚厚的繃帶

直播吧
2025-04-04 16:16:32
特朗普給美股捅出大出血!對等關稅真正意圖是為戰爭做準備?

特朗普給美股捅出大出血!對等關稅真正意圖是為戰爭做準備?

二向箔
2025-04-04 13:52:44
別鬧了,他也能吹成「中國影帝」?

別鬧了,他也能吹成「中國影帝」?

獨立魚
2025-04-04 22:57:17
把美股捅出大出血之后,特朗普發文自夸

把美股捅出大出血之后,特朗普發文自夸

魯中晨報
2025-04-04 09:46:04
蘋果CEO庫克套現超1.7億元!一年內已三次減持蘋果股票,累計套現達8億元

蘋果CEO庫克套現超1.7億元!一年內已三次減持蘋果股票,累計套現達8億元

每日經濟新聞
2025-04-03 15:34:06
何偉文:要做好中美貿易量下降50%的準備

何偉文:要做好中美貿易量下降50%的準備

看看新聞Knews
2025-04-04 00:42:25
10年16冠!曼城官方告別德布勞內:向英超歷史最偉大球員之一致敬

10年16冠!曼城官方告別德布勞內:向英超歷史最偉大球員之一致敬

直播吧
2025-04-04 19:57:12
男子和鄰居妻子偷情后,想交換妻子遭拒他將鄰居滅門,2021年落網

男子和鄰居妻子偷情后,想交換妻子遭拒他將鄰居滅門,2021年落網

漢史趣聞
2025-03-29 14:13:36
2025-04-05 00:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10270文章數 176077關注度
往期回顧 全部

科技要聞

DeepSeek提出新方法 或將應用于R2

頭條要聞

美媒感慨:特朗普給了中國黃金機遇 讓他們贏得全世界

頭條要聞

美媒感慨:特朗普給了中國黃金機遇 讓他們贏得全世界

體育要聞

挑對手!恩怨局!CBA季后賽故事可太多了

娛樂要聞

汪小菲懶理S媽暗諷,帶孩子戶外散步

財經要聞

中方多箭齊發!對美加征34%關稅

汽車要聞

別克GL8陸尚內飾官圖發布 有望上海車展亮相

態度原創

時尚
教育
旅游
親子
游戲

在春天,遇見最美的配色

教育要聞

辛集市第二實驗學校燃烽火!620名青少年逐鹿乒乓球邀請賽

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

巨傷腰的 8 個動作,媽媽占一大半!很多人每天在做

宮崎英高:會繼續開發單人游戲 新作原是NS1游戲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 东台市| 苏尼特右旗| 临武县| 崇仁县| 曲沃县| 保山市| 隆德县| 峨边| 卢龙县| 辽宁省| 连州市| 屏边| 桂阳县| 镇沅| 咸宁市| 正阳县| 衢州市| 连城县| 长沙市| 九江市| 女性| 温州市| 原阳县| 瓦房店市| 渭源县| 子洲县| 巫溪县| 望奎县| 和田县| 津南区| 封开县| 平度市| 辉南县| 都匀市| 区。| 海兴县| 米脂县| 靖边县| 平顺县| 龙江县| 云龙县|