- 美圖 投稿
量子位 | 公眾號 QbitAI
圖像編輯大禮包!美圖5篇技術(shù)論文入圍CVPR 2025。
比如無痕改字,手寫體書面體、海報廣告上各種字體都可以修改。
又或者基于語義的局部編輯,只需涂抹或框選工具就能在指定區(qū)域生成。
還有超級精細(xì)的交互式分割算法等等。
更關(guān)鍵的是,這些前沿技術(shù)已經(jīng)在美圖各大APP(美圖秀秀、WHEE、美圖設(shè)計室等)中上線了。
今天就帶大家一文看盡美圖在AI圖像編輯最新成果。
美圖5篇論文入選CVPR 2025
美圖旗下美圖影像研究院(MT Lab)聯(lián)合清華大學(xué)、新加坡國立大學(xué)、北京理工大學(xué)、北京交通大學(xué)等知名高校發(fā)布的5篇論文入選CVPR 2025,均聚焦于圖像編輯領(lǐng)域,分布在生成式AI、交互式分割、3D重建三個方面。
從技術(shù)路徑來看,突破主要體現(xiàn)在以下3個方面:
精細(xì)化策略設(shè)計:通過結(jié)合精細(xì)化策略(如基于點(diǎn)擊的交互式分割方法NTClick、兩階段細(xì)化框架SAM-REF)顯著提高交互分割的效率與精度,同時大幅降低用戶操作復(fù)雜度。
垂類場景下基于擴(kuò)散模型的框架創(chuàng)新:結(jié)合特定編碼器,提升生成任務(wù)質(zhì)量,以及基于多任務(wù)訓(xùn)練框架,提升結(jié)構(gòu)穩(wěn)定性和風(fēng)格一致性。
外推視角的高質(zhì)量合成:基于增強(qiáng)視圖先驗(yàn)引導(dǎo)的方案,成功實(shí)現(xiàn)高保真的3D重建。
其中GlyphMastero、MTADiffusion屬于生成式類任務(wù),這不僅是CVPR最熱門的前沿方向之一,美圖近年來在該方向上也屢獲突破,圍繞生成式AI推出的多項(xiàng)功能與多款產(chǎn)品吸引了海內(nèi)外大量用戶,旗下美顏相機(jī)近期憑借AI換裝功能,成功登頂多國應(yīng)用商店總榜第一。
NTClick、SAM-REF關(guān)注交互分割工作,通過用戶簡單交互指導(dǎo)的精確引導(dǎo)圖像分割,交互分割在復(fù)雜場景下能夠顯著提升分割效果和可靠性,在美圖面向電商設(shè)計、圖像編輯與處理、人像美化等功能的AI產(chǎn)品中有廣泛應(yīng)用,憑借在交互分割方面的領(lǐng)先優(yōu)勢,也帶動旗下產(chǎn)品美圖設(shè)計室的亮眼表現(xiàn)。根據(jù)美圖最新財報數(shù)據(jù)顯示,這款被稱為“電商人必備的AI設(shè)計工具”2024年單產(chǎn)品收入約2億元,按年同比翻倍,是美圖有史以來收入增長最快的產(chǎn)品。
EVPGS則是3D重建方面成果,受益于深度學(xué)習(xí)的驅(qū)動,尤其是高斯?jié)姙R(Gaussian Splatting)的興起,3D重建在新視角生成、增強(qiáng)現(xiàn)實(shí)(AR)、3D內(nèi)容生成、虛擬數(shù)字人等領(lǐng)域應(yīng)用需求激增,在多個行業(yè)展現(xiàn)出強(qiáng)大的潛力。
GlyphMastero:高質(zhì)量場景文本編輯的創(chuàng)新方法
針對場景的文本編輯任務(wù),既要求保證文本內(nèi)容符合用戶編輯需求,還要求保持風(fēng)格一致性和視覺協(xié)調(diào)性。研究人員發(fā)現(xiàn),現(xiàn)有方法往往使用預(yù)訓(xùn)練的OCR模型提取特征,但它們未能捕捉文本結(jié)構(gòu)的層次性,即從單個筆畫到筆畫間的交互,再到整體字符結(jié)構(gòu)間的交互,最后到字符與文字行間的交互,這就導(dǎo)致在處理復(fù)雜字符(如中文)時容易產(chǎn)生扭曲或難以辨認(rèn)的結(jié)果。
對此,美圖影像研究院(MT Lab)的研究人員提出專為場景文本編輯設(shè)計的字形編碼器GlyphMastero,旨在解決當(dāng)前擴(kuò)散模型在文本生成任務(wù)中面臨的質(zhì)量挑戰(zhàn)。
GlyphMastero核心由字形注意力模塊(Glyph Attention Module)和特征金字塔網(wǎng)絡(luò)(FPN)兩大部分組成。
△GlyphMastero方法整體架構(gòu)
字形注意力模塊(Glyph Attention Module)
通過創(chuàng)新的字形注意力模塊,建模并捕捉局部單個字符的筆畫關(guān)系以及字符間的全局排布。該模塊不僅對局部細(xì)節(jié)進(jìn)行編碼,還實(shí)現(xiàn)了字符與全局文本行之間的跨層次交互。
特征金字塔網(wǎng)絡(luò)(FPN)
GlyphMastero還實(shí)現(xiàn)了一個特征金字塔網(wǎng)絡(luò)(FPN),能夠在全局層面融合多尺度OCR骨干(Backbone)特征,確保在保留字符細(xì)節(jié)特征的同時,又能夠捕捉全局風(fēng)格,并將最終生成的字形用于指導(dǎo)擴(kuò)散模型對文本的生成和修復(fù)。
基于跨層次和多尺度融合,GlyphMastero可以獲得更細(xì)粒度的字形特征,從而實(shí)現(xiàn)對場景文本生成過程的精確控制。
實(shí)驗(yàn)結(jié)果表明,與最先進(jìn)的多語言場景文本編輯基準(zhǔn)相比,GlyphMastero在句子準(zhǔn)確率上提高了18.02%,同時將文本區(qū)域風(fēng)格相似度距離(FID)降低了53.28%,這表明生成文本實(shí)現(xiàn)了更加自然且高融合度的視覺風(fēng)格。
對比結(jié)果顯示,在海報、街景和廣告圖等場景下,GlyphMastero 能夠生成與原圖風(fēng)格高度契合的文本,無論是字體粗細(xì)、色調(diào)還是透視關(guān)系,都比之前的SOTA方法更為自然和精細(xì)。
目前GlyphMastero已落地美圖旗下產(chǎn)品美圖秀秀的無痕改字功能,為用戶提供輕松便捷的改字體驗(yàn)。
△美圖秀秀無痕改字效果
MTADiffusion:語義增強(qiáng)的局部編輯方法
圖像局部修復(fù)(Image Inpainting)提供了一個無需PS或其它圖像處理工具,就可以輕松進(jìn)行改圖的全新方式,大大降低使用難度,用戶只需要使用涂抹或者框選工具,選定想要修改的局部Mask區(qū)域,輸入Prompt就能夠在指定區(qū)域生成想要的圖像。
但現(xiàn)有的Inpainting模型,常常在語義對齊、結(jié)構(gòu)一致性和風(fēng)格匹配方面表現(xiàn)不佳,比如生成內(nèi)容不符合用戶輸入的文本描述,或是修復(fù)區(qū)域的細(xì)節(jié)缺乏準(zhǔn)確性,光照、顏色或紋理與原圖也容易存在差異,影響整體視覺一致性。
針對以上問題,美圖影像研究院(MT Lab)的研究人員提出了一種圖文對齊的Inpainting訓(xùn)練框架——MTADiffusion,MTADiffusion先使用分割模型提取出物體的mask,再通過多模態(tài)大模型對圖像局部區(qū)域生成詳細(xì)的文本標(biāo)注,這種圖文對齊的訓(xùn)練數(shù)據(jù)構(gòu)造方式有效提升了模型的語義理解能力。
為了優(yōu)化生成物體的結(jié)構(gòu)合理性,MTADiffusion使用了多任務(wù)訓(xùn)練策略,將圖像去噪任務(wù)(Inpainting)作為主任務(wù),進(jìn)行噪聲預(yù)測,將聯(lián)合邊緣預(yù)測任務(wù)(Edge Prediction)作為輔助任務(wù),用于優(yōu)化物體結(jié)構(gòu)。此外,MTADiffusion還提出了基于Gram矩陣的風(fēng)格損失,以提升生成圖片的風(fēng)格一致性。
△MTADiffusion整體框架
基于MTADiffusion方法,圖像局部修復(fù)模型在BrushBench和EditBench上的效果都有明顯提升,同時這些通用的策略也可以適配不同的基礎(chǔ)模型。
△在BrushBench上的對比效果
△在EditBench上的對比效果
目前,MTADiffusion已落地美圖旗下AI素材生成器WHEE,實(shí)現(xiàn)輕松高效的一站式改圖。
此外,開發(fā)者目前也可通過美圖AI開放平臺集成局部重繪能力,賦能更多創(chuàng)意場景。
△WHEE的AI改圖效果
NTClick:基于噪聲容忍點(diǎn)擊的精細(xì)交互式分割方法
交互式圖像分割(Interactive Segmentation)旨在通過盡可能高效的用戶輸入,預(yù)測物體的精確Mask,該技術(shù)廣泛應(yīng)用于數(shù)據(jù)標(biāo)注、圖像編輯等領(lǐng)域,其中“點(diǎn)擊”憑借其高效與靈活性,逐漸成為交互分割中最主流的交互形式之一。
但隨著目標(biāo)對象復(fù)雜性和細(xì)節(jié)的增加,基于前背景點(diǎn)擊的交互方式的優(yōu)勢逐漸減弱,因?yàn)樵谔幚砑?xì)小或復(fù)雜的目標(biāo)區(qū)域時,準(zhǔn)確點(diǎn)擊對于精確定位的需求會大大降低交互效率,同時用戶和設(shè)備友好性都非常有限。
為了解決這個問題,美圖影像研究院(MT Lab)的研究人員提出了一種基于點(diǎn)擊的交互式分割方法NTClick,大幅降低了對精確點(diǎn)擊的依賴,支持用戶在處理復(fù)雜目標(biāo)時,能憑借目標(biāo)區(qū)域附近的粗略點(diǎn)擊,預(yù)測精準(zhǔn)的Mask。
NTClick 提出了一種全新的交互形式:噪聲容忍點(diǎn)擊,這是一種在選擇細(xì)節(jié)區(qū)域時不需要用戶精確定位的點(diǎn)擊方式。
NTClick通過一個兩階段網(wǎng)絡(luò)來實(shí)現(xiàn)對于粗糙交互的理解以及細(xì)節(jié)區(qū)域的精修:
第一階段:Explicit Coarse Perception (ECP) 顯式粗糙感知網(wǎng)絡(luò):
該階段通過一個用于初步估計的顯式粗略感知網(wǎng)絡(luò),在低分辨率下對用戶的點(diǎn)擊進(jìn)行理解,并且預(yù)測出一個初步的估計結(jié)果-FBU Map。受到摳圖技術(shù)中三元圖的啟發(fā),F(xiàn)BU map將圖像分為三類區(qū)域——前景、背景和不確定區(qū)域。其中,不確定區(qū)域通常對應(yīng)細(xì)小或邊緣模糊的部分,為后續(xù)精細(xì)化處理提供指導(dǎo)。
第二階段:High Resolution Refinement (HRR) 高分辨率精修網(wǎng)絡(luò):
該階段將 ECP 得到的FBU Map進(jìn)行上采樣,并與原始 RGB 圖像拼接,輸入到高分辨率精修網(wǎng)絡(luò)中。HRR 網(wǎng)絡(luò)專注于細(xì)粒度區(qū)域的像素級分類,通過稀疏網(wǎng)格注意力機(jī)制和近鄰注意力機(jī)制的組合,在計算開銷可控的前提下,在高分辨率下進(jìn)行精細(xì)化感知,實(shí)現(xiàn)對微小結(jié)構(gòu)(如植物細(xì)枝、精細(xì)雕塑等)的精準(zhǔn)分割,輸出最終的預(yù)測結(jié)果。
△NTClick 兩階段架構(gòu)
在包含精細(xì)目標(biāo)的DIS5K等多個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,NTClick擁有明顯更高的感知精度,并且在越復(fù)雜的場景下優(yōu)勢越明顯。這表明,NTClick不僅保持了高效且用戶友好的交互方式,在分割精度上也顯著超過了現(xiàn)有方法。
△實(shí)驗(yàn)結(jié)果
可視化結(jié)果也顯示,NTClick 在處理細(xì)小目標(biāo)(如首飾、線繩)時,相比傳統(tǒng)方法具有更清晰的邊界和更高的分割精度,同時用戶的交互負(fù)擔(dān)明顯降低。
△對比結(jié)果
近年來美圖在分割算法上屢獲突破,友好的交互方式疊加強(qiáng)大算法泛化能力,持續(xù)提升場景覆蓋率與分割精細(xì)度,而對場景的理解深度與對用戶體驗(yàn)的極致追求,也助力智能摳圖這個垂類場景一躍成為美圖設(shè)計室的王牌功能。
△美圖設(shè)計室智能摳圖效果
SAM-REF:高精度場景下的交互式分割
交互式分割當(dāng)前有兩種主流方法,F(xiàn)ocalClick、SimpleClick等早期融合(Early fusion)方法,這是現(xiàn)有專家模型所采用的方法,這類方法在編碼階段就將圖像和用戶提示進(jìn)行結(jié)合以定位目標(biāo)區(qū)域,但該方法基于用戶的多次交互操作,需要對圖像進(jìn)行多次復(fù)雜計算,會導(dǎo)致較高的延遲。
相反的,Segment Anything Model (SAM)、InterFormer等后期融合(Late fusion)方法,能夠一次性提取圖像的全局特征編碼,并在解碼階段將其與用戶交互進(jìn)行結(jié)合,避免了冗余的圖像特征提取,大大提高了效率。
其中SAM是具有里程碑意義的通用分割模型,盡管它具備高效性和強(qiáng)大的泛化能力,但由于采用晚期融合策略,限制了SAM直接從提示區(qū)域提取詳細(xì)信息的能力,導(dǎo)致其在目標(biāo)邊緣細(xì)節(jié)處理上存在不足。例如,對于細(xì)小物體或紋理復(fù)雜的場景,SAM 往往會出現(xiàn)邊界模糊或局部信息缺失的問題。
為了解決這一問題,美圖影像研究院(MT Lab)的研究人員提出了兩階段細(xì)化框架——SAM-REF,能夠在維持SAM運(yùn)行效率的同時,提升 SAM的交互式分割能力,尤其是在高精度場景下。
SAM-REF在后期融合的基礎(chǔ)上,引入了輕量級細(xì)化器(Refiner),從而在保持效率的同時,提升SAM在高精度場景下交互式分割能力,其核心結(jié)構(gòu)包括:
全局融合細(xì)化器(Global Fusion Refiner, GFR)
該模塊專注于捕獲整個對象的詳細(xì)信息,通過輕量特征提取,結(jié)合SAM的Embeds中的語義信息,利用圖像和提示重引導(dǎo)來補(bǔ)充高頻細(xì)節(jié)。
局部融合細(xì)化器(Local Fusion Refiner, LFR)
該模塊對目標(biāo)區(qū)域進(jìn)行局部裁剪,并對局部細(xì)節(jié)進(jìn)行精細(xì)化處理,避免對整個圖像進(jìn)行重復(fù)計算,提高計算效率。
動態(tài)選擇機(jī)制(Dynamic Selector, DS)
通過分析目標(biāo)區(qū)域的誤差率,自適應(yīng)選擇 GFR 處理的全局特征,或者 LFR 處理的局部細(xì)節(jié),以達(dá)到最佳分割效果。
△SAM-REF核心架構(gòu)
實(shí)驗(yàn)結(jié)果顯示,SAM-REF在NoC90上相較于基線方法(如SAM和FocSAM)提升了16.3%,在NoF95減少了13.3%,同時Latency僅有早期融合方法(如FocalClick)的16.5%。可以看出,SAM-REF 在分割精度上有明顯提升,且計算成本僅增加 0.003 秒/幀,基本維持了 SAM 的高效性。
可視化結(jié)果也顯示,相較于SAM,SAM-REF在具有挑戰(zhàn)性的場景中能更有效地識別纖細(xì)的結(jié)構(gòu),并能夠在持續(xù)點(diǎn)擊交互中提升分割精度。
△SAM-REF的可視化結(jié)果
結(jié)合在交互分割領(lǐng)域的能力提升,美圖旗下美圖設(shè)計室為用戶帶來簡單、高效、精準(zhǔn)的智能摳圖體驗(yàn),用戶無需精準(zhǔn)點(diǎn)擊,就能輕松調(diào)整選區(qū)。無論是人像、商品、復(fù)雜背景甚至發(fā)絲細(xì)節(jié)等難處理元素,分割質(zhì)量都更加穩(wěn)定,無需專業(yè)技能就可以獲得高質(zhì)量摳圖。
△美圖設(shè)計室交互分割效果
EVPGS:基于3D高斯?jié)姙R的外推視角合成
新視圖合成(Novel View Synthesis, NVS)旨在生成與輸入圖像不同視角的新圖像,但傳統(tǒng)方法(如 NeRF、3D Gaussian Splatting)依賴于“數(shù)量較多”且“分布均勻”的訓(xùn)練視角來保證重建質(zhì)量。
針對”數(shù)量較多“的要求,一些研究已經(jīng)探索了極少視角(三張甚至更少)的三維重建方法。然而,在許多實(shí)際應(yīng)用場景中,“分布均勻”卻難以實(shí)現(xiàn)。例如,當(dāng)用戶手持手機(jī)繞物體或某個場景拍攝一圈時,往往能獲得幾十甚至上百張訓(xùn)練圖像,但這些圖像的視角通常集中在同一水平面上,缺少豐富的角度變化。
在這樣的情況下,若嘗試從俯視視角或仰視視角合成新圖像,重建質(zhì)量會顯著下降。如下圖所示,當(dāng)拍攝的訓(xùn)練數(shù)據(jù)僅包含藍(lán)色標(biāo)記的水平視角時,嘗試從紅色標(biāo)記的視角進(jìn)行圖像合成,結(jié)果往往出現(xiàn)嚴(yán)重的失真問題。
為應(yīng)對此類實(shí)際應(yīng)用挑戰(zhàn),美圖影像研究院(MT Lab)的研究人員提出了基于增強(qiáng)視圖先驗(yàn)引導(dǎo)的外推視圖合成方案——EVPGS,解決高斯?jié)姙R(Gaussian Splatting) 在外推視角下的失真問題,有效提升合成質(zhì)量。
EVPGS的核心思想是在訓(xùn)練過程中得到外推視角的先驗(yàn)信息,應(yīng)用視角增強(qiáng)策略來監(jiān)督GS模型的訓(xùn)練。EVPGS可以生成可靠的視角先驗(yàn),稱之為增強(qiáng)視角先驗(yàn)(Enhanced View Priors),整個過程采用由粗到細(xì)(coarse-to-fine)的方式,對視角先驗(yàn)進(jìn)行偽影去除和外觀優(yōu)化。
EVPGS技術(shù)實(shí)現(xiàn)路徑分為三個階段:
預(yù)訓(xùn)練階段:
該階段選用RaDe-GS作為Backbone,僅使用訓(xùn)練視角作為監(jiān)督進(jìn)行預(yù)訓(xùn)練。EVPGS可以支持不同的GS方法作為Backbone,均能在外推視角合成任務(wù)中取得顯著的效果提升。
粗優(yōu)化階段:
該階段選用Stable Diffusion 2.1模型對外推視角先驗(yàn)進(jìn)行偽影去除,再使用預(yù)訓(xùn)練階段得到的物體Mesh渲染的深度圖,對GS模型直接渲染的深度圖進(jìn)行監(jiān)督,二者分別從外觀和幾何兩個維度對預(yù)訓(xùn)練模型進(jìn)行正則化,有效提升了外推視角先驗(yàn)的表現(xiàn)。
細(xì)優(yōu)化階段:
該階段采用幾何重投影方法,從訓(xùn)練視角中尋找外推視角先驗(yàn)的對應(yīng)像素值,并將其作為外推視角先驗(yàn)的像素。然而,該過程受到視角差異帶來的遮擋和光照變化的影響,可能導(dǎo)致投影結(jié)果不準(zhǔn)確。因此,該階段還引入了遮擋檢測策略與視角融合策略,有效緩解上述問題的影響,生成更加可靠的增強(qiáng)視角先驗(yàn),用于監(jiān)督 GS 模型的訓(xùn)練。
△EVPGS訓(xùn)練方案
實(shí)驗(yàn)結(jié)果顯示,在平均約30° 的外推角度下,相比于基于高斯?jié)姙R的系列方法(3DGS、2DGS、GOF等),EVPGS 的細(xì)節(jié)保真度顯著提高,紋理重建更清晰,無明顯偽影。這也證明EVPGS可以接入到不同的GS Backbone中,并取得顯著的效果提升,以RaDe-GS作為Backbone,在外推視角合成任務(wù)中達(dá)到了業(yè)界最佳效果。
△實(shí)驗(yàn)結(jié)果
可視化結(jié)果顯示,EVPGS比起B(yǎng)aseline有更少的偽影,能夠恢復(fù)更多高頻率的紋理和文字細(xì)節(jié)。
△可視化結(jié)果
△美圖3D重建方案效果
此外,EVPGS主要針對物體場景的重建,但將其在室外場景數(shù)據(jù)集(Mip-NeRF360)上進(jìn)行測試時,發(fā)現(xiàn)依舊可以取得不錯的效果,這也進(jìn)一步證明了EVPGS在外推視角合成任務(wù)的場景可擴(kuò)展性。
△EVPGS在室外場景數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.