99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

小紅書等給AI圖像檢測上難度!數(shù)據(jù)集均通過人類感知“圖靈測試”

0
分享至

小紅書團(tuán)隊(duì) 投稿至 凹非寺
量子位 | 公眾號(hào) QbitAI

AI生成內(nèi)容已深度滲透至生活的方方面面,從藝術(shù)創(chuàng)作到設(shè)計(jì)領(lǐng)域,再到信息傳播與版權(quán)保護(hù),其影響力無處不在。

然而,隨著生成模型技術(shù)的飛速發(fā)展,如何精準(zhǔn)甄別AI生成圖像成為業(yè)界與學(xué)界共同聚焦的難題。

來自小紅書生態(tài)算法團(tuán)隊(duì)、中科大、上海交通大學(xué)聯(lián)合提出行業(yè)稀缺的全人工標(biāo)注Chameleon基準(zhǔn)和行業(yè)領(lǐng)先的AIDE檢測方法。



團(tuán)隊(duì)經(jīng)過分析,幾乎所有模型都將Chameleon基準(zhǔn)中AI生成的圖像歸類為真實(shí)圖像

于是他們提出了AIDE(具有混合特征的AI -generated Image DE tector ),它利用多個(gè)專家同時(shí)提取視覺偽影和噪聲模式。最終分別比現(xiàn)有的最先進(jìn)方法提高了 3.5% 和 4.6% 的準(zhǔn)確率。

重新定義AI生成圖像檢測任務(wù)

Train-Test Setting-I:在現(xiàn)有研究中,AI 生成圖像檢測任務(wù)通常被設(shè)定為在一個(gè)特定的生成模型(如 GAN 或擴(kuò)散模型)上訓(xùn)練模型,然后在其他生成模型上進(jìn)行測試。

然而,通常來說,這種設(shè)定存在兩個(gè)主要問題:

評估Benchmark過于簡單:現(xiàn)有Benchmark中的圖像通常會(huì)有一些artifacts。

訓(xùn)練數(shù)據(jù)的局限性:將模型限制在特定類型的生成模型上 (GAN or 擴(kuò)散模型) 訓(xùn)練,限制了模型從更先進(jìn)的生成模型中學(xué)習(xí)多樣化特征的能力。

為了解決這些問題,團(tuán)隊(duì)提出了一個(gè)新的問題設(shè)定:

Train-Test Setting-II:鑒別器可以將多種生成模型的圖像混合一起訓(xùn)練,然后在更具挑戰(zhàn)性的、真實(shí)世界場景中的圖像上進(jìn)行測試。這種設(shè)定更符合實(shí)際應(yīng)用中的需求,能夠更好地評估模型的泛化能力和魯棒性。

為了更真實(shí)地評估 AI 生成圖像檢測方法的性能,團(tuán)隊(duì)精心構(gòu)建了Chameleon 數(shù)據(jù)集。



Chameleon數(shù)據(jù)集具有以下顯著特點(diǎn):

高度逼真性:所有AI生成圖像均通過了人類感知“圖靈測試”,即人類標(biāo)注者無法將其與真實(shí)圖像區(qū)分開來。這些圖像在視覺上與真實(shí)圖像高度相似,能夠有效挑戰(zhàn)現(xiàn)有檢測模型的極限。

多樣化類別:數(shù)據(jù)集涵蓋了人類、動(dòng)物、物體和場景等多類圖像,全面模擬現(xiàn)實(shí)世界中的各類場景。這種多樣性確保了模型在不同類別上的泛化能力。

高分辨率:圖像分辨率普遍超過720P,最高可達(dá)4K。高分辨率圖像不僅提供了更豐富的細(xì)節(jié)信息,也增加了檢測模型對細(xì)微差異的捕捉能力。

數(shù)據(jù)集構(gòu)建

為構(gòu)建一個(gè)能夠真實(shí)反映 AI 生成圖像檢測挑戰(zhàn)的高質(zhì)量數(shù)據(jù)集,團(tuán)隊(duì)在數(shù)據(jù)收集、清洗和標(biāo)注環(huán)節(jié)均采取了創(chuàng)新且嚴(yán)謹(jǐn)?shù)姆椒ǎ_保數(shù)據(jù)集的高質(zhì)量和高逼真度。

數(shù)據(jù)收集:多渠道、高逼真度圖像獲取

與之前的基準(zhǔn)數(shù)據(jù)集不同,團(tuán)隊(duì)從多個(gè)流行的 AI 繪畫社區(qū)(如 ArtStation、Civitai 和 Liblib)收集了超過 150K 的 AI 生成圖像,這些圖像均由廣泛的用戶創(chuàng)作,使用了多種先進(jìn)的生成模型(如 Midjourney、DALL·E 3 和 Stable Diffusion 等)。這些圖像不僅在視覺上逼真,而且涵蓋了豐富多樣的主題和風(fēng)格,包括人物、動(dòng)物、物體和場景等。此外,還從 Unsplash 等平臺(tái)收集了超過 20K 的真實(shí)圖像,這些圖像均由專業(yè)攝影師拍攝,具有高分辨率和高質(zhì)量。所有圖像均獲得了合法授權(quán),確保了數(shù)據(jù)的合法性和可用性。

相比之下,之前的基準(zhǔn)數(shù)據(jù)集通常使用生成效果較差的模型生成圖像,缺乏多樣性和真實(shí)感,如下圖所示。



數(shù)據(jù)清洗:多維度、精細(xì)化過濾

為確保數(shù)據(jù)集的高質(zhì)量,團(tuán)隊(duì)對收集的圖像進(jìn)行了多維度、精細(xì)化的清洗過程:

分辨率過濾:團(tuán)隊(duì)過濾掉了分辨率低于 448×448 的圖像,確保所有圖像具有足夠的細(xì)節(jié)和清晰度,以反映 AI 生成圖像的真實(shí)特性。

內(nèi)容過濾:利用先進(jìn)的安全檢查模型(如 Stable Diffusion 的安全檢查模型),團(tuán)隊(duì)過濾掉了包含暴力、色情和其他不適宜內(nèi)容的圖像,確保數(shù)據(jù)集的合規(guī)性和適用性。

去重處理:通過比較圖像的哈希值,團(tuán)隊(duì)去除了重復(fù)的圖像,確保數(shù)據(jù)集的多樣性和獨(dú)立性。

文本-圖像一致性過濾:利用 CLIP 模型,團(tuán)隊(duì)計(jì)算了圖像與對應(yīng)文本描述的相似度,過濾掉了與文本描述不匹配的圖像,確保圖像與文本的一致性和相關(guān)性。

之前的基準(zhǔn)數(shù)據(jù)集往往缺乏嚴(yán)格的過濾步驟,導(dǎo)致數(shù)據(jù)集中包含大量低質(zhì)量、不適宜或重復(fù)的圖像,影響了數(shù)據(jù)集的整體質(zhì)量。

數(shù)據(jù)標(biāo)注:專業(yè)標(biāo)注平臺(tái)與多輪評估

為確保數(shù)據(jù)集的準(zhǔn)確性和可靠性,團(tuán)隊(duì)建立了專門的標(biāo)注平臺(tái),并招募了 20 名具有豐富經(jīng)驗(yàn)的人類標(biāo)注者對圖像進(jìn)行分類和真實(shí)性評估:

分類標(biāo)注:標(biāo)注者將圖像分為人類、動(dòng)物、物體和場景四類,確保數(shù)據(jù)集覆蓋了多種現(xiàn)實(shí)世界中的場景和對象。

真實(shí)性評估:標(biāo)注者根據(jù)“是否可以用相機(jī)拍攝”這一標(biāo)準(zhǔn)對圖像的真實(shí)性進(jìn)行評估。每個(gè)圖像獨(dú)立評估兩次,只有當(dāng)兩名標(biāo)注者均誤判為真實(shí)時(shí),圖像才被標(biāo)記為“高逼真”。

多輪評估:為確保標(biāo)注的準(zhǔn)確性,團(tuán)隊(duì)對標(biāo)注結(jié)果進(jìn)行了多輪審核和校對,確保每個(gè)圖像的分類和真實(shí)性評估結(jié)果準(zhǔn)確無誤。

與之前的基準(zhǔn)數(shù)據(jù)集不同,該數(shù)據(jù)集經(jīng)過了嚴(yán)格的人工標(biāo)注,確保了數(shù)據(jù)集的高質(zhì)量和高逼真度。之前的基準(zhǔn)數(shù)據(jù)集往往缺乏嚴(yán)格的人工標(biāo)注,導(dǎo)致數(shù)據(jù)集中的圖像質(zhì)量和標(biāo)注準(zhǔn)確性參差不齊。

通過上述多維度、精細(xì)化的數(shù)據(jù)收集、清洗和標(biāo)注過程,構(gòu)建了一個(gè)高質(zhì)量、高逼真度的 AI 生成圖像檢測基準(zhǔn)數(shù)據(jù)集,為后續(xù)的研究和模型評估提供了堅(jiān)實(shí)的基礎(chǔ)。該數(shù)據(jù)集不僅在規(guī)模上更大,而且在圖像質(zhì)量和標(biāo)注精度上也有了顯著提升,能夠更好地反映 AI 生成圖像檢測的實(shí)際挑戰(zhàn)。

數(shù)據(jù)集對比

Chameleon數(shù)據(jù)集可以作為現(xiàn)有評測數(shù)據(jù)集的擴(kuò)展,Chameleon數(shù)據(jù)集在規(guī)模、多樣性和圖像質(zhì)量等方面均展現(xiàn)出顯著優(yōu)勢:

規(guī)模:Chameleon數(shù)據(jù)集包含約26,000張測試圖像,是目前最大的AI生成圖像檢測數(shù)據(jù)集之一。

多樣性:數(shù)據(jù)集涵蓋了多種生成模型和圖像類別,遠(yuǎn)超其他數(shù)據(jù)集的單一類別。

圖像質(zhì)量:圖像分辨率從720P到4K不等,提供了更高質(zhì)量的圖像數(shù)據(jù),增加了檢測模型的挑戰(zhàn)性。

AIDE模型:多專家融合的檢測框架

在AI生成圖像檢測領(lǐng)域,現(xiàn)有的檢測方法往往只能從單一角度進(jìn)行分析,難以全面捕捉AI生成圖像與真實(shí)圖像之間的細(xì)微差異。

為了解決這一問題,研究者們提出了簡單且有效的AIDE(AI-generated Image DEtector with Hybrid Features)模型,該模型通過融合多種專家模塊,從低級像素統(tǒng)計(jì)和高級語義兩個(gè)層面全面捕捉圖像特征,實(shí)現(xiàn)了對AI生成圖像的精準(zhǔn)檢測。

AIDE模型主要由兩個(gè)核心模塊組成:Patchwise Feature Extraction(PFE)模塊和Semantic Feature Embedding(SFE)模塊。這兩個(gè)模塊通過多專家融合的方式,共同為最終的分類決策提供豐富的特征信息。



Patchwise Feature Extraction(PFE)模塊

PFE模塊旨在捕捉圖像中的低級像素統(tǒng)計(jì)特征,特別是AI生成圖像中常見的噪聲模式和紋理異常。具體而言,該模塊通過以下步驟實(shí)現(xiàn):

Patch Selection via DCT Scoring:首先,將輸入圖像劃分為多個(gè)固定大小的圖像塊(如32×32像素)。然后,對每個(gè)圖像塊應(yīng)用離散余弦變換(DCT),將其轉(zhuǎn)換到頻域。通過設(shè)計(jì)不同的帶通濾波器,計(jì)算每個(gè)圖像塊的頻率復(fù)雜度得分,從而識(shí)別出最高頻率和最低頻率的圖像塊。

Patchwise Feature Encoder:將篩選出的高頻和低頻圖像塊調(diào)整為統(tǒng)一大小(如256×256像素),并輸入到SRM(Spatial Rich Model)濾波器中提取噪聲模式特征。這些特征隨后通過兩個(gè)ResNet-50網(wǎng)絡(luò)進(jìn)行進(jìn)一步處理,得到最終的特征圖。

Semantic Feature Embedding(SFE)模塊

SFE模塊旨在捕捉圖像中的高級語義特征,特別是物體共現(xiàn)和上下文關(guān)系等。具體而言,該模塊通過以下步驟實(shí)現(xiàn):

Semantic Feature Embedding:利用預(yù)訓(xùn)練的OpenCLIP模型對輸入圖像進(jìn)行全局語義編碼,得到圖像的視覺嵌入特征。通過添加線性投影層和平均空間池化操作,進(jìn)一步提取圖像的全局上下文信息。

Discriminator模塊

將PFE和SFE模塊提取的特征在通道維度上進(jìn)行融合,通過多層感知機(jī)(MLP)進(jìn)行最終的分類預(yù)測。具體而言,首先對高頻和低頻特征圖進(jìn)行平均池化,得到低級特征表示;然后將其與高級語義特征進(jìn)行通道級拼接,形成最終的特征向量;最后通過MLP網(wǎng)絡(luò)輸出分類結(jié)果。

實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集:實(shí)驗(yàn)在AIGCDetectBenchmark、GenImage和Chameleon三個(gè)數(shù)據(jù)集上進(jìn)行。AIGCDetectBenchmark和GenImage是現(xiàn)有的基準(zhǔn)測試數(shù)據(jù)集,而Chameleon是研究者們新構(gòu)建的更具挑戰(zhàn)性的數(shù)據(jù)集。

模型對比:研究者選擇了9種現(xiàn)成的AI生成圖像檢測器進(jìn)行對比,包括CNNSpot、FreDect、Fusing、LNP、LGrad、UnivFD、DIRE、PatchCraft和NPR。

評價(jià)指標(biāo):實(shí)驗(yàn)采用分類準(zhǔn)確率(Accuracy)和平均精度(Average Precision, AP)作為評價(jià)指標(biāo)。

團(tuán)隊(duì)評測了AIDE在AIGCDetectBenchmark和GenImage上的結(jié)果,如下表所示:



AIDE模型在這兩個(gè)數(shù)據(jù)集上的優(yōu)異表現(xiàn)表明,融合低級像素統(tǒng)計(jì)和高級語義特征的方法能夠有效捕捉AI生成圖像與真實(shí)圖像之間的差異,從而提高檢測準(zhǔn)確率。

隨后在Chameleon benchmark上測評了9個(gè)現(xiàn)有的detectors,如下表所示。



同時(shí)團(tuán)隊(duì)可視化了,之前的SOTA方法PatchCraft在AIGCDetectBenchmark & GenImage 以及Chameleon上的表現(xiàn)



結(jié)果表明,之前在AIGCDetectBenchmark &GenImage上表現(xiàn)優(yōu)異的模型,在Chameleon benchmark上均表現(xiàn)很差,這表明Chameleon數(shù)據(jù)集中的圖像確實(shí)具有高度的逼真性,對現(xiàn)有檢測模型提出了更大的挑戰(zhàn)。

本論文通過對現(xiàn)有 AI 生成圖像檢測方法的重新審視,提出了一個(gè)新的問題設(shè)定,構(gòu)建了更具挑戰(zhàn)性的 Chameleon 數(shù)據(jù)集,并設(shè)計(jì)了一個(gè)融合多專家特征的檢測器 AIDE。實(shí)驗(yàn)結(jié)果表明,AIDE 在現(xiàn)有的兩個(gè)流行基準(zhǔn)(AIGCDetectBenchmark 和 GenImage)上取得了顯著的性能提升,分別比現(xiàn)有的最先進(jìn)方法提高了 3.5% 和 4.6% 的準(zhǔn)確率。然而,在 Chameleon 基準(zhǔn)上,盡管 AIDE 取得了最好的性能,但與現(xiàn)有基準(zhǔn)相比,仍存在較大的差距。

這表明,檢測 AI 生成圖像的任務(wù)仍然具有很大的挑戰(zhàn)性,需要未來進(jìn)一步的研究和改進(jìn)。希望這一工作能夠?yàn)檫@一領(lǐng)域的研究提供新的思路和方向,推動(dòng) AI 生成圖像檢測技術(shù)的發(fā)展。

盡管AIDE模型在AI生成圖像檢測領(lǐng)域取得了顯著進(jìn)展,但研究者們?nèi)杂?jì)劃在未來的工作中進(jìn)一步優(yōu)化模型架構(gòu),探索更高效的特征提取和融合方法。

此外,研究者們還計(jì)劃擴(kuò)大Chameleon數(shù)據(jù)集的規(guī)模,涵蓋更多類別、更多場景、更多生成模型的圖像,以推動(dòng)AI生成圖像檢測技術(shù)的進(jìn)一步發(fā)展。

論文:https://arxiv.org/pdf/2406.19435
主頁:https://shilinyan99.github.io/AIDE/
代碼:https://github.com/shilinyan99/AIDE

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我,70后客運(yùn)司機(jī),最高月薪5萬,狂賺200萬后,無奈做起三胎奶爸

我,70后客運(yùn)司機(jī),最高月薪5萬,狂賺200萬后,無奈做起三胎奶爸

真實(shí)人物采訪
2025-04-07 12:10:04
布斯時(shí)代結(jié)束!盤點(diǎn)布斯任期操作:用巴頓等人換來波普 簽下威少

布斯時(shí)代結(jié)束!盤點(diǎn)布斯任期操作:用巴頓等人換來波普 簽下威少

直播吧
2025-04-09 02:16:08
李嘉誠兒子為她癡迷,林丹為她背叛孕妻,這位世界小姐到底憑什么

李嘉誠兒子為她癡迷,林丹為她背叛孕妻,這位世界小姐到底憑什么

葡萄說娛
2025-04-08 11:25:42
連談都不打算談了!中國駐美大使館公開點(diǎn)名特朗普,信號(hào)很明確

連談都不打算談了!中國駐美大使館公開點(diǎn)名特朗普,信號(hào)很明確

星辰故事屋
2025-04-08 20:25:16
蒼天饒過誰!拒唱國歌否認(rèn)中國籍,倆兒子落戶國外,她現(xiàn)狀如何?

蒼天饒過誰!拒唱國歌否認(rèn)中國籍,倆兒子落戶國外,她現(xiàn)狀如何?

boss外傳
2025-04-06 19:10:04
皇馬難了?阿森納已經(jīng)連續(xù)77場比賽沒單場丟超過2球

皇馬難了?阿森納已經(jīng)連續(xù)77場比賽沒單場丟超過2球

懂球帝
2025-04-09 05:39:11
南京同曦大換血!林葳離隊(duì),CBA名帥下課,9人合同到期

南京同曦大換血!林葳離隊(duì),CBA名帥下課,9人合同到期

體壇瞎白話
2025-04-08 09:03:04
一個(gè)人的4大高級活法:交貴人、拜冷廟、走小路、進(jìn)窄門!

一個(gè)人的4大高級活法:交貴人、拜冷廟、走小路、進(jìn)窄門!

第一桶金學(xué)派
2025-02-22 09:22:15
當(dāng)兒女不尊重你,無視你時(shí),不要憤怒,不要講道理,記住這3句話就夠了

當(dāng)兒女不尊重你,無視你時(shí),不要憤怒,不要講道理,記住這3句話就夠了

窈窕媽媽
2024-10-24 20:03:10
18歲男孩跳江身亡:失聯(lián)13天,手機(jī)數(shù)據(jù)全刪、月薪從萬跌到兩千

18歲男孩跳江身亡:失聯(lián)13天,手機(jī)數(shù)據(jù)全刪、月薪從萬跌到兩千

瘋狂薯?xiàng)l
2025-04-08 21:28:24
美元兌離岸人民幣剛剛觸及7.3500元關(guān)口,最新報(bào)7.3500元,日內(nèi)漲0.08%

美元兌離岸人民幣剛剛觸及7.3500元關(guān)口,最新報(bào)7.3500元,日內(nèi)漲0.08%

每日經(jīng)濟(jì)新聞
2025-04-08 15:43:13
可惜,美國人又領(lǐng)先了我們一步......

可惜,美國人又領(lǐng)先了我們一步......

碼農(nóng)翻身
2024-12-23 08:58:16
江蘇兩地干部任前公示

江蘇兩地干部任前公示

魯中晨報(bào)
2025-04-08 19:07:02
韓國女團(tuán)寺廟慰問演出,網(wǎng)友:成何體統(tǒng),禮崩樂壞具象化了

韓國女團(tuán)寺廟慰問演出,網(wǎng)友:成何體統(tǒng),禮崩樂壞具象化了

喜歡歷史的阿繁
2025-04-09 04:25:50
中超最水外援:加盟9個(gè)月零進(jìn)球 當(dāng)紅國腳是他的替補(bǔ)

中超最水外援:加盟9個(gè)月零進(jìn)球 當(dāng)紅國腳是他的替補(bǔ)

球事百科吖
2025-04-09 01:28:49
1.6秒絕境逃生!“鯊”回廣東,上海男籃“續(xù)命”不止靠幸運(yùn)

1.6秒絕境逃生!“鯊”回廣東,上海男籃“續(xù)命”不止靠幸運(yùn)

文匯報(bào)
2025-04-09 02:37:15
韓稱朝鮮士兵越過軍事分界線,朝方暫未回應(yīng)

韓稱朝鮮士兵越過軍事分界線,朝方暫未回應(yīng)

界面新聞
2025-04-08 17:26:47
27國罕見一致,共同報(bào)復(fù)美國,美總統(tǒng)呼吁冷靜,人民日報(bào)把話說透

27國罕見一致,共同報(bào)復(fù)美國,美總統(tǒng)呼吁冷靜,人民日報(bào)把話說透

呼呼歷史論
2025-04-09 04:03:45
遼寧信息學(xué)奧賽16歲選手于行健墜樓離世,讀高二,3月份落選省隊(duì)

遼寧信息學(xué)奧賽16歲選手于行健墜樓離世,讀高二,3月份落選省隊(duì)

凡知
2025-04-08 15:14:50
上海樓市全軍覆沒,上海樓市單日二手房網(wǎng)簽量突破1400套

上海樓市全軍覆沒,上海樓市單日二手房網(wǎng)簽量突破1400套

有事問彭叔
2025-04-08 16:43:40
2025-04-09 05:51:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10288文章數(shù) 176088關(guān)注度
往期回顧 全部

科技要聞

馬斯克財(cái)富跌破3000億美元 怨特朗普?

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

體育要聞

100%當(dāng)選狀元,但弗拉格不想進(jìn)NBA?

娛樂要聞

金子涵正式宣布退圈,想回歸自己的生活

財(cái)經(jīng)要聞

央地國資聯(lián)手護(hù)盤 國家隊(duì)領(lǐng)銜千億增持潮

汽車要聞

插混純電雙修 寶駿享境預(yù)售13.28萬起

態(tài)度原創(chuàng)

藝術(shù)
本地
數(shù)碼
旅游
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游中國|更好濰坊,更好的家

數(shù)碼要聞

中國特供 RTX 5090D游戲性能普遍強(qiáng)于5090,影馳HOF顯卡新品曝光

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 大厂| 威远县| 临湘市| 平顶山市| 双鸭山市| 原阳县| 五原县| 峨眉山市| 南投市| 峡江县| 绥阳县| 乌什县| 山东| 湖南省| 普宁市| 本溪市| 泰安市| 永新县| 六安市| 连江县| 徐汇区| 红桥区| 澎湖县| 广南县| 浏阳市| 敖汉旗| 房产| 丘北县| 淮阳县| 合川市| 新野县| 额尔古纳市| 昌乐县| 土默特左旗| 酉阳| 武隆县| 福州市| 涿鹿县| 清远市| 长子县| 牟定县|