99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

英偉達華人硬核AI神器,「描述一切」秒變細節狂魔!僅3B逆襲GPT-4o

0
分享至


新智元報道

編輯:桃子

【新智元導讀】視覺AI終極突破來了!英偉達等機構推出超強多模態模型DAM,僅3B參數,就能精準描述圖像和視頻中的任何細節。

有了AI,誰還愿意用手配「字幕」?

剛剛,英偉達聯手UC伯克利、UCSF團隊祭出首個神級多模態模型——Describe Anything Model(DAM),僅3B參數。


論文地址:https://arxiv.org/pdf/2504.16072

正如其名Describe Anything,上傳一張圖,圈哪點哪,它即可生成一段豐富的文字描述。


即便是一段視頻,DAM也能精準捕捉到白色SUV,給出詳細的描述。


DAM是一個專為詳細局部標注(DLC)而設計的模型,即為特定區域生成詳細且精確的描述。

通過兩大創新,研究人員在細節與上下文之間找到平衡:

· 焦點提示:對目標區域進行高分辨率編碼,就像給模型配備了一副「放大鏡」,清晰捕捉到局部區域細微特征

· 局部視覺骨干網絡:將精確定位的特定區域,與上下文無縫整合

換句話說,DAM不僅能放大細節看,還能放眼全局看,無論是靜態圖,還是動態視頻,都能做到游刃有余。

網友驚嘆道,「終極視覺AI突破」!


AI用「放大鏡」看世界

在項目主頁中,英偉達等研究團隊放出了更多精彩demo。任何人通過點、框、涂鴉或掩碼的交互,即可一鍵生成描述。

上傳一張柯基在草地上歡快奔跑的圖,選中柯基,讓DAM去描述:

一只中等體型的狗,擁有濃密的紅棕色毛發,腹部和腿部為白色。這只狗尾巴蓬松,耳朵尖立,戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒,舌頭伸在外面。狗呈奔跑姿勢,前腿向前伸展,后腿向后伸直。


一只被擠到犄角旮旯的貓星人,DAM是這樣配文的,「一只白貓,耳朵呈淺橙色,鼻子是粉色的。貓咪表情放松,眼睛微微閉著,全身覆蓋著柔軟的白毛」。


再比如,隨手涂鴉一棟高樓,DAM可以不斷放大細節,給出這幢樓更細致的描述:

一座現代風格的摩天大樓,采用流線型矩形設計,外立面排列著間距均勻的豎向條形窗。建筑呈階梯式結構,每一層段都比下層略微內縮,形成錯落有致的退臺造型。建筑幕墻主要由反光玻璃面板構成,整體呈現出極具現代感的拋光效果。


甚至,DAM看著視頻中的一頭牛,就能直出一篇經典「小作文」:


一幅描繪棕褐色奶牛的動態序列圖:這頭毛色濃密的奶牛臀部帶有淺色斑塊,初始畫面中它微微低頭,透著安詳的神態。隨著動作展開,奶牛開始穩步前行,四肢舒展著節奏分明的步態,尾梢的簇毛隨每一步輕擺,為行進增添流暢韻律。它始終保持挺拔的站姿,略微弓起的背部線條透出放松狀態,肌肉結實的腿部穩健地向前邁進。整個運動過程中,奶牛保持著均勻從容的步調,每一個動作都流暢而不迫,展現出寧靜自若的生命姿態。


DAM如此厲害,是如何做到的?

DAM技術架構,精準捕捉細節

與傳統圖像描述(概括整個場景)不同,DLC聚焦于用戶指定的局部區域,來生成細致入微的描述。

想象一張照片中一只貓,你不僅需要描述「一只貓在窗臺上」,還要深入些幾「貓的毛發呈現柔軟和灰色條紋,耳朵微微傾斜,眼睛在陽光下閃著琥珀色的光芒」。


可以看出,DLC的目標是捕捉區域的紋理、顏色、形狀、顯著部件等特征,同時也要保持與整體場景關聯。

而在視頻領域中,DLC挑戰更大。

模型需要追目標區域在多個幀中的變化,描述其外觀、交互、和細微動態的演變。

為了應對DLC復雜需求,Describe Anything Model引入了兩大核心創新,讓局部細節與全局上下文完美平衡。

焦點提示(Focal Prompt)

通過「焦點提示」機制,DAM能夠同時處理全圖和目標區域的放大視圖。

這確保它在捕捉細微特征同時,不丟失整體場景的背景信息。


局部視覺骨干網絡(Localized Vision Backbone)

DAM的視覺骨干網絡通過空間對齊的圖像和掩碼,融合全局與局部特征。

利用門控交叉注意力層,模型將詳細的局部線索與全局上下文無縫整合。

新參數初始化為0,保留了預訓練能力,從而生成更豐富、更具上下文關聯的描述。


這種架構讓DAM在生成關鍵詞、短語,甚至是多句式的復雜描述時,都能保持高精度和連貫性。

DLC-SDP:破解數據瓶頸

要知道,高質量的DLC數據集極為稀缺,限制了模型的訓練。為此,研究團隊設計了基于半監督學習的流水線(DLC-SDP),通過兩階段策略構建大規模訓練數據。

階段一,是從分割數據集擴展。利用現有分割數據集短標簽(貓),通過視覺-語言模型生成豐富的描述(灰色短毛貓,耳朵直立。

階段二,自訓練未標記的圖像,通過半監督學習,DAM對未標記的網絡圖像生成初始描述,并迭代精煉,形成高質量的DLC數據。


DLC-Bench:重定義評估標準

那么,如何公平地評估DLC模型。

傳統方法主要依賴文本重疊,但這無法全面反映描述的準確性和細節。

為此,研究團隊提出了全新基準DLC-Bench。通過LLM判斷,檢查描述的正確細節和錯誤缺失,而非簡單對比文本。


DAM僅能生成詳細描述,還具備強大的靈活性和交互性。

指令控制描述

你可以根據需求調整描述的詳細程度和風格。


零樣本區域問答

而且,無需額外訓練,DAM就能回答關于特定區域的問題。


碾壓GPT-4o,刷新SOTA

在DLC-Bench和其他7個涵蓋圖像與視頻的基準測試中,DAM全面超越現有模型,樹立了新的標桿。

如下表2所示,DAM在具有挑戰性的 PACO 基準測試中表現出色,創下了89高分。

而在零樣本評估在短語級數據集Flickr30k Entities上,新模型相比之前的最佳結果平均相對提升了7.34%。

此外,零樣本評估在詳細描述數據Ref-L4 上,DAM在基于短/長語言的描述指標上分別實現了39.5%和13.1%的平均相對提升。


在研究人員提出的DLC-Bench測試中,DAM在詳細局部描述方面優于之前的僅API模型、開源模型和特定區域VLM。


下表6所示,DAM在詳細局部視頻字幕方面刷新SOTA。


總而言之,DAM的優勢主要有三大點:更詳細、更準確;更少幻覺;多場景適用。

它的強大能力為眾多應用場景打開了大門,未來諸如數據標注、醫療影像、內容創作等領域,都可以加速落地。


作者介紹

Long (Tony) Lian


Long (Tony) Lian目前是UC伯克利電子工程與計算機科學博士研究生,師從Adam Yala教授和Trevor Darrell教授。

他的研究主要聚焦于,通過強化學習(RL)開發具備推理能力的大模型(LLM)與視覺語言模型(VLM)。

此前,他曾在英偉達研究院Deep Imagination Research團隊實習。

Long (Tony) Lian本科畢業于UC伯克利計算機科學專業,師從Stella Yu教授。

參考資料:

https://x.com/YinCuiCV/status/1915054443734986912

https://describe-anything.github.io/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華為鴻蒙PC的大瓜,絕對炸裂啊!

華為鴻蒙PC的大瓜,絕對炸裂啊!

3C毒物
2025-04-27 08:42:29
四川省委表態

四川省委表態

新京報政事兒
2025-04-27 19:10:05
你無意間摸到過什么不該摸的東西!網友看過全部笑岔氣了

你無意間摸到過什么不該摸的東西!網友看過全部笑岔氣了

解讀熱點事件
2025-01-13 01:34:06
游客得知獨子離世崩潰收費員安撫:我也哭了,都是母親能共情

游客得知獨子離世崩潰收費員安撫:我也哭了,都是母親能共情

大象新聞
2025-04-27 07:59:05
固態電池顛覆性突破!3大龍頭獲百億訂單,即將暴漲360%

固態電池顛覆性突破!3大龍頭獲百億訂單,即將暴漲360%

大大說市
2025-04-27 14:48:34
特朗普一聲令下,29國聯手圍攻中國,日本沖在最前線,俄已選邊站

特朗普一聲令下,29國聯手圍攻中國,日本沖在最前線,俄已選邊站

天行艦
2025-04-25 00:05:17
輸勇士后!美記力挺探花比范喬丹強,巴特勒好消息,下場或奪賽點

輸勇士后!美記力挺探花比范喬丹強,巴特勒好消息,下場或奪賽點

你的籃球頻道
2025-04-27 12:13:57
勸告邱毅:不要在錯誤的道路越走越遠

勸告邱毅:不要在錯誤的道路越走越遠

星光看娛樂
2025-03-31 17:43:58
殺人誅心!大S離世后,小玥兒的第一個生日現場曝光,網友集體破防了

殺人誅心!大S離世后,小玥兒的第一個生日現場曝光,網友集體破防了

瞎說娛樂
2025-04-26 10:55:49
59歲宋祖英現狀:老態明顯撞臉倪萍,穿2萬8西裝,卻被嘲像大媽

59歲宋祖英現狀:老態明顯撞臉倪萍,穿2萬8西裝,卻被嘲像大媽

溫讀史
2025-04-08 17:26:34
沒結婚的像結婚的一樣同居。。

沒結婚的像結婚的一樣同居。。

微法官
2025-04-27 00:02:38
心疼!網傳瑾汐二姐有四個孩子,目前已離婚,自曝不想再找男人

心疼!網傳瑾汐二姐有四個孩子,目前已離婚,自曝不想再找男人

明月聊史
2025-04-27 14:57:39
網癮老人贏麻了!Nature子刊41萬人研究認證:玩手機越6,老年癡呆越遠

網癮老人贏麻了!Nature子刊41萬人研究認證:玩手機越6,老年癡呆越遠

方舟健客科普
2025-04-26 10:07:14
庫里36+9+7!勇士爆冷擊敗火箭,誰注意到巴特勒賽后的舉動

庫里36+9+7!勇士爆冷擊敗火箭,誰注意到巴特勒賽后的舉動

鄒維體育
2025-04-27 11:19:45
小伙申請改名“周天紫微大帝”被駁回:已多次改名,朋友罵他有病

小伙申請改名“周天紫微大帝”被駁回:已多次改名,朋友罵他有病

人間頌
2025-04-26 17:09:21
記者:戈登的扣籃絕殺 是自19年萊昂納德后最瘋狂的壓哨絕殺

記者:戈登的扣籃絕殺 是自19年萊昂納德后最瘋狂的壓哨絕殺

直播吧
2025-04-27 18:05:27
8強出3席,首場1/4決賽出爐!世錦賽國手形勢不妙,8強或僅剩1人

8強出3席,首場1/4決賽出爐!世錦賽國手形勢不妙,8強或僅剩1人

阿柒體訊
2025-04-27 07:43:48
徐璐被指"左右不對稱",潔白水潤有光澤,嬌艷欲滴!

徐璐被指"左右不對稱",潔白水潤有光澤,嬌艷欲滴!

吃瓜黨二號頭目
2025-04-23 09:13:46
遼籃輸球揪出最大毒瘤!上場25分鐘,球隊輸22分,他打的太差了

遼籃輸球揪出最大毒瘤!上場25分鐘,球隊輸22分,他打的太差了

籃球專區
2025-04-26 22:49:04
趙本山長子趙鐵蛋因病去世,女兒成知名網紅,上億家產花落誰家?

趙本山長子趙鐵蛋因病去世,女兒成知名網紅,上億家產花落誰家?

果娛
2025-04-21 16:28:59
2025-04-27 20:51:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12605文章數 66022關注度
往期回顧 全部

科技要聞

兩萬字看懂先進封裝

頭條要聞

歐盟高層希望馮德萊恩辭職 還能解決與中國對抗的問題

頭條要聞

歐盟高層希望馮德萊恩辭職 還能解決與中國對抗的問題

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經要聞

2千億!核電開閘 國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

數碼
旅游
本地
教育
公開課

數碼要聞

AMD銳龍5 7733HS處理器發布 采用獨特Zen3+架構

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

教育要聞

嚴格規范招生行為!2025年西城區義務教育入學政策出爐

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 云阳县| 天水市| 唐河县| 承德市| 浮山县| 和田县| 正安县| 威海市| 绥化市| 文水县| 华坪县| 台前县| 敖汉旗| 宣恩县| 蛟河市| 镇原县| 莱芜市| 华坪县| 松滋市| 张北县| 虞城县| 邹平县| 兴宁市| 桐庐县| 南昌县| 高雄县| 卫辉市| 鲁山县| 清水河县| 兴城市| 鄂伦春自治旗| 仪陇县| 蒙山县| 改则县| 谷城县| 延庆县| 天全县| 惠安县| 家居| 安多县| 临沭县|