99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

^{<center id="nxdda"></center>}

<ul id="nxdda"></ul>

<abbr id="nxdda"></abbr>

<cite id="nxdda"><rp id="nxdda"><pre id="nxdda"></pre></rp></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

英偉達華人硬核AI神器，「描述一切」秒變細節狂魔！僅3B逆襲GPT-4o

2025-04-27 09:35:21　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：桃子

【新智元導讀】視覺AI終極突破來了！英偉達等機構推出超強多模態模型DAM，僅3B參數，就能精準描述圖像和視頻中的任何細節。

有了AI，誰還愿意用手配「字幕」？

剛剛，英偉達聯手UC伯克利、UCSF團隊祭出首個神級多模態模型——Describe Anything Model（DAM），僅3B參數。

論文地址：https://arxiv.org/pdf/2504.16072

正如其名Describe Anything，上傳一張圖，圈哪點哪，它即可生成一段豐富的文字描述。

即便是一段視頻，DAM也能精準捕捉到白色SUV，給出詳細的描述。

DAM是一個專為詳細局部標注（DLC）而設計的模型，即為特定區域生成詳細且精確的描述。

通過兩大創新，研究人員在細節與上下文之間找到平衡：

· 焦點提示：對目標區域進行高分辨率編碼，就像給模型配備了一副「放大鏡」，清晰捕捉到局部區域細微特征

· 局部視覺骨干網絡：將精確定位的特定區域，與上下文無縫整合

換句話說，DAM不僅能放大細節看，還能放眼全局看，無論是靜態圖，還是動態視頻，都能做到游刃有余。

網友驚嘆道，「終極視覺AI突破」！

AI用「放大鏡」看世界

在項目主頁中，英偉達等研究團隊放出了更多精彩demo。任何人通過點、框、涂鴉或掩碼的交互，即可一鍵生成描述。

上傳一張柯基在草地上歡快奔跑的圖，選中柯基，讓DAM去描述：

一只中等體型的狗，擁有濃密的紅棕色毛發，腹部和腿部為白色。這只狗尾巴蓬松，耳朵尖立，戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒，舌頭伸在外面。狗呈奔跑姿勢，前腿向前伸展，后腿向后伸直。

一只被擠到犄角旮旯的貓星人，DAM是這樣配文的，「一只白貓，耳朵呈淺橙色，鼻子是粉色的。貓咪表情放松，眼睛微微閉著，全身覆蓋著柔軟的白毛」。

再比如，隨手涂鴉一棟高樓，DAM可以不斷放大細節，給出這幢樓更細致的描述：

一座現代風格的摩天大樓，采用流線型矩形設計，外立面排列著間距均勻的豎向條形窗。建筑呈階梯式結構，每一層段都比下層略微內縮，形成錯落有致的退臺造型。建筑幕墻主要由反光玻璃面板構成，整體呈現出極具現代感的拋光效果。

甚至，DAM看著視頻中的一頭牛，就能直出一篇經典「小作文」：

一幅描繪棕褐色奶牛的動態序列圖：這頭毛色濃密的奶牛臀部帶有淺色斑塊，初始畫面中它微微低頭，透著安詳的神態。隨著動作展開，奶牛開始穩步前行，四肢舒展著節奏分明的步態，尾梢的簇毛隨每一步輕擺，為行進增添流暢韻律。它始終保持挺拔的站姿，略微弓起的背部線條透出放松狀態，肌肉結實的腿部穩健地向前邁進。整個運動過程中，奶牛保持著均勻從容的步調，每一個動作都流暢而不迫，展現出寧靜自若的生命姿態。

DAM如此厲害，是如何做到的？

DAM技術架構，精準捕捉細節

與傳統圖像描述（概括整個場景）不同，DLC聚焦于用戶指定的局部區域，來生成細致入微的描述。

想象一張照片中一只貓，你不僅需要描述「一只貓在窗臺上」，還要深入些幾「貓的毛發呈現柔軟和灰色條紋，耳朵微微傾斜，眼睛在陽光下閃著琥珀色的光芒」。

可以看出，DLC的目標是捕捉區域的紋理、顏色、形狀、顯著部件等特征，同時也要保持與整體場景關聯。

而在視頻領域中，DLC挑戰更大。

模型需要追目標區域在多個幀中的變化，描述其外觀、交互、和細微動態的演變。

為了應對DLC復雜需求，Describe Anything Model引入了兩大核心創新，讓局部細節與全局上下文完美平衡。

焦點提示（Focal Prompt）

通過「焦點提示」機制，DAM能夠同時處理全圖和目標區域的放大視圖。

這確保它在捕捉細微特征同時，不丟失整體場景的背景信息。

局部視覺骨干網絡（Localized Vision Backbone）

DAM的視覺骨干網絡通過空間對齊的圖像和掩碼，融合全局與局部特征。

利用門控交叉注意力層，模型將詳細的局部線索與全局上下文無縫整合。

新參數初始化為0，保留了預訓練能力，從而生成更豐富、更具上下文關聯的描述。

這種架構讓DAM在生成關鍵詞、短語，甚至是多句式的復雜描述時，都能保持高精度和連貫性。

DLC-SDP：破解數據瓶頸

要知道，高質量的DLC數據集極為稀缺，限制了模型的訓練。為此，研究團隊設計了基于半監督學習的流水線（DLC-SDP），通過兩階段策略構建大規模訓練數據。

階段一，是從分割數據集擴展。利用現有分割數據集短標簽（貓），通過視覺-語言模型生成豐富的描述（灰色短毛貓，耳朵直立。

階段二，自訓練未標記的圖像，通過半監督學習，DAM對未標記的網絡圖像生成初始描述，并迭代精煉，形成高質量的DLC數據。

DLC-Bench：重定義評估標準

那么，如何公平地評估DLC模型。

傳統方法主要依賴文本重疊，但這無法全面反映描述的準確性和細節。

為此，研究團隊提出了全新基準DLC-Bench。通過LLM判斷，檢查描述的正確細節和錯誤缺失，而非簡單對比文本。

DAM僅能生成詳細描述，還具備強大的靈活性和交互性。

指令控制描述

你可以根據需求調整描述的詳細程度和風格。

零樣本區域問答

而且，無需額外訓練，DAM就能回答關于特定區域的問題。

碾壓GPT-4o，刷新SOTA

在DLC-Bench和其他7個涵蓋圖像與視頻的基準測試中，DAM全面超越現有模型，樹立了新的標桿。

如下表2所示，DAM在具有挑戰性的 PACO 基準測試中表現出色，創下了89高分。

而在零樣本評估在短語級數據集Flickr30k Entities上，新模型相比之前的最佳結果平均相對提升了7.34%。

此外，零樣本評估在詳細描述數據Ref-L4 上，DAM在基于短/長語言的描述指標上分別實現了39.5%和13.1%的平均相對提升。

在研究人員提出的DLC-Bench測試中，DAM在詳細局部描述方面優于之前的僅API模型、開源模型和特定區域VLM。

下表6所示，DAM在詳細局部視頻字幕方面刷新SOTA。

總而言之，DAM的優勢主要有三大點：更詳細、更準確；更少幻覺；多場景適用。

它的強大能力為眾多應用場景打開了大門，未來諸如數據標注、醫療影像、內容創作等領域，都可以加速落地。

作者介紹

Long (Tony) Lian

Long (Tony) Lian目前是UC伯克利電子工程與計算機科學博士研究生，師從Adam Yala教授和Trevor Darrell教授。

他的研究主要聚焦于，通過強化學習（RL）開發具備推理能力的大模型（LLM）與視覺語言模型（VLM）。

此前，他曾在英偉達研究院Deep Imagination Research團隊實習。

Long (Tony) Lian本科畢業于UC伯克利計算機科學專業，師從Stella Yu教授。

參考資料：

https://x.com/YinCuiCV/status/1915054443734986912

https://describe-anything.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

英偉達開源AIMO奧賽冠軍模型，僅用1.4B參數量超越14B DeeSeek-R1

DeepTech深科技 2025-04-27 18:16:50
0 跟貼 0
這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
32 跟貼 32

OpenAI沒說的秘密，Meta全揭了？華人一作GPT-4o同款技術，爆打擴散王者

新智元 2025-04-27 18:21:54
0 跟貼 0

過去四周，AI推理爆了，GPU在燃燒，英偉達依舊供不應求

華爾街見聞官方 2025-04-27 18:38:00
1 跟貼 1
GPT-4o偷偷升級，變身聊天鬼才！新版STEM智力飆升，生圖卻慘遭削弱？

新智元 2025-04-27 12:45:45
1 跟貼 1

如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0

一行代碼不用寫，AI看論文自己「生」出代碼庫！科研神器再+1

新智元 2025-04-27 14:49:26
0 跟貼 0
具身交互推理: 圖像-思考-行動交織思維鏈讓機器人會思考、會交互

機器之心Pro 2025-04-27 11:28:47
1 跟貼 1

AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
7B超越GPT！1/20數據，無需知識蒸餾，馬里蘭等推出全新視覺推理方法

新智元 2025-04-27 12:45:53
0 跟貼 0
2個月拿下4大賽道頭部玩家，階躍搶先交出Agent戰場最硬核答卷

智東西 2025-04-27 19:43:36
0 跟貼 0
聚焦人形機器人“電子皮膚”：年出貨千只靈巧手已算“大量”，下游應用場景仍需加強開發

每日經濟新聞 2025-04-27 17:10:15
0 跟貼 0
芯片王者的雙向奔赴聯發科英偉達釋放 “飆車”組合技

快科技 2025-04-27 14:54:11
1 跟貼 1
英偉達開源「描述一切」模型

機器之心Pro 2025-04-25 18:59:37
0 跟貼 0
“閹割版”H20也被禁售，老黃真急了？

差評XPIN 2025-04-25 19:50:00
1 跟貼 1
Multi-Token突破注意力機制瓶頸，Meta發明一種很新的Transformer

機器之心Pro 2025-04-04 16:40:04
4 跟貼 4
研究人員打造知識圖譜補全新框架，可用于推薦系統和信息檢索

DeepTech深科技 2025-04-16 11:11:03
2 跟貼 2
《古墓麗影》新作曝即將發布；百萬銷量新游，一個月流失90%玩家

葉子豬游戲網 2025-04-27 17:56:38
1 跟貼 1
《伊松佐河》免費更新內容“莫斯奇”現已推出

游戲早知道 2025-04-27 00:07:12
1 跟貼 1
1969年真實影像：韓國王牌部隊慘遭北越誘殺，影像曾被禁三十余年

墨君月夜相思 2025-04-23 05:44:11
235 跟貼 235
男子駕駛仰望U8在河里行駛，女子抱著孩子在后排看風景

眾橫四海 2025-04-27 17:50:11
6525 跟貼 6525
加時絕殺！巴薩賽季3殺皇馬，32次問鼎國王杯

我愛英超 2025-04-27 06:58:54
5212 跟貼 5212
2025.4.25日報第二集（共三集，注意查看主頁）

獨夫之心 2025-04-26 16:41:19
0 跟貼 0
解放軍島鏈突破，美推演全輸！美關稅惹民怨！昇騰補位英偉達

人猿星球觀察 2025-04-26 20:33:34
0 跟貼 0
徒手爬山的危險！女子抓樹枝攀爬時樹枝斷裂，人墜山下畫面流出

爆料視頻 2025-04-27 09:25:13
3185 跟貼 3185
2003年伊拉克實錄影像，薩達姆末路棲身洞曝光，洞口只容一身

是v的地方吧 2025-04-26 03:19:55
0 跟貼 0
女子上海車展體驗新技術車輛可原地360度無死角旋轉

征垣之路 2025-04-26 22:34:51
2850 跟貼 2850
男子高難度騎“射”

南北分界線 2025-04-26 23:44:59
2262 跟貼 2262
國乒大地震開始了！王勵勤上任，孔令輝回歸？國乒教練組架構曝光

國足未贏夠 2025-04-26 12:09:31
46 跟貼 46
華為nova14系列曝光：標配麒麟芯片+紅楓原色影像？

雷科技 2025-04-27 18:31:21
0 跟貼 0
62年空軍少尉叛逃臺灣影像，老蔣獎勵1000兩黃金，結局卻令人唏噓

墨君月夜相思 2025-04-26 04:59:08
0 跟貼 0
無需訓練加速20倍，清華朱軍組提出圖像翻譯的擴散橋模型推理算法

機器之心Pro 2025-04-27 20:08:49
0 跟貼 0
紅色高棉暴君波爾布特死亡影像，曾屠殺200萬人，死后被點天燈

文史先行官 2025-04-26 15:00:00
0 跟貼 0
張學良晚年影像，感慨楊虎城遭遇，直言不明白蔣介石為何殺他？

一更科普 2025-04-24 08:41:00
0 跟貼 0
歐冶半導體發布一體化Combo芯片及解決方案，定義輔助駕駛新標準

中國日報網 2025-04-27 18:45:04
0 跟貼 0
公開活動上，093、094核潛艇參數曝光，095和096要服役了？

孤城落葉 2025-04-26 05:21:48
0 跟貼 0
劉思齊赴朝祭奠毛岸英影像，撫摸雕像看哭無數人，坦言有個遺憾

墨君月夜相思 2025-04-26 08:25:26
0 跟貼 0
手把手教你使用 SPSS 分析實時熒光定量數據

生物學霸 2025-03-24 17:53:26
0 跟貼 0
美國共和黨"金主"怒了：愿意穿耐克不等于愿意造耐克

國際在線 2025-04-27 15:10:20
369 跟貼 369

華為鴻蒙PC的大瓜，絕對炸裂啊！

華為鴻蒙PC的大瓜，絕對炸裂啊！

3C毒物

2025-04-27 08:42:29

四川省委表態

新京報政事兒

2025-04-27 19:10:05

你無意間摸到過什么不該摸的東西！網友看過全部笑岔氣了

你無意間摸到過什么不該摸的東西！網友看過全部笑岔氣了

解讀熱點事件

2025-01-13 01:34:06

游客得知獨子離世崩潰收費員安撫:我也哭了,都是母親能共情

游客得知獨子離世崩潰收費員安撫:我也哭了,都是母親能共情

大象新聞

2025-04-27 07:59:05

固態電池顛覆性突破！3大龍頭獲百億訂單，即將暴漲360%

固態電池顛覆性突破！3大龍頭獲百億訂單，即將暴漲360%

大大說市

2025-04-27 14:48:34

特朗普一聲令下，29國聯手圍攻中國，日本沖在最前線，俄已選邊站

特朗普一聲令下，29國聯手圍攻中國，日本沖在最前線，俄已選邊站

天行艦

2025-04-25 00:05:17

輸勇士后！美記力挺探花比范喬丹強，巴特勒好消息，下場或奪賽點

輸勇士后！美記力挺探花比范喬丹強，巴特勒好消息，下場或奪賽點

你的籃球頻道

2025-04-27 12:13:57

勸告邱毅：不要在錯誤的道路越走越遠

勸告邱毅：不要在錯誤的道路越走越遠

星光看娛樂

2025-03-31 17:43:58

殺人誅心!大S離世后,小玥兒的第一個生日現場曝光,網友集體破防了

殺人誅心!大S離世后,小玥兒的第一個生日現場曝光,網友集體破防了

瞎說娛樂

2025-04-26 10:55:49

59歲宋祖英現狀：老態明顯撞臉倪萍，穿2萬8西裝，卻被嘲像大媽

59歲宋祖英現狀：老態明顯撞臉倪萍，穿2萬8西裝，卻被嘲像大媽

溫讀史

2025-04-08 17:26:34

沒結婚的像結婚的一樣同居。。

微法官

2025-04-27 00:02:38

心疼！網傳瑾汐二姐有四個孩子，目前已離婚，自曝不想再找男人

心疼！網傳瑾汐二姐有四個孩子，目前已離婚，自曝不想再找男人

明月聊史

2025-04-27 14:57:39

網癮老人贏麻了！Nature子刊41萬人研究認證：玩手機越6，老年癡呆越遠

網癮老人贏麻了！Nature子刊41萬人研究認證：玩手機越6，老年癡呆越遠

方舟健客科普

2025-04-26 10:07:14

庫里36+9+7！勇士爆冷擊敗火箭，誰注意到巴特勒賽后的舉動

庫里36+9+7！勇士爆冷擊敗火箭，誰注意到巴特勒賽后的舉動

鄒維體育

2025-04-27 11:19:45

小伙申請改名“周天紫微大帝”被駁回：已多次改名，朋友罵他有病

小伙申請改名“周天紫微大帝”被駁回：已多次改名，朋友罵他有病

人間頌

2025-04-26 17:09:21

記者：戈登的扣籃絕殺是自19年萊昂納德后最瘋狂的壓哨絕殺

記者：戈登的扣籃絕殺是自19年萊昂納德后最瘋狂的壓哨絕殺

直播吧

2025-04-27 18:05:27

8強出3席，首場1/4決賽出爐！世錦賽國手形勢不妙，8強或僅剩1人

8強出3席，首場1/4決賽出爐！世錦賽國手形勢不妙，8強或僅剩1人

阿柒體訊

2025-04-27 07:43:48

徐璐被指"左右不對稱"，潔白水潤有光澤，嬌艷欲滴！

徐璐被指"左右不對稱"，潔白水潤有光澤，嬌艷欲滴！

吃瓜黨二號頭目

2025-04-23 09:13:46

遼籃輸球揪出最大毒瘤！上場25分鐘，球隊輸22分，他打的太差了

遼籃輸球揪出最大毒瘤！上場25分鐘，球隊輸22分，他打的太差了

籃球專區

2025-04-26 22:49:04

趙本山長子趙鐵蛋因病去世，女兒成知名網紅，上億家產花落誰家?

趙本山長子趙鐵蛋因病去世，女兒成知名網紅，上億家產花落誰家?

果娛

2025-04-21 16:28:59

AI產業主平臺領航智能+時代

12605文章數 66022關注度

往期回顧全部

科技要聞

兩萬字看懂先進封裝

頭條要聞

歐盟高層希望馮德萊恩辭職還能解決與中國對抗的問題

頭條要聞

歐盟高層希望馮德萊恩辭職還能解決與中國對抗的問題

體育要聞

我們來自北極圈，我們有全球最恐怖的主場！

娛樂要聞

華表獎獲獎名單！張譯二影帝惠英紅勇影后

財經要聞

2千億！核電開閘國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見到看不見

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

旅游

本地

教育

公開課

數碼要聞

AMD銳龍5 7733HS處理器發布采用獨特Zen3+架構

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

本地新聞

云游湖北 | 漢川文旅新體驗：千年陶藝邂逅湖光

教育要聞

嚴格規范招生行為！2025年西城區義務教育入學政策出爐

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：云阳县| 天水市| 唐河县| 承德市| 浮山县| 和田县| 正安县| 威海市| 绥化市| 文水县| 华坪县| 台前县| 敖汉旗| 宣恩县| 蛟河市| 镇原县| 莱芜市| 华坪县| 松滋市| 张北县| 虞城县| 邹平县| 兴宁市| 桐庐县| 南昌县| 高雄县| 卫辉市| 鲁山县| 清水河县| 兴城市| 鄂伦春自治旗| 仪陇县| 蒙山县| 改则县| 谷城县| 延庆县| 天全县| 惠安县| 家居| 安多县| 临沭县|

<cite id="ws6qw"></cite>

<sub id="ws6qw"></sub>

<bdo id="ws6qw"><kbd id="ws6qw"></kbd></bdo>