99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek的Janus-Pro表現如何?

0
分享至


文:王智遠 | ID:Z201440

昨晚,刷新聞時看到:

DeepSeek創始人梁文峰已經回廣州老家過年了。然而,在2025年1月27日凌晨(除夕夜)前夕,他們團隊發布了一款新模型:多模態框架Janus-Pro。

朋友在社群中笑的吐槽到,估計他是想以中國人的方式,和美國AI圈一起慶祝春節。

這款模型一發布,讓本來就爆火的DeepSeek又一次成為了焦點。黃仁勛看了可能都想說:一晚上干掉我幾千億市值,年輕人不講武德,下手沒個輕重,居然還在除夕夜搞事情。

不過,吐槽歸吐槽,模型確實值得關注。我不是技術從業者,但可以把自身理解的匯報給你。

01

整個報告一共有四點。第一點是:DeepSeek Janus-Pro是什么?

它是一款先進的多模態理解和生成模型,是之前Janus模型的升級版。簡單講,這個模型能夠同時處理文本、圖像,即可以理解圖片內容,也能文生圖。

為什么叫這個名字呢?

在羅馬神話中,Janus(雅努斯)是象征著矛盾和過渡的雙面守護神,他有兩副面孔,一副看著過去,一副看著未來,象征著開始和結束。

這個模型設計理念是雙重的,能理解圖像又能生成圖像,所以,它非常貼切模型的雙重能力,才叫:雅努斯。

問題來了,之前有Janus,為什么還要推出PRO版?

報告中提到,現在多模態模型雖然已經很厲害,但處理復雜的任務時,還有諸多不足,有些模型在理解圖片內容時表現不錯,但生成圖片可能不穩定,要么細節處理不到位、甚至描述和想象的不一樣;為了解決一系列問題,因此,才推出Janus-Pro版。

既然這樣,Janus-Pro版采用什么樣的架構呢?

官方說:整體架構的核心設計原則是,將多模態理解任務和視覺生成任務的視覺編碼進行解耦;我們應用獨立的編碼方法將原始輸入轉換為特征,然后,通過統一的自回歸變換器進行處理。


圖釋:Janus-Pro模型架構示意圖,如何分別處理理解圖像和生成圖像

這段話比較復雜。我舉個例子:

現在有個超級機器人叫Janus-Pro。它的大腦被設計成兩個部分,一個負責理解圖片,另一個負責根據文字描述來畫畫。

當機器人看到一張圖片時,會用一個特別的“眼睛”(叫SigLIP編碼器)來仔細觀察圖片,然后,把看到的內容變成一串數字(高維語義特征)。

這些數字像圖片的“指紋”,能幫助機器人理解圖片里有什么;接下來,數字會被整理成一排,通過一個翻譯器(適配器)轉換成機器理解的語言。

當機器人需要根據文字描述畫面時,它會用另一個工具(叫VQ tokenizer)把圖片變成一串代碼(離散ID)。這些代碼,就像圖片的「密碼」,機器人可以根據密碼重建照片。

緊接著,代碼也會被整理成一排,通過另一個“翻譯器”(生成適配器)轉換成機器人能理解的語言;最后,機器人把兩部分信息(理解圖片的內容和根據文字描述畫畫的信息)和合并在一起,通過大腦(語言模型)來處理,最后,機器就能看到你要的東西了。

簡單講,有四步:理解照片,提煉成語義,轉換成機器人看得懂的東西,合并成你想要的東西。這是第一部分,它是什么?它的架構什么樣。

02

那么,它是怎么訓練出來的呢?一共有三個階段:

第一階段,專注于訓練適配器和圖像頭部。第二階段處理統一預訓練,第三階段,監督微調。但我認為,這樣理解比較復雜。

打個比方:

你現在正在教一個小孩學畫畫。一開始,你不會直接讓他畫一幅復雜的風景畫,而是先讓他練習畫簡單的形狀,比如圓圈、正方形。等他把基本形狀畫得熟練了,再逐步增加難度,讓他畫更復雜的東西。Janus-Pro的訓練也是這樣的。

第一階段,打基礎。就像讓小孩練習畫“基本形狀”一樣,Janus-Pro會先專注于學習圖像基本特征,比如顏色、線條等。

這個階段的訓練步驟增加了,模型才有更多時間學習基本特征,如此一來,即便在固定的語言模型參數下,模型也能有效模擬像素的規律,根據類別生成合理的框架。

到了第二階段,增強難度。

當小孩能夠熟練畫出基本形狀后,就可以開始畫更復雜的東西了。同樣,Janus-Pro在這個階段。會開始處理更復雜的任務,比如:根據文本描述生成圖像。

這個階段的訓練數據也做了優化,直接使用正常的文本到圖像數據,提高了訓練效率,這樣,模型能夠更高效地利用文本到圖像數據,從而提升了整體性能。

第三階段,檢驗成果。

就像讓孩子參加畫畫比賽,檢驗他的學習成果一樣,Janus-Pro在這個階段會同時處理多模態理解任務和文本到圖像生成任務,進一步優化模型的性能。

比如:將多模態數據、純文本數據和文本到圖像數據的比例從7:3:10調整為5:1:4,進一步提升模態的理解能力。

在數據上,官方提到:

在Janus-Pro中,我們加入了大約7200萬樣本的合成美學數據,使得統一預訓練階段中真實數據與合成數據的比例達到1:1,這些合成數據樣本的提示是公開可用的。

實驗證明,模型在合成數據上訓練時,收斂速度更快,生成的文本到圖像輸出不僅更穩定,而且在審美質量上也有顯著提升。

說白了,我認為,這三個步驟,如果總結歸納的話,用中國話叫:比著葫蘆畫瓢。

問題來了:光畫不夠,因為,小朋友想畫出一幅好畫,必須要學很多東西,去理解世界,看各種各樣的動物、照片才有抽象的能力。

怎么辦?

為了提高Janus-Pro在任務中的表現,團隊增加了大量的圖像字幕數據、表格圖表、以及文檔理解數據;這些數據,能讓模型有機會學習不同的東西。這叫:多模態理解數據的能力。

然后,團隊又增加了大量的合成美學數據。這些數據讓模型,有更多機會學習如何生成高質量的圖像,從而提高模型的生成能力。

因此,“比著葫蘆畫瓢連”加上學習,它才能在日常中更出色。

03

可是,光有數據和學習能力還不夠,就像小朋友要長大,需要不斷提升認知能力一樣,Janus-Pro也要“長大”。那么,它是怎么“長大”的呢?

官方提到,先前版本使用的是1.5B語言模型,驗證了視覺編碼解耦的有效性;而在Janus-Pro中,團隊將模型擴展到了7B,并對1.5B和7B語言模型的超參數進行了優化。

具體來說,1.5B模型的嵌入大小為2048,上下文窗口為4096,注意力頭數為16,層數為24;而7B模型的嵌入大小為4096,上下文窗口為4096,注意力頭數為32,層數為30。

看到這些數字,你可能會覺得頭大。其實,參數可以抽象地理解為模型“大腦”的升級:

  • 嵌入大?。?/strong>就像模型“記憶容量”,越大,能記住的信息就越多
  • 上下文窗口:就像模型“視野范圍”,越大,能看到的上下文信息就越豐富
  • 注意力頭數:就像模型“注意力焦點”,越多,能同時關注的細節就越多
  • 層數:就像模型的“思考深度”,越多,能進行的思考就越復雜

通過升級,Janus-Pro的“大腦”從一個小學生變成了一個大學生,能力得到了全面提升。

官方團隊發現,使用更大規模的語言模型時,多模態理解和視覺生成的損失收斂速度,顯著提高,與較小模型相比,性能提升明顯。這一發現,進一步驗證了這種方法的強大可擴展性。

說白了,更大模型就像一支更高級的畫筆,能夠更精細地處理復雜的任務,生成更高質量的圖像和更準確的理解結果。


圖釋:Janus-Pro模型超參數配置概覽

那么,這些升級如何實現呢?來看看訓練過程。

官方提到:

Janus-Pro使用了DeepSeek-LLM作為基礎語言模型,這是一個支持最大序列長度為4096的強大模型。

對于視覺編碼器,Janus-Pro選擇了SigLIP-Large-Patch16-384,這是一個能夠從圖像中提取高維語義特征的編碼器。生成編碼器的碼本大小為16,384,圖像下采樣因子為16。

訓練過程中,Janus-Pro采用了多種優化策略;例如,使用了AdamW優化器,使得學習率在不同階段逐漸調整。整個訓練過程在HAI-LLM框架上進行,強大的硬件支持確保,Janus-Pro能夠在短時間內完成復雜的訓練任務。

這些數據看不懂沒關系,我抽象解釋下:

你家小孩要參加一個畫畫比賽,你需要為他準備一套好用的畫具,還得找一位經驗豐富的老師來指導他,對吧?

DeepSeek-LLM像那套高級畫具,能夠幫助Janus-Pro更好地處理復雜的任務。

AdamW優化器,像經驗豐富的老師,會根據小孩的學習進度,逐漸調整教學難度,讓小孩在每個階段都能穩步進步;HAI-LLM框架就像是一個寬敞明亮的畫室,為小孩提供了專注創作的環境。

有了軟硬兼施的整體支持,Janus-Pro才能輕松應對復雜的文本描述,生成高質量的圖像的任務。

04

理論固然重要,實際表現才是檢驗模型能力的真正標準,有句中國話叫什么:是騾子是馬,拉出來遛遛。那么,Janus-Pro的實際表現如何呢?

來看看它的評估設置和與最新技術的比較。為了驗證Janus-Pro的性能,團隊進行了嚴格的評估,他們選擇了多個基準測試,包括多模態理解任務和視覺生成任務。

  • 多模態理解任務:包括GQA、POPE、MME等。這些測試就像是讓Janus-Pro看一幅畫,然后描述畫里的內容,看看它能不能準確地理解。
  • 視覺生成任務:包括GenEval和DPG-Bench。這些測試則是給Janus-Pro一個文字描述,讓它根據描述畫出一幅畫,看看它能不能畫得像、畫得好。

說白了,就是反復進行“看圖說話”和“說話想象圖片”的雙重測試。

那么,Janus-Pro在這場“考試”中表現如何呢?我們可以拿它和其他的“考生”,也就是其他多模態模型——來做比較。

首先,多模態理解任務上:

Janus-Pro在MMBench基準測試中得分79.2,超過了其他一些知名的模型,比如TokenFlow-XL(68.9)和MetaMorph(75.2)。這像在一場畫畫比賽中,Janus-Pro的畫作得到更高的評價,說明它在理解圖像內容方面確實很厲害。

對了,TokenFlow-XL是ByteFlow-AI團隊開發的一個多模態模型,而MMBench由Meta公司開發;這兩個對比充分說明了Janus-Pro在多模態理解任務中的領先地位。

其次,在視覺生成任務上:

Janus-Pro在GenEval基準測試中得分(0.80),也超過了DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)等模型。

這像給Janus-Pro一個文字描述,讓它畫出一幅畫,結果它畫得比其他模型更準確、更細致,說明它在根據文字描述生成圖像方面也很出色。

對了,DALL-E 3是OpenAI開發的文生圖模型,而 Stable Diffusion 3 Medium不用說了,眾所周知,專注于生成高質量圖片,特別在中等分辨率下表現出色。

所以,結論是什么?

一句話總結即:Janus-Pro在這場“考試”中表現優異,吊打部分行業頭部模型。還有一點是:這些測試不是自己測的。是專業機構gemimi和DPG bench權威認證,在hanggenface開源官網更新。

報告參考:

發布地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B

報告地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4月25日俄烏:特朗普繼續為俄開脫,俄軍少將莫斯科被炸身亡

4月25日俄烏:特朗普繼續為俄開脫,俄軍少將莫斯科被炸身亡

山河路口
2025-04-25 19:35:58
殺害最小人質恐怖頭目全家被以色列送上路

殺害最小人質恐怖頭目全家被以色列送上路

移光幻影
2025-04-25 11:31:56
深夜23點!山東泰山正式官宣,崔康熙鄭重表態,4人缺席魯滬大戰

深夜23點!山東泰山正式官宣,崔康熙鄭重表態,4人缺席魯滬大戰

璞玉話體壇
2025-04-26 08:41:36
2024年浙江公安查辦侵犯知識產權案件1923起 同比增長63.0%

2024年浙江公安查辦侵犯知識產權案件1923起 同比增長63.0%

環球網資訊
2025-04-25 23:28:19
昆明“大器史局長”婚內出軌!小三:床上,他帶我去天堂!

昆明“大器史局長”婚內出軌!小三:床上,他帶我去天堂!

文刀萬
2024-04-09 10:58:09
出差15天,公婆和小姑住進陪嫁房,施工員老公的解釋讓我果斷離

出差15天,公婆和小姑住進陪嫁房,施工員老公的解釋讓我果斷離

施工員小天哥
2025-04-25 13:24:01
北京地鐵臟衣服乘客家屬發聲感謝,外地人也看出北京人的講究

北京地鐵臟衣服乘客家屬發聲感謝,外地人也看出北京人的講究

九方魚論
2025-04-26 07:42:03
不是青島,王睿澤官宣,加盟新球隊,已抵達廣東,杜鋒期待

不是青島,王睿澤官宣,加盟新球隊,已抵達廣東,杜鋒期待

東球弟
2025-04-26 10:47:02
美國政府瘋狂刪除科研數據,科學家連夜保存研究心血:我們必須爭分奪秒

美國政府瘋狂刪除科研數據,科學家連夜保存研究心血:我們必須爭分奪秒

紅星新聞
2025-04-25 15:47:11
特朗普麻煩大了?我方甩出最大“王牌”,不是美債,美國絕沒料到

特朗普麻煩大了?我方甩出最大“王牌”,不是美債,美國絕沒料到

傲氣經說
2025-04-26 11:18:02
再不談就晚了,印度開始拉閘斷水,中美俄反應一致,巴軍出現異動

再不談就晚了,印度開始拉閘斷水,中美俄反應一致,巴軍出現異動

老謝談史
2025-04-26 11:57:54
麗澤路,今晨開通!

麗澤路,今晨開通!

BRTV新聞
2025-04-26 10:33:26
傻子入洞房不懂,還要新娘教

傻子入洞房不懂,還要新娘教

文雅筆墨
2025-04-25 12:03:14
突發!遼寧某職校宿舍發生命案,疑似有人傷亡,官方卻保持沉默

突發!遼寧某職校宿舍發生命案,疑似有人傷亡,官方卻保持沉默

平老師666
2025-04-26 11:47:47
女生之間的聊天尺度有多大?哈哈,全都是虎狼之詞??!

女生之間的聊天尺度有多大?哈哈,全都是虎狼之詞啊!

書畫藝術收藏
2025-04-22 19:40:04
美國再次天塌,沙特搶先與中國簽署重磅協議,特朗普無計可施?

美國再次天塌,沙特搶先與中國簽署重磅協議,特朗普無計可施?

文雅筆墨
2025-04-25 19:57:28
研究發現:若晚餐經常吃太早,不超半年,胰腺或迎來6種不良變化

研究發現:若晚餐經常吃太早,不超半年,胰腺或迎來6種不良變化

朗威游戲說
2025-04-24 08:20:00
美艦橫穿臺海!不到12小時我方傳來消息,4艘055同時開建!

美艦橫穿臺海!不到12小時我方傳來消息,4艘055同時開建!

阿纂看事
2025-04-24 11:45:14
憤怒至極!中國學生遭外籍生群毆滿臉是血,網友:學學哈工大!

憤怒至極!中國學生遭外籍生群毆滿臉是血,網友:學學哈工大!

侃故事的阿慶
2025-04-26 07:50:36
真是天佑中華!中美博弈的關鍵時刻,中國又傳來重大喜訊!

真是天佑中華!中美博弈的關鍵時刻,中國又傳來重大喜訊!

洞悉評說
2025-04-25 15:29:07
2025-04-26 15:39:00
智遠同學 incentive-icons
智遠同學
暢銷書《復利思維》作者;精神生活與商業探索,關注科技人文、消費電商、品牌營銷、商業認知思維等方面。
408文章數 88關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

房產
親子
手機
旅游
軍事航空

房產要聞

逆勢大幅漲價!最高2.8萬/平!長天雲汀開盤又賣爆了!

親子要聞

尼泊爾年輕媽媽帶孩子吃飯,從小培養孩子獨自吃飯

手機要聞

CounterPoint 報告 2024 全球手機攝像頭出貨量:索尼領銜

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 五华县| 加查县| 南开区| 陵水| 福建省| 苍梧县| 尼木县| 塔城市| 密云县| 定兴县| 石楼县| 房产| 凤山市| 温泉县| 北流市| 阜宁县| 福建省| 苗栗县| 安康市| 炉霍县| 九龙坡区| 灵璧县| 石楼县| 射洪县| 武汉市| 通化县| 平安县| 博白县| 三门县| 昌平区| 海阳市| 侯马市| 阆中市| 肇源县| 岗巴县| 新干县| 乌恰县| 沈丘县| 宁明县| 黑龙江省| 三亚市|