99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek-V3巧取捷徑?

0
分享至


文:王智遠 | ID:Z201440

昨天寫完DeepSeek-V3的文章,看到一段吐槽:

OpenAI 是一家以創造先進人工智能技術為目標的公司。DeepSeek-V3,是在一個開源系統上進行性能和成本效益優化的。看起來有點偷懶。

我不確定這段評論是不是AI寫的,但大概明白那位朋友的意思,他認為OpenAI更注重創造,而DeepSeek-V3只是在別人做好的基礎上,做了系統優化。

那么,如果作為后來者,把AI的一個個模型都當作系統來優化,并且做到最好,是不是更有利于深入到實際應用場景中呢?我個人認為,是的。

01

為什么這么說呢?先介紹一個詞:數據蒸餾技術(Dataset Distillation)。它的本意是一種機器學習方法,核心是把大量數據中的精華信息,濃縮到一個更小的數據集中,然后進行訓練。

具體來說,通過一系列算法和策略,對原始數據進行深度處理。這包括去除數據中的噪聲、降低數據的維度,以及提取出最關鍵的信息。

經過這些步驟,最終能得到一個既精煉又實用的數據集,讓AI學習后更加精準;這樣做的好處是,既能提升模型的性能,又能減少訓練過程中所需的數據量和計算資源。

如果還是不太明白,我來舉個例子。

想象一下,你有一本厚厚的《窮查理寶典》,里面包含了大量的知識點。但看到一半時,你發現找到重要的信息并不容易。這時,該怎么辦呢?

最好的選擇之一,按照索引目錄,或者制作一個精簡版的手冊,只保留關鍵內容。

這樣,你既能快速獲取核心知識,又不用每次都翻那本厚重的書。數據蒸餾技術就像這個過程,它從海量數據中提取出最重要的信息,生成一個小巧但高效的數據集。

比如,在訓練圖像識別模型時,原本可能需要成千上萬張圖片。但通過數據蒸餾,可能只需要幾百張精選圖片,就能達到相似的識別效果。

那么,使用數據蒸餾技術,一定是壞事嗎?不一定。

為什么呢?

我認為有三個原因。第一,它能提升效率。數據蒸餾可以讓模型變得更輕量化,運行速度更快。這對硬件性能有限的設備特別重要,比如手機、物聯網設備。

模型通過壓縮知識量,保留核心信息,再配合注意力訓練,這樣既能節省時間和資源,又能讓模型高效學習。

第二,它能保護隱私。數據蒸餾本身像一種抽象的表達,它不需要存儲或處理完整的原始數據,因此隱私泄露的風險自然更低。

比如:在醫療場景中,使用經過蒸餾的模型,可以讓算法學到診斷能力,但又不用直接接觸患者的隱私數據。

第三,它能快速遷移知識。對于跨領域的應用,蒸餾可以幫助新模型迅速學習已有模型的能力,不用從零開始訓練,這種“以老帶新”的方式,可以大幅縮短開發周期,還能避免重復勞動。

寫到這兒,可能有人會問:蒸餾后AI怎么學習呢?

簡單來說,大概分兩步。 :

第一步,可以想象有一個已經訓練好的大模型,就像一位老師。它掌握了大量知識。蒸餾的過程,就是讓這位老師把最重要的知識提煉出來,教給一個小模型,也就是學生。

比如,大模型會告訴小模型:“這張圖片是貓,關鍵特征是耳朵和胡須。”小模型不需要記住所有細節,只要抓住這些核心信息就夠了。

第二步,就是讓學生自己練習。小模型拿到這些提煉后的知識后,會用自己的方式去學習和理解。它通過反復練習,逐漸掌握這些核心信息。最終,它也能像大模型一樣完成任務,比如識別圖片中的貓。

這就像你學數學時,老師不會讓你背下所有題目,而是教你解題的思路和關鍵公式。你記住這些重點后,就能自己解決類似的問題。

蒸餾后的AI也是這樣,它學的是“解題方法”,而不是“全部題目”;這樣一來,小模型既能高效學習,又不需要像大模型那樣消耗大量資源。

明白這一點,你也就理解了數據蒸餾技術(Dataset Distillation)最本質作用。

02

其實,deepSeek-V3本質也用的數據蒸餾技術,只不過,它的技術架構層面自己沒有用,而是從 DeepSeek-R1 模型中提煉推理能力。

看到這,你也許又懵了,DeepSeek-R1 模型是什么?

DeepSeek-R1是一個更早、更復雜的模型,它具備強大的推理和反思能力。它的設計初衷是為了解決更高級的問題,比如:需要深度思考和驗證的任務。

DeepSeek-V3 則是在它的基礎上,通過數據蒸餾技術,提取了 R1 的核心推理模式,而不是直接復制它的所有功能。

這樣做的好處是,DeepSeek-V3 既能保留 R1 的精華,又變得更輕量化,更適合實際應用場景。實在無法理解,你可以思考成:R1 是“老師”,V3 是“學生”,學生從老師那里學到了最重要的解題思路,而不是死記硬背所有答案。

那么,我們怎么知道 DeepSeek-R1 一定也用了數據蒸餾技術呢?其實,要判斷一個模型有沒有用數據蒸餾技術,只需要搞清楚三個問題就夠了。

第一個問題是:R1 是否生成了比簡單的硬標簽更豐富的輸出?比如,概率分布或者中間推理鏈。這些輸出是否被用來指導后續模型的訓練?

更通俗地說,這個問題可以理解為:R1 是不是不僅僅給出了答案,還提供了更多的信息。比如,它是怎么得出這個答案的,或者它對這個答案有多大的把握。這些額外的信息,會被用來幫助其他模型更好地學習。

針對這個問題,我查了一下 DeepSeek-R1 的技術和 API 文檔,結論是:是的。理由有三點:

第一,概率分布

DeepSeek-R1 在推理過程中,不僅會輸出最終的硬標簽(比如分類結果或具體答案),還會提供概率分布信息。

這種概率分布反映了模型對不同可能性的置信度,能夠更細致地描述模型的決策過程。

在后續模型訓練中,這些概率分布可以作為軟標簽,用于知識蒸餾;這樣,學生模型(比如 DeepSeek-V3)就能更好地學習教師模型(R1)的推理模式,從而提升性能和泛化能力。

第二,中間推理鏈(思維鏈)

DeepSeek-R1 采用了思維鏈技術,在解決復雜問題時,會生成一系列中間推理步驟。這些步驟展示了模型對問題的逐步理解和解決過程,提供了更豐富的上下文信息。

在后訓練階段,這些中間推理鏈被提取出來,用于指導后續模型的訓練。

通過知識蒸餾,R1 的思維鏈能力被遷移到其他模型(比如 DeepSeek-V3)中,顯著提升了這些模型的推理能力和任務表現。這一點,可以在 DeepSeek-V3 的報告中看到。

第三,指導后續模型訓練;相比于傳統的硬標簽,這些信號能夠更全面地傳遞教師模型的知識和推理能力。

比如,在知識蒸餾過程中,學生模型不僅學習最終的輸出結果,還學習教師模型的決策過程和中間推理步驟。這樣,學生模型就能獲得更強的泛化能力和更高的準確性。

所以,DeepSeek-R1 通過生成概率分布和中間推理鏈,提供了比硬標簽更豐富的輸出,這些輸出被有效地用于指導后續模型的訓練。

03

第二個問題是: R1 是否提取了內部特征(比如中間層的特征),并用這些特征來優化 V3 的推理能力?

說白了,R1在運行過程中,是否記錄了一些中間步驟的信息,比如它是如何一步步思考的。然后,這些信息是否又被用在幫助 V3 更好地學習和推理。

經過我的查閱,R1確實在內部特征(如中間層特征)上進行了提取,并用于優化V3的推理能力。

具體來說,DeepSeek-V3在其后訓練階段引入了一種新的方法,從長鏈思考(CoT)模型,特別是DeepSeek R1系列模型中提取推理能力,并將這些能力整合到標準的LLM中,尤其是DeepSeek-V3。

看到這,有些朋友會有疑問了:中間層表征什么意思?

在深度學習模型中,中間層表征指模型在處理輸入數據時,每一層(尤其是隱藏層)輸出的特征表示,這些表征捕捉了輸入數據在不同抽象層次上的信息。

舉個通俗的例子:

想象一下,你在看一幅畫。第一眼,你可能只注意到畫中的顏色和形狀,這是最基礎的信息。

接著,你開始注意到畫中的物體,比如樹、房子或者人,這是更深一層的理解,最后,你可能還會思考這幅畫的主題或情感,比如它表達的是快樂還是憂傷。

深度學習模型的工作方式也類似。

輸入數據(比如一張圖片)經過模型的每一層時,會被逐步分析和抽象。第一層可能只提取簡單的特征,比如邊緣或顏色;中間層會提取更復雜的特征,比如形狀或紋理。最后一層則可能識別出具體的物體或場景。

這些中間層表征,就是模型在每一層對輸入數據的理解和提取的信息,它幫助模型逐步從簡單到復雜地理解數據,最終完成任務。

而DeepSeek-R1模型呢?通過分析模型的中間層輸出,提取關鍵的特征表示;具體方法有兩點:

其一,特征可視化

它通過可視化工具(比如 Grad-CAM、t-SNE)分析中間層特征。這些工具可以更直觀地看到模型在處理數據時,每一層提取了哪些信息。

其二,特征重要性評估

使用注意力機制或特征重要性評分(比如 SHAP 值)來確定哪些特征對推理任務最關鍵,簡單來說,找出哪些信息對模型的決策影響最大。

此外,有一個重要步驟:特征壓縮。即,利用降維技術(比如 PCA 或自動編碼器),提取最具代表性的特征,這樣可以減少數據的復雜性,同時保留最關鍵的信息,讓模型更高效地學習和推理。

如果無法理解,可以通俗的把整個過程想象成:

你在整理一本厚厚的書,首先,通過目錄快速找到重要的章節,了解書的主要內容,這就叫特征可視化;然后,你會用熒光筆標記出最關鍵的部分,比如核心觀點或重要數據,這叫特征重要性評估。

最后,你會把書中的精華內容總結成幾頁筆記,方便以后快速查閱。這是特征壓縮。

DeepSeek-R1工作方式也類似。它分析中間層輸出,找到最關鍵的信息,再把這些信息壓縮成更精煉的形式,幫助模型更高效地學習和推理。

因此,我的結論是:DeepSeek-R1 確實提取了內部特征,并通過特征可視化、特征重要性評估和特征壓縮等方法,將關鍵信息用于優化DeepSeek-V3的推理能力。

04

第三個問題:R1是不是專門為其他模型提供知識轉移的服務,而不只是自己用?換句話說,R1是不是幫助別的模型學習新知識?

答案是,肯定的。

DeepSeek-V3用了一個很聰明的方法,把DeepSeek R1系列模型的推理能力,轉移到標準的LLM里面。這樣不僅讓DeepSeek-V3變得更聰明,還能控制輸出的風格和長度。

可以肯定地說,R1系列模型確實是為其他模型提供知識轉移的服務,這是官方都承認的。綜上,鑒于這三個問題,可以說:deepSeek-V3的確用了數據蒸餾技術。

其實,國內很多推理模式,都是基于蒸餾 O1 Preview 的數據。這種方式把別人走過的彎路,變成了自己的捷徑,讓新模型站在“巨人”的肩膀上。

我這句話不是胡說。這篇論文的名字叫:《O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?》發表在arXiv.org平臺上「1」。

其中公開指出了,從O1的API中進行簡單蒸餾,再加上監督微調,可以在復雜的數學推理任務中實現卓越的性能。

在美國邀請數學考試(AIME)中,僅對數萬個樣本O1提取的長思維鏈進行微調的基礎模型,在技術復雜性最小的情況下優于O1預覽。

所以,這也是為什么大多數AI產品,做高中題效果提升好,做博士級別的題目效果一般的原因。

因為,高中級別的題目有明確的解題思路和標準答案,適合通過蒸餾、微調來提升性能;而博士級別的題目要更深層次的創新和復雜推理,單純依賴蒸餾技術難以覆蓋這些高難度的需求。

但是,如果各種小模型,先用蒸餾技術過濾一遍高中題,再推向市場,這何嘗不是一種進步呢?

就說這么多,不要嘲笑別人巧取捷徑,要多思考,它用了特殊方法,節省下多少算力;畢竟,DeepSeek-V3訓練成本只有557.6萬美元,這只是訓練Meta的Llama 3.1所需估計的5億美元的1.1%。

注釋:

[1].O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?地址:https://arxiv.org/abs/2411.16489



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
盧靖姍節目首稱和韓庚前任女朋友成為閨蜜,嘆:我們會一起吐槽他

盧靖姍節目首稱和韓庚前任女朋友成為閨蜜,嘆:我們會一起吐槽他

阿廢冷眼觀察所
2025-04-26 14:03:59
飯圈沖擊張繼科直播間,留言:教曼昱霸王擰也沒用,莎莎宇宙第一

飯圈沖擊張繼科直播間,留言:教曼昱霸王擰也沒用,莎莎宇宙第一

二月侃事
2025-04-26 11:24:40
皇馬發爭議判罰決賽主裁流淚:我的孩子被人指著說你爸是小偷

皇馬發爭議判罰決賽主裁流淚:我的孩子被人指著說你爸是小偷

直播吧
2025-04-25 21:26:44
大量圖紙被竊取,數千部手機被植入間諜軟件!國安部披露形勢嚴峻

大量圖紙被竊取,數千部手機被植入間諜軟件!國安部披露形勢嚴峻

知鑒明史
2025-04-25 17:33:11
詹姆斯:東契奇生病對我們打擊很大 失誤19次丟掉30分就很難贏

詹姆斯:東契奇生病對我們打擊很大 失誤19次丟掉30分就很難贏

直播吧
2025-04-26 14:38:07
笑死了,找工作被要求得過諾貝爾獎,趕緊發給莫言,年齡又卡了

笑死了,找工作被要求得過諾貝爾獎,趕緊發給莫言,年齡又卡了

小人物看盡人間百態
2025-04-16 09:10:39
男朋友性功能不行,到底能不能嫁?過來人掏心窩子的大實話!

男朋友性功能不行,到底能不能嫁?過來人掏心窩子的大實話!

墻頭草
2025-04-25 08:46:24
霍里:哈利伯頓的投籃姿勢很丑 讓他走左路他都得不了分

霍里:哈利伯頓的投籃姿勢很丑 讓他走左路他都得不了分

直播吧
2025-04-25 21:36:17
整容失敗不可怕,一股姨味才尷尬!51歲蘇有朋給所有男星提了個醒

整容失敗不可怕,一股姨味才尷尬!51歲蘇有朋給所有男星提了個醒

書雁飛史oh
2025-04-25 18:37:45
北理工男教授和男學生性丑聞:52分鐘內部視頻流出,骯臟細節披露

北理工男教授和男學生性丑聞:52分鐘內部視頻流出,骯臟細節披露

博士觀察
2025-04-25 21:55:02
我每天都會穿進一個男人身體里面,可待夠十分鐘之后,我又會恢復

我每天都會穿進一個男人身體里面,可待夠十分鐘之后,我又會恢復

風月故事匯
2024-08-29 23:33:25
不負眾望!國乒女單獨苗3:0大獲全勝,國乒1人晉級,日本7人晉級

不負眾望!國乒女單獨苗3:0大獲全勝,國乒1人晉級,日本7人晉級

國乒二三事
2025-04-26 12:26:59
三大龍脈被破壞的城市,廣州富而不王,南京貴而不尊,還有一個......

三大龍脈被破壞的城市,廣州富而不王,南京貴而不尊,還有一個......

神奇故事
2025-04-24 22:30:39
國務院同意,在福建一市設立!

國務院同意,在福建一市設立!

共青團福建省委
2025-04-26 09:55:14
70歲離異老太慘死,法醫檢測體內男性DNA,竟與老太自己高度吻合

70歲離異老太慘死,法醫檢測體內男性DNA,竟與老太自己高度吻合

蘇大強專欄
2024-03-27 22:12:23
油價大跌0.71元/升,92號汽油降入“6元時代”,下次4月30日調價

油價大跌0.71元/升,92號汽油降入“6元時代”,下次4月30日調價

豬友巴巴
2025-04-26 14:55:03
為啥娃七八歲后家長就不熱衷于曬娃了?網友:自己看!

為啥娃七八歲后家長就不熱衷于曬娃了?網友:自己看!

有趣的火烈鳥
2025-04-09 16:25:09
70歲崩牙駒澳門聚會喝茅臺,美女敬酒,身邊驚現京城神秘大佬!

70歲崩牙駒澳門聚會喝茅臺,美女敬酒,身邊驚現京城神秘大佬!

牛鍋巴小釩
2025-04-24 11:39:45
先投彈再撞擊,烏軍這次干得漂亮!臭顯擺果然讓“莫斯科城”被炸

先投彈再撞擊,烏軍這次干得漂亮!臭顯擺果然讓“莫斯科城”被炸

鷹眼Defence
2025-04-25 18:00:16
為了700萬中國游客,日本最大餐飲平臺Tabelog“搬進”微信小程序

為了700萬中國游客,日本最大餐飲平臺Tabelog“搬進”微信小程序

21世紀經濟報道
2025-04-23 17:22:12
2025-04-26 15:36:49
智遠同學 incentive-icons
智遠同學
暢銷書《復利思維》作者;精神生活與商業探索,關注科技人文、消費電商、品牌營銷、商業認知思維等方面。
408文章數 88關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

健康
家居
游戲
教育
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

清徐現代 有溫度有態度

小明劍魔刪除回應!“要錢就離婚”還有后續?

教育要聞

網民反映孩子“在華海中學遭霸凌”,海口市教育局回應正核查

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 京山县| 平遥县| 宁明县| 奈曼旗| 武强县| 蕉岭县| 绥滨县| 漳平市| 西畴县| 公主岭市| 资阳市| 高邑县| 珲春市| 林州市| 华宁县| 措美县| 黄平县| 松潘县| 齐河县| 获嘉县| 山西省| 白水县| 息烽县| 宜州市| 新余市| 吉林市| 运城市| 会东县| 鹿邑县| 苏尼特左旗| 和静县| 广东省| 东丽区| 兴仁县| 乌拉特前旗| 卢龙县| 新泰市| 冀州市| 成都市| 哈尔滨市| 乌鲁木齐县|