01
1月20日,不僅是美國換“老板”的日子,AI圈也迎來了一件大事——DeepSeek 上線了他們全新的開源推理大模型DeepSeek-R1,它在數學、編程和推理上的表現已經和 OpenAI 的 o1 不分伯仲,但API 調用成本便宜了90-95%。
網友驚呼:這才是真正的Open AI (This is true OPEN AI )
當天,DeepSeek創始人梁文鋒出席由總理主持的研討會,會議上總理呼吁通過科技創新創造經濟“新增長動力”,以幫助“保障和改善民生”。
隔天,1月21日,美國計算機科學家、“AI教育第一人”、Sam Altman的導師吳恩達在第55屆世界經濟論壇(冬季達沃斯)上點贊DeepSeek——“我對 DeepSeek 的進展印象深刻。我認為他們能夠以非常經濟的方式訓練模型。他們最新發布的推理模型,非常出色……‘加油’!”
此前,這家公司在2024年末發布 V3 版本的時候就已經圈粉無數。
Nvidia 的高級研究員 Jim Fan 元旦發帖稱,“DeepSeek 已成為今年 OSS LLM領域最大的黑馬,這表明資源限制迫使你以驚人的方式重塑自我。”
Jim指的是 DeepSeek V3 的開發過程——他們用大約 2,048 塊性能較弱的 Nvidia H800 芯片(為中國市場定制版,受限于國際出口管制,性能較 H100 稍遜,內存帶寬和算力均有調低)在兩個月內完成了訓練,花費僅為 558 萬美元。
用 OpenAI 創始團隊成員 Andrej Karpathy 的話來說,這簡直是“可笑的預算 joke of a budget ”,刷新了行業的認知。
02
全球AI產業的版圖,像一盤剛開不久的棋局。
大家的共識是,這是一個金錢游戲:你必須有無盡的資金和算力。
目前,OpenAI憑借GPT-4系列穩居技術先鋒位置,Meta的Llama 3鞏固了其開源模型的領導地位,重量級玩家還有Google、Anthropic、Perplexity等;
中國的騰訊、百度、阿里、字節等一眾科技公司也在全速前進,中國的優勢在于專利與國家戰略支持。去年9月,中金公司估計,從2025年起的六年內,中國對人工智能行業的投資規模可能達到1.4萬億美元。
圖源:Stanford’s Institute for Human-Centered Artificial Intelligence (HAI)
雖然AI的競賽才剛拉開帷幕,但雙方都知道其戰略重要性,局面已然白熱化。
而正是在這“燒錢大賽”中,DeepSeek的出現顯得尤為與眾不同——
要知道,OpenAI訓練GPT-4燒掉7800萬美元,Meta的Llama 3超過1個億美元,Gemini Ultra差不多2個億了。
是,你有錢你有芯片,你有你的燒錢玩法;咱們條件是差點兒,還有芯片禁令,不過常言道:生產力,是窮逼出來的,DeepSeek用閹割版的芯片耗資不到600萬美元,模型就水靈靈地出來了,調用量暴增↓
來源:https://openrouter.ai/rankings?view=day
具體的技術方面,我們理解下來是這樣的(歡迎技術大佬指正):
DeepSeek的策略通過優化架構(如多頭潛在注意力機制MLA)和創新算法(DeepSeekMoE),有效減少了對高性能硬件(GPU)的依賴。
比如其多頭潛在注意力機制(MLA)將傳統的多頭注意力機制進行了改造,像是將以前的整本書的內容總結成一個高質量的摘要——信息濃縮了,但關鍵點都在,這樣能大幅度降低對內存和計算資源的需求;
再如其自主研發的DeepSeekMoE(專家模型混合架構),其核心思路是,將模型中的“計算任務”分配給多個專家模塊,每次只激活少數相關的專家,減少了計算冗余,就像“你們公司品牌部開會,不需要讓財務部參與”一個道理。
當然還有很多其他的秘訣,這些技術的結合使得DeepSeek能夠在性能和成本之間找到最佳平衡。
并且,DeepSeek選擇的是開源的路線,把技術慷慨地分享給全球開發者。開發人員可以使用這些模型構建第三方應用程序,初創公司也可以使用這些模型創建自己的聊天機器人。這樣的策略不僅為自己贏得了技術口碑,還推動了一場AI行業的降價潮。
更重要的是,這種“開源+高性價比”的模式可能還為中國AI產業提供了一條新路徑,有效繞過芯片和資金的瓶頸,打破“資源為王”的局面。
DeepSeek這步棋,不只是漂亮,還透著幾分“反擊”的俏皮智慧。
?03
很多人會好奇:DeepSeek,這家公司是從哪兒“蹦”出來的?
其實,這家公司脫胎于一家中國頂尖的量化投資基金——High-Flyer Quant(幻方量化)。
幻方的創始人之一梁文鋒來自廣東,后在浙大攻讀電子信息和計算機視覺專業。在大學期間,他就開始與一群志同道合的同學探索如何利用人工智能實現股票投資的自動化。
2015年,他與校友徐進共同創立了幻方量化。徐進是浙江大學信號與信息處理專業的博士,曾在華為上海研究所任職。
為了用AI構建投資策略,他們購置了大量 GPU。
據相關信息,幻方管理的資產從 2016 年的 10 億元人民幣增至 2019 年的 100 多億元人民幣。
2019年到2021年,他們投資12+ 億元,先后研發了超級AI集群 “螢火一號”和“螢火二號”。其中,“螢火二號”搭載了約 1 萬張英偉達 A100 顯卡,算力超過 72 萬臺個人電腦。
借助 AI,幻方量化管理的資產在 2021 年突破 1000 億元。
2022年底,ChatGPT 的橫空出世讓已經積累多年的梁文鋒下定決心要進軍通用人工智能領域了:
“我們建了一個名為 DeepSeek 的新公司,從語言大模型開始,后邊也會有視覺等。”
2023 年 4 月,該公司在一份聲明中表示:
“多年來,幻方將很大一部分利潤投入到人工智能領域,以打造領先的人工智能基礎設施并開展大規模研究。”
幾個月后,幻方剝離了 DeepSeek,DeepSeek 的開發由幻方全資資助。當時沒有風險投資公司愿意提供資金,因為它們不太可能在短時間內實現退出。
2023 年 11 月,DeepSeek 推出了 DeepSeek LLM,其參數多達 670 億個,其性能接近 GPT-4。
2024 年 5 月,DeepSeek-V2 正式上線。
2024 年 12 月,DeepSeek-V3 發布,基準測試表明,它的表現優于 Llama 3.1 和 Qwen 2.5,同時與 GPT-4o 和 Claude 3.5 Sonnet 相當,引爆了業內關注。
最近,DeepSeek 發布了 R1 模型。
在外網一個 DeepSeek R1 全面測試的視頻中,底下有觀眾留言:
“如果這不是中國的‘創新’,我不知道什么是!干得漂亮!”
04
DeepSeek團隊的神秘面紗讓人們好奇:它的秘密武器是什么?
外媒說,這一秘密武器是“年輕天才”,他們足以與財力雄厚的美國巨頭展開競爭。
在AI行業,聘請經驗豐富的老將是常態,許多中國本土的AI初創公司更傾向于招聘資深研究人員或擁有海外博士學位的人才。
然而,DeepSeek卻反其道而行,偏愛沒有工作履歷的年輕人。
一名曾與DeepSeek合作的獵頭透露,DeepSeek不招資深技術人員,“工作經驗在3-5年已經是最多的了,工作超8年的基本就pass了。”
梁文鋒在2023年5月接受36氪采訪時也表示,DeepSeek的大多數開發人員要么是應屆畢業生,要么是剛開始從事人工智能職業的人。他強調:“我們的核心技術崗位大多由應屆畢業生或具有一兩年工作經驗的人擔任。”
沒有工作履歷,DeepSeek是如何選人的?
答案是,看潛力。
梁文鋒曾說,做一件長期的事,經驗其實沒那么重要,相比之下基礎能力、創造性和熱愛等更重要。
他認為,或許目前世界排名前50的頂尖AI人才還不在中國,
“但我們能自己打造這樣的人。”
比如在MLA架構研究中做出了關鍵創新的高華佐和曾旺丁。高華佐于2017年畢業于北京大學物理學專業,曾旺丁于2021年開始在北京郵電大學人工智能研究所攻讀碩士學位。
還有里程碑式成果GRPO(Group Relative Policy Optimization)是由三位實習生完成,其中包括邵智宏和朱琪豪,當時邵智宏還是清華CoAI課題組博士生,研究穩健可擴展的AI系統,曾參與多個關鍵項目,如DeepSeek-Prover和DeepSeek-Coder-V2。朱琪豪則是北大計算機學院博士生,以深度代碼學習為研究方向,發表了16篇CCF-A類論文,并獲得多項國際會議獎項。
團隊還有一批從V1就開始參與的核心成員,如北大博士生代達勱和王炳宣。代達勱以預訓練語言模型研究獲獎,發表論文20余篇,是V1到V3項目的重要推進者。而清華的趙成鋼,則以超算競賽冠軍的背景擔任訓練和推理架構工程師,支撐著DeepSeek大模型的硬件性能優化。
或許,95后“天才AI少女”羅福莉是團隊中最為大眾所知的人物——小米創始人雷軍以千萬年薪將她招募至小米AI實驗室,領導AI大模型團隊。羅福莉本科畢業于北京師范大學計算機專業,碩士畢業于北京大學計算語言學專業。畢業后,她加入阿里達摩院,主導開發了多語言預訓練模型VECO。2022年,她加入DeepSeek,參與DeepSeek-V2的研發。
圖片來自公眾號“阿里達摩院掃地僧”
DeepSeek團隊規模不大,不到140人,成員沒有“大佬”,鮮有“海歸”,大多數人的工作時間不長,不少還是在讀博士。即便是團隊的管理者,也非常年輕。正是這群“硬核新人”一步步將DeepSeek推向行業巔峰。
奇點學校(sigularity)的校長Peter Diamondis曾說:
你要想你的公司有十倍的增長,好,那就雇上一班子20幾歲的年輕人吧!
為什么是年輕人?他們聰明,勤奮,天真。他們身上有你想要的所有重塑系統的素質。這些年輕人沒有關于世界應該怎樣,工作應該如何等的先入為主的觀念,這使他們有質疑一切的能力。
創新的事,還是要交給新人去做。
05
德魯克曾經說過,管理創新的知識工作者是一個世界性難題。
那DeepSeek如何管理、留住這些年輕的天才?
答案是:給足錢,給足算力、自發式組隊,啟發式引導。
知情人士透露,DeepSeek的薪酬對標字節研發,而且根據競爭對手的報價直接加價。
而在算力比人還貴的當下,在這里是“隨便用”——團隊成員在資源使用上幾乎沒有限制——每個人都可以隨時調用訓練集群,無需繁瑣審批,而且只要幾個人對某個想法感興趣,就能迅速啟動項目。而當某個創意展現出潛力時,公司會果斷調動資源,從上到下全力支持其發展。
同時在團隊管理上,DeepSeek摒棄了傳統的崗位前置分工,選擇了一種更加靈活的“自然分工”模式:員工自主組建小組,成員間無固定分工,更無上下級關系;不設KPI,也沒有商業化壓力。
這種開放與自由的工作方式,讓創新得以最大化釋放。
梁文鋒對團隊的管理風格低調而細膩。他喜歡用暗示而非命令的方式引導團隊成員,常通過點撥式的短語激發解決方案。
一位員工評價說,梁更像是導師,而不是老板。
這位出身廣東五線城市的創始人,從小就有著與眾不同的執著。
他的父親是小學老師,彼時,廣東被視為充滿商機的熱土,常有家長跑到他家說著“讀書無用論”;但梁父卻一直堅信教育的價值。
受父親的影響,梁文鋒對知識一直充滿好奇,并且相信,
基礎研究才是改變世界的根本。
梁文鋒坦言,DeepSeek的使命不是追逐應用層面的成功,而是專注基礎研究,只負責基礎模型和前沿的創新。
在他看來,很多中國公司習慣follow(跟隨)而不是創新。
在互聯網時代,很多人都會有一種慣性思維,認為歐美科技圈擅長從0到1的技術創新,而中國人更習慣從1到N,在應用層面發力。
但他相信,中國AI不會“永遠處于跟隨的位置”,DeepSeek的目標,就是以創新者的身份加入全球技術浪潮。
“創新首先需要自信。”他說。?
來源 | TOP創新區研究院(ID:TOP_Lab)
作者 | 新興產業研究組 ; 編輯 | 荔枝
內容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.