雷遞網 樂天 1月26日
DeepSeek正成為AI領域崛起的“黑馬”。DeepSeek的橫空出世,打破了國內大模型原有格局。
本周,DeepSeek發布 DeepSeek-R1,并同步開源模型權重。DeepSeek-R1遵循MIT License,允許用戶通過蒸餾技術借助R1訓練其他模型。
DeepSeek-R1 上線 API,對用戶開放思維鏈輸出,通過設置 model='deepseek-reasoner' 即可調用。
DeepSeek-R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。
DeepSeek-R1在開源DeepSeek-R1-Zero和DeepSeek-R1兩個 660B模型的同時,通過 DeepSeek-R1 的輸出,蒸餾6個小模型開源給社區,其中 32B 和 70B 模型在多項能力上實現了對標OpenAI o1-mini 的效果。
DeepSeek-R1 API 服務定價為每百萬輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬輸出 tokens 16元。
DeepSeek震動美國科技界,不僅是因為其性能上比肩OpenAI的o1,并完全開源,且以極低的成本實現了這一突破。
知名投資人馬克·安德森也表示:“DeepSeek R1 是我見過的最令人驚嘆和印象深刻的突破之一,作為開源項目,這是給世界的一份重要禮物?!?/p>
AI科技初創公司Scale AI創始人亞歷山大·王(Alexandr Wang)稱,過去十年來,美國可能一直在人工智能競賽中領先于中國,但DeepSeek的AI大模型發布可能會“改變一切”。DeepSeek的AI大模型性能大致與美國最好的模型相當。
Alexandr Wang認為,DeepSeek-R1與GPT-4o和Claude 3.5 Sonnet 相當,訓練時計算量減少10倍。DeepSeek-V3展示給外界的教訓是:在美國人休息時,中國人在工作,并以更便宜、更快、更強的產品迎頭趕上。
“The bitter lesson of Chinese tech: they work while America rests, and catch up cheaper, faster & stronger?!?/p>
Alexandr Wang出生于1997年,他于19歲那年從美國麻省理工學院輟學創立公司,如今,Scale AI估值超百億美元,獲得包括Y Combinator、英偉達、AMD風投、亞馬遜、Meta等投資,該公司為OpenAI、谷歌和 Meta等提供訓練數據。
DeepSeek的動作讓Meta的生成式AI團隊陷入恐慌。Meta CEO扎克伯格宣布加速研發 Llama 4,計劃投資650億美元擴建數據中心,并部署130萬枚 GPU 以“確保2025年 Meta AI 成為全球領先模型”。
DeepSeek創始人梁文鋒也迅速奠定在AI圈地位。
據介紹,梁文鋒本碩均就讀于浙江大學信息與電子工程學專業。2015年,梁文鋒與校友共同創立幻方量化。2021年,幻方量化成為國內首家突破千億規模的的量化私募大廠,被稱為國內量化私募“四大天王”之一。
早年,幻方量化開始大規模布局 AI 算力,搭建起“螢火一號”集群。2021年,“螢火二號”落成,這給了DeepSeek快速奔跑的底層支撐。
有評論人士稱,中國股民給世界AI最大的的貢獻就是讓幻方量化賺了那么多錢。然后幻方量化創始人有錢買最好的GPU,收納一批中國最牛的精英,做出了不錯的Deepseek。
預訓練方面,DeepSeek團隊的貢獻在于超強的訓練穩定度、深入使用fb8混合精度、多詞同時預測、隱空間多注意力頭,MOE混合專家等大大降低訓練成本,用600萬美元訓練一個600B的大模型,被是工程上的奇跡。
分析人士指出,DeepSeek用10-15分之一的成本就訓練出比肩Openai o1水平的模型R1,而R1還都開源,這意味著算法有太多提高空間,不需要那么多GPU,不需要那么多算力,封鎖芯片,搞算力壁壘的思路行不通,而OpenAI和Meta等美國企業靠GPU堆砌效果的模式也大打折扣。
DeepSeek還可能形成一個效應,那就是很多購買了數千塊NVIDIA芯片的AI初創公司都可能破產,從而導致大量NVIDIA GPU 流入二手市場。此外,還有一些初創公司的模式是運營數據中心(例如Coreweave),并將NVIDIA GPU 出租給其他公司,以期獲得投資回報。最后,七巨頭最終將開始放緩或削減來自NVIDIA的未來訂單,有關NVIDIA的一切都會開始瓦解。
這可能刺激更多專用推理模型誕生,而創業公司、個人App等可能會大幅減少在OpenAI API上的支出,轉向開源。
另有評論人士稱,DeepSeek的橫空出世,體驗后發現其整合搜索信息的能力強于豆包,令人對英偉達股價的支撐產生懷疑,這會讓美國公司賴以維持的技術優勢和高估值可能會受到挑戰。而國內大模型也顯得尷尬,文心一言起了個大早,Kimi趕了個晚集,豆包左右失策。
有人總結說,中美科技底層差距雖然大,但中國擁有巨大人才紅利,6000萬工程師,超美德日韓印總和。人才紅利是繼續發展的底氣和希望。
雷遞由媒體人雷建平創辦,若轉載請寫明來源。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.