2025 年2 月6 日訊,一則重磅消息在科技領域引發廣泛關注:李飛飛等斯坦福大學和華盛頓大學的研究人員,以不到50 美元的云計算成本,成功訓練出人工智能模型S1,堪稱“高性價比” 的典范。令人矚目的是,在數學和編程能力測試中,S1 的表現與OpenAI 的o1、DeepSeek 的R1 等頂尖模型不相上下,實力不容小覷。
S1 的誕生,得益于獨特的技術支撐。研發團隊運用“蒸餾” 技術,讓S1 通過模仿學習其他模型的答案,提煉出強大的推理能力,這一過程就如同學生借鑒學霸的解題思路來提升自身能力。為了讓S1 更加智能,團隊精心準備了1000 個問題及答案,收集谷歌Gemini 2.0 Flash Thinking Experimental 回答問題時的思考過程作為“學習資料”。在16 塊英偉達H100 GPU 的助力下,S1 僅用26 分鐘就完成訓練,成本僅約20 美元。升級版S1 還具備自我檢查功能,遇到問題時會深入思考,從而給出更精準的答案。
不過,S1 的誕生也引發了一些爭議。有業內人士指出,S1 并非從零開始搭建,而是基于阿里云通義千問(Qwen)這個開源模型進行改進,這也是其成本較低的原因之一。而且按照行業慣例,僅用1000 個樣本數據來訓練模型,數據量相對較少,通常難以訓練出具備強大推理能力的模型。
但從另一個角度看,DeepSeek 才是開啟AI 技術平權大門的關鍵力量。在過去,全球AI 競賽宛如“千億美元俱樂部”,GPT - 4、Gemini 等巨頭模型構建起極高的技術門檻,眾多國家和團隊被拒之門外。DeepSeek 的出現徹底打破了這一局面,它將大模型開發成本降至傳統方法的1% - 5% ,性能卻能達到90% 以上。這使得更多開發者和團隊得以參與到AI 模型的開發與優化中,極大地加速了AI 邁向AGI 時代的進程,推動了AI 領域的發展。
DeepSeek 的開源版本在GitHub 上迅速走紅,一周內就收獲了10 萬個星標。GitHub 是一個面向開源及私有軟件項目的托管平臺,開發者們可以在上面方便地存儲、管理和分享代碼。它為全球開發者提供了一個交流與合作的空間,許多優秀的開源項目都誕生于此。DeepSeek 的輕量化模型在非洲手機上也能流暢運行,每秒可處理17 個token,其軍工級加密方案更是順利通過歐盟數據主權認證,實力備受認可。英國積極改造數據中心,引入國產AI;印度工程師在普通服務器上就能運行離線模型;歐洲初創公司利用開源版本成功開發出商業應用。全球AI 格局正因DeepSeek 發生著深刻變革,從過去的技術壟斷逐漸轉變為多極發展,呈現出百花齊放的繁榮景象。
無論S1 模型背后的爭議如何,它都無疑是AI 發展史上的一個標志性案例。而DeepSeek 掀起的技術平權浪潮,必將持續推動AI 朝著AGI 時代大步邁進。未來,AI 領域還會帶來哪些令人驚嘆的突破呢?讓我們拭目以待!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.