DeepSeek公司背景與發展
DeepSeek于2023年成立,其母公司幻方量化在量化投資領域成績斐然,是國內頂尖的量化投資公司,管理規模曾一度突破千億大關。2020年3月,幻方量化建立螢火一號算力集群,緊接著在2021年建立螢火二號,二者共同構成了當時亞洲規模最大的私有化AI算力池,擁有近萬張A100 卡。當時,幻方量化出于自身量化投資對算力的需求建立此算力池,同時面向公眾開放使用。這一舉措為后來大模型的發展奠定了堅實基礎,也展現了幻方量化在技術布局上的前瞻性。
DeepSeek模型發展歷程
DeepSeek在模型研發上穩步推進,2024年初推出首個大模型版本,起初在行業內并未引起較大轟動。然而,2024年5月推出的V2版本開始嶄露頭角,性能對標GPT-4,而價格僅為GPT-4的百分之一。在國外學術圈和工業圈,它早早受到關注,特別是在代碼開發領域表現突出,成為國外眾多AI Coding軟件中唯一集成的國產大模型。去年年底推出的V3和R1版本更是引起了國內外的廣泛關注,其模型性能對標國外最頂尖的OpenAI-o1模型,充分展示了DeepSeek在技術研發上的實力。
DeepSeek技術優勢剖析
基于強化學習的訓練方式
DeepSeek-R1的Zero版本基于大規模強化學習進行訓練,拋棄了傳統的基于人類標注反饋數據訓練的獎勵模型,選擇了客觀評價指標作為獎勵模型。這種獎勵模型主要基于兩個核心要點:一是回答的答案是否準確,即是否可通過計算規則進行檢驗;二是答案格式是否符合要求,即是否包含了思考的過程。以回答數學問題為例,若模型簡單回答正確記1分,若通過邏輯推理得出正確答案則記2分,答案錯誤記0分;在代碼生成任務中,通過編譯器運行結果判斷,符合預期記1分,編譯失敗或結果錯誤記0分,有思考過程會額外加分。與傳統依賴人類標注的方式相比,DeepSeek的評價方式更加客觀,有效避免了人類標注存在的效率和準確率問題,同時也規避了人工反饋帶來的主觀和價值觀因素影響。
創新的模型架構
在模型架構方面,DeepSeek有諸多創新。DeepSeek采取目前流行的混合專家(MoE)架構,MoE借鑒了人類大腦的工作原理。大腦的不同區域負責不同功能,如前額葉負責邏輯推理,顳葉中的梭狀回面孔區負責人臉識別、而海馬體負責記憶等。MoE架構下參數量雖大,但特定任務僅由特定的一小部分參數處理,這極大地降低了計算消耗,同時也便于對參數權重進行定向優化。此外,DeepSeek自主創新的MLA模型通過算法調整,減少了推理過程的KV Cache,降低了顯存消耗,進而提高了推理效率。這兩種架構的結合,為DeepSeek的高性能表現提供了有力支持。
軟硬件協同優化策略
雖然DeepSeek很早就建設了萬卡集群,但是與國外同行相比,規模依然不足。面對算力資源的限制,DeepSeek采用了精細的調度算法,壓榨硬件的每一分算力。傳統方式在訓練時,參數權重更新需一層一層按順序處理,存在排隊等待的情況,導致算力利用率不高。而DeepSeek的DualPipe調度算法類似于流程優化,通過合理安排前向過程、后向過程以及層間通訊,使有前后依賴的任務緊密協作,從而在最短時間內完成一輪迭代訓練。這種軟硬件協同的方式,在國產GPU算力與英偉達GPU存在差距的情況下,通過軟件優化彌補了硬件的不足,為AI產業的發展開辟了新的路徑。
DeepSeek的特點
DeepSeek的以下幾個特點,使其成為獨樹一幟的標桿。
首先,其訓練成本大幅下降,外媒報道僅需幾百萬美元,與之前動輒上億的訓練成本相比成本顯著降低。同時,通過蒸餾DeepSeek生成高質量的推理數據,再利用這些數據微調像千問、Llama等開源小模型,用極低成本大幅提升了這些小模型的性能。
其次,DeepSeek將最大規模的671B模型參數完全公開,且開源協議非常寬松,允許自由修改、復制和商業化,這消除了企業在數據安全方面的顧慮,使企業能夠放心地在自己的環境內部署私有化版本,將企業內部的文檔、技術資料甚至財務數據用于大模型的問答和應用,掃除了大模型應用的最大障礙。
因此,DeepSeek徹底顛覆了AI產業原有的商業模式,原來通過商用模型部署的業務模式因DeepSeek的出現而發生巨大改變。
DeepSeek使用經驗分享
訪問與替代方案
目前,DeepSeek提供了官網和APP供用戶使用,但是因用戶量爆棚,在使用時可能會出現不穩定的情況。在這種情況下,有一些替代方案可供選擇,如騰訊元寶和 納米搜索等。這些平臺支持全尺寸模型的問答功能,還具備聯網搜索和文件上傳等功能,在DeepSeek官網不穩定時能為用戶提供備用方案。
使用技巧與注意事項
使用DeepSeek時,打開“深度思考”開關至關重要,因為該開關關閉時使用的是V3非推理模型,而打開后則調用R1推理模型,能獲得更強大的功能。在提問方式上,相比以往復雜的提示詞工程,DeepSeek推薦使用更自然的表達方式。用戶只需專注描述問題的背景信息、明確自己的目標以及添加風格提示等,例如要求“面向初中生以魯迅風格寫一篇食品類科普文章”。此外,強烈推薦用戶閱讀清華大學出版的關于DeepSeek使用介紹的 PPT,其中詳細介紹了向DeepSeek提問的技巧,有助于用戶更好地與模型進行交互。
如何將DeepSeek用于科普創作?
科普主題發掘
DeepSeek在科普主題發掘方面具有很大的潛力。它可以在特定領域,如前沿科技、城市生活常識、當下流行的偽科學等方向,為創作者提供科普主題。同時,還能根據不同的受眾群體,生成相應的主題。例如,針對60~70歲的老人,DeepSeek會提供圍繞健康管理方面的三高管理、科學飲食,以及退休后的心理健康指南等主題;而針對青少年破除偽科學的需求,DeepSeek會提供星座算命、手機致癌、外星人綁架等新奇有趣的主題。此外,結合近期熱點新聞,DeepSeek能從熱點話題中篩選出有價值的科普主題,如根據近期小行星撞地球的熱點話題,為科普創作提供靈感。
科普內容生成
基于給定的科普主題,DeepSeek能夠為不同受眾生成針對性的科普內容。以人造太陽的科普為例,當要求為小學三年級學生創作科普文章時,它會避免使用專業術語,盡量用淺顯易懂的語言描述人造太陽的價值和功能;而當為高中三年級學生創作時,則會包含科學專業術語和相關數據,適合高中學生作為課外拓展閱讀。DeepSeek還可以生成短視頻腳本,為科普短視頻的制作提供便利。同時,在科普分級讀物方面,它具有生成不同難度文章的能力,通過難度設定可以精確匹配不同閱讀水平的需求,這對于中文科普分級讀物的發展具有重要意義。
此外,在科普訪談方面,DeepSeek可以根據訪談對象和主題,結合互聯網上的相關材料,生成定制化的訪談提綱。訪談結束后,還能根據訪談文字稿輔助生成總結文章,提高工作效率。在處理國外前沿論文時,DeepSeek可以將論文內容轉化為有趣的科普文章,在內容風格上并非機械解讀,而是結合科普宣傳的需求,吸引讀者的注意力。
拓展應用場景
DeepSeek結合其他技術,能夠拓展科普內容創作的邊界。例如,結合簡易AI自動化匹配視頻素材并進行剪輯,再結合文本生成語音(TTS)技術,可以制作完整的科普短視頻;結合豆包進行文本生成,實現圖文混排,使科普內容更具吸引力;結合Kimi等相關工具可以制作科普PPT,用于展示科普知識;結合數字人技術生成科普數字人,為中小學生或特定用戶群體介紹科普內容,這種應用在科普基地、博物館等場所具有廣闊的發展空間。
AI時代不缺好答案,而是缺好問題。提出好問題可能是人們未來需要學習、提高的重要素質。期待人工智能未來在科普內容創作領域發揮更大的價值,助力全民科學素質水平提升。
來源:科普中國
作者:董霖,浙江省科普聯合會副會長
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.