由 DeepMind 前產品經理谷歌資深工程師聯手創立的美國初創公司 Deep Cogito 近日正式結束“隱身”狀態,發布了其首個開源大型語言模型系列——Cogito v1。該系列模型的核心亮點在于其創新的“混合”架構,允許模型在需要快速響應的標準模式和需要深度思考的推理模式之間靈活切換,旨在以更高效的方式應對不同復雜度的任務。
(來源:Deep Cogito)
和 Claude 3.7 以及未來的 GPT-5 一樣,Cogito v1 系列模型也結合了標準(非推理)組件和推理組件。這意味著模型在面對簡單、直接的問題時,可以迅速給出答案;而在遇到需要深入分析的復雜查詢時,則能“切換”到推理模式,投入更多計算資源進行思考和自我反思,從而生成更高質量的回復。
Deep Cogito 本次發布了基于 Meta 的 Llama 和阿里巴巴 Qwen 預訓練模型進行微調的 Cogito v1 系列,涵蓋了 3B、8B、14B、32B 和 70B 五種參數規模,所有模型均已開源(項目地址:https://huggingface.co/deepcogito)。
Deep Cogito 的核心創新在于其采用的訓練方法——迭代蒸餾與放大(IDA,Iterated Distillation and Amplification)。公司在其官方介紹中指出,當前大模型訓練范式往往受限于“監督者”(無論是人類標注者還是更強大的教師模型)的能力上限。為了突破這一限制,實現真正的超人智能(Superintelligence),模型需要具備超越監督者的自我改進能力。
IDA 正是為此設計的一種策略,其靈感部分來源于 DeepMind AlphaGo 的“自對弈”機制,并將其應用于自然語言處理。該方法包含一個核心的循環過程:首先通過“放大”步驟,利用更多計算資源(例如,讓模型進行更長時間的思考或調用子程序)來生成一個比模型當前能力更優的解決方案或推理過程;接著,在“蒸餾”步驟中,將這個通過額外計算獲得的、更高質量的“思考過程”及其結果,“提煉”并內化回模型自身的參數中。
通過不斷重復這兩個步驟,模型在每次迭代中自我提升,其能力邊界逐漸由可用的計算資源和 IDA 方法的效率決定,而非受限于最初的監督者水平。Deep Cogito 表示,采用 IDA 方法,一個小型團隊僅用約 75 天就開發出了 Cogito v1 系列模型,這顯示了該方法在時間和資源效率上的優勢,尤其相較于傳統的基于人類反饋的強化學習或直接從更大模型蒸餾的方法。
在性能表現方面,根據公司發布的基準測試結果,所有尺寸的 Cogito 模型在標準模式下已經超越同等規模的開源對手,而在啟用推理模式后性能進一步提升。具體來看,Cogito 3B 模型在 MMLU 測試中的得分比 Llama 3.2 3B 高出 6.7 個百分點(65.4% vs. 58.7%),在 Hellaswag 測試中高出 18.8 個百分點(81.1% vs. 62.3%);在啟用推理模式后,MMLU 成績進一步提升至 72.6%,ARC 達到 84.2%。
Cogito 8B 模型在 MMLU 測試中得分達 80.5%,超過 Llama 3.1 8B 模型 12.8 個百分點;在 MMLU-Pro 上領先超過 11 個百分點,ARC 測試達到 88.7%。啟用推理模式后,MMLU 成績提升至 83.1%,ARC 達到 92.0%,在幾乎所有類別上都超過了 DeepSeek R1 Distill 8B,除了在 MATH 基準測試中 Cogito 得分較低(60.2% vs. 80.6%)。
(來源:Deep Cogito)
中型模型方面,Cogito 14B 和 32B 模型在綜合基準測試中比 Qwen2.5 同等規模模型高出約 2-3 個百分點,其中 Cogito 32B 在推理模式下 MMLU 達到 90.2%,MATH 基準測試達到 91.8%。
最大的 70B 模型表現也可圈可點,Cogito 70B(標準模式)在 MMLU 測試中比 Llama 3.3 70B 高出 6.4 個百分點(91.7% vs. 85.3%),在綜合基準測試得分上超過 Llama 4 Scout 109B 模型(54.5% vs. 53.3%)。與 DeepSeek R1 Distill 70B 相比,Cogito 70B(推理模式)在通用和多語言基準測試中表現更強,MMLU 達到 91.0%,MGSM 達到 92.7%。
(來源:Deep Cogito)
除了一般基準測試外,Deep Cogito 還評估了其模型在原生工具調用方面的表現。結果顯示,Cogito 3B 原生支持四種工具調用任務(簡單、并行、多重和并行多重),而 Llama 3.2 3B 不支持工具調用。Cogito 3B 在簡單工具調用上得分達 92.8%,在多重工具調用上超過 91%。Cogito 8B 在所有工具調用類型上得分超過 89%,明顯優于 Llama 3.1 8B(35% 至 54% 之間)。
關于公司背景,Deep Cogito 于 2024 年 6 月在美國加州注冊成立,總部位于舊金山。根據其 LinkedIn 頁面和相關報道,公司由兩位聯合創始人領導:CEO Drishan Arora 曾是谷歌的高級軟件工程師,曾領導谷歌生成式搜索產品的大模型建模工作;另一位創始人 Dhruv Malhotra 曾在谷歌 AI 實驗室 DeepMind 擔任產品經理,負責生成式搜索技術。而這家公司的名稱 Deep Cogito,也很難不讓人去遐想其與 DeepMind 的關系(Cogito 是拉丁語 Cogitare 的第一人稱形式,意為“我思考”)。
公司目前已經獲得了包括 South Park Commons 在內的風投支持,目標是打造“通用超級智能”(general superintelligence)——能夠在大多數領域優于人類并有能力發現我們尚未想象的全新能力的 AI 系統。他們將 IDA 視為實現這一目標的有效路徑,因為它有望擺脫對人類智慧上限的依賴,實現可擴展的自我完善。
Deep Cogito 計劃在未來幾周或幾個月內發布更大規模的模型,包括參數量達到 109B、400B 和 671B 的混合專家模型(MoE,Mixture of experts)。同時,他們將繼續通過延長訓練周期來更新現有模型的檢查點,并持續探索 IDA 及其他互補的后訓練自我改進方法。
參考資料:
1.https://www.deepcogito.com/research/cogito-v1-preview
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.