剛剛騰訊正式推出了推理模型混元-T1!它基于3月初發布的業界首個超大規模 Hybrid-Transformer-Mamba MoE 大模型 TurboS 快思考基座打造!
簡單來說,基于TurboS的T1就是為了解決大模型推理的痛點而生的:
?長文理解能力: TurboS 能有效捕捉長文本信息,告別“上下文丟失”的尷尬,長距離依賴問題也輕松搞定!
?Mamba架構加持,速度起飛: Mamba 架構專門優化了長序列處理,計算效率超高!相同條件下,解碼速度直接快2倍
據騰訊官方公告后訓練階段,96.7%的算力都砸在了強化學習上!目標只有一個:極致提升模型的推理能力!對齊人類偏好!
為了練好T1的“腦子”, 混元團隊也是下了血本:
世界級理科難題喂飽: 數學、邏輯推理、科學、代碼...各種硬核難題,從基礎到復雜,應有盡有!還結合真實反饋,確保模型“真材實料”
“課程學習”+“上下文長度階梯式擴展”: 就像給學生上課一樣,難度循序漸進,同時逐步提升模型的“閱讀理解”能力,讓模型更高效地利用tokens進行推理
經典RL策略加持,訓練更穩: 數據回放、階段性策略重置... 這些經典RL“秘籍”讓模型訓練穩定性提升50%以上!穩扎穩打,才能步步為營!
Self-rewarding + Reward Model 雙管齊下,更懂人類心意: 用早期版本的T1-preview 給模型打分,再結合 reward model 反饋,引導模型自我提升!結果就是:回復內容更豐富,信息更高效!更貼心,更懂你!
性能:對標R1,部分能力還略勝一籌
混元-T1 在各種權威benchmark 上,例如 MMLU-pro、CEval、AIME、Zebra Logic 等等,中英文知識和競賽級數理邏輯推理指標,基本持平甚至略超 DeepSeek R1!
在內部人工體驗集評估中,中文文案創作、文本摘要、Agent 能力等方面,T1 還略有優勢!
實測
我用制作賽朋克貪吃蛇游戲來測試了一下T1,表現一般(順便說一句,制作賽朋克貪吃蛇游戲是我測試所有推理模型比如DeepSeek R1,Grok 3,Claude 3.7,o1,o3 mini,Gemini 2.0 thinking 最常用一個測試題)
測試地址:
https://llm.hunyuan.tencent.com/#/chat/hy-t1
大家看看實測效果
這是測試結果:
參考:
https://llm.hunyuan.tencent.com/#/blog/hy-t1
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.