騰訊混元團隊發布了他們最新的力作——Hunyuan-TurboS,首個混合Transformer-Mamba MoE架構的超大模型
大家都知道,傳統Transformer模型在處理長文本時一直面臨挑戰,O(N2)的復雜度以及KV-Cache問題讓長文本訓練和推理效率大打折扣。 而這次,混元-TurboS巧妙地融合了Mamba和Transformer兩種架構的優勢:
?Mamba的高效長序列處理能力
?Transformer強大的上下文理解能力
強強聯合,效果自然驚艷!
官方數據顯示,Hunyuan-TurboS在多個關鍵benchmark上表現出色:
?數學、推理、對齊能力超越或持平GPT-4o-0806、DeepSeek-V3以及各類開源模型。
?知識能力同樣突出,在MMLU-Pro等專業評測中也具備競爭力
Hunyuan-TurboS的推理成本相比之前的Turbo模型降低了整整7倍! 性能提升的同時,成本大幅下降
為了進一步提升模型能力,混元團隊還對TurboS進行了多項后訓練優化:
? 引入慢思考(Slow-thinking)集成,顯著提升了模型在數學、編程和推理任務上的表現。
? 通過精細化的指令調優,增強了模型的對齊性和Agent執行能力。
? 進行了英語訓練優化,從而提升模型的通用性能。
除了模型架構和訓練優化,混元團隊還升級了獎勵系統:
? 采用基于規則的評分和一致性驗證,保證模型輸出的質量和可靠性。
? 引入代碼沙箱反饋,大幅提升模型在STEM領域的準確性。
? 使用生成式獎勵,優化模型在問答和創意性任務上的表現,并有效減少獎勵作弊現象
Mamba 是一種新型的狀態空間模型 (State Space Model, SSM)。 簡單來說,你可以把它理解為一種更高效處理長序列數據的模型架構, 它主要為了解決 Transformer 模型在處理長序列時效率低下的問題而提出的
Mamba 是由 Albert Gu (卡耐基梅隆大學)和 Tri Dao(普林斯頓大學) 兩位研究人員主導開發的
Mamba 的創新之處在于它引入了“選擇性狀態空間 (Selective State Spaces)” 的概念。 簡單來說,Mamba 模型中的 SSM 參數不再是固定的,而是會根據輸入的內容動態變化。 這樣一來,模型就能根據當前處理的token,有選擇性地記住或遺忘信息,從而更好地進行內容相關的推理
此外,Mamba 的設計也考慮了硬件效率,它在保持類似循環神經網絡 (RNN) 的結構的同時,還能進行并行計算,這使得 Mamba 在推理速度上比 Transformer 更快(約快 5 倍)。 而且,Mamba 的計算復雜度是線性于序列長度的,這意味著處理更長的序列也不會顯著增加計算負擔
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.