來源:PaperAgent
月之暗面 AI(Kimi)HuggingFace開源了首個(gè)模型:Moonlight-16B-A3B,超過同等參數(shù)規(guī)模的DeepSeek、Qwen、Llama模型。
Moonlight對(duì)比Qwen2.5-3B、DeepSeek V2-Lite、Llama3.2-3B
最近,基于矩陣正交化的Muon優(yōu)化器在訓(xùn)練小規(guī)模語言模型方面展現(xiàn)出了強(qiáng)大的效果,但在擴(kuò)展到更大規(guī)模模型方面的可行性尚未得到驗(yàn)證。Kimi確定了兩項(xiàng)關(guān)鍵的技術(shù)手段,用于擴(kuò)大Muon的應(yīng)用規(guī)模:
增加權(quán)重衰減,
精細(xì)調(diào)整每個(gè)參數(shù)的更新規(guī)模。
這些技術(shù)手段使得Muon能夠在大規(guī)模訓(xùn)練中直接投入使用,而無需進(jìn)行超參數(shù)調(diào)整。規(guī)模擴(kuò)展規(guī)律實(shí)驗(yàn)表明,與采用計(jì)算優(yōu)化訓(xùn)練的AdamW相比,Muon實(shí)現(xiàn)了約2倍的計(jì)算效率提升。
基于這些改進(jìn),Kimi推出了Moonlight,這是一個(gè)擁有3B/16B參數(shù)的混合專家(Mixture-of-Expert,MoE)模型,使用Muon進(jìn)行了5.7T tokens的訓(xùn)練。與以往的模型相比,以更少的 FLOPs 實(shí)現(xiàn)了更好的性能。
開源了分布式Muon實(shí)現(xiàn)版本,該版本在內(nèi)存使用上達(dá)到最優(yōu),并且通信效率很高。還發(fā)布了經(jīng)過預(yù)訓(xùn)練、指令微調(diào)以及中間checkpoints的模型,以支持未來的研究工作。
https://hf-mirror.com/moonshotai/Moonlight-16B-A3B-Instruct
https://hf-mirror.com/moonshotai/Moonlight-16B-A3B
https://github.com/MoonshotAI/Moonlight
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.