99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

小米首個推理大模型突然開源!股價上漲近5%

0
分享至


智東西
作者 ZeR0
編輯 漠影

智東西4月30日報道,今日,小米開源其首個推理大模型Xiaomi MiMo。其中經強化學習訓練形成的MiMo-7B-RL,在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,僅用7B參數量,得分超過了OpenAI的閉源推理模型o1-mini和阿里Qwen開源推理模型QwQ-32B-Preview。


在相同強化學習訓練數據情況下,MiMo-7B-RL在數學和代碼推理任務上均表現出色,分數超過DeepSeek-R1-Distill-7B和Qwen2.5-32B。


MiMo是新成立不久的小米大模型Core團隊的初步嘗試,4款MiMo-7B模型(基礎模型、SFT模型、基于基礎模型訓練的強化學習模型、基于SFT模型訓練的強化學習模型)均開源至Hugging Face。代碼庫采用Apache2.0許可證授權。



開源地址:https://huggingface.co/XiaomiMiMo

小米大模型Core團隊已公開MiMo的26頁技術報告。


技術報告地址:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

受此消息提振,截至午間休市,小米集團今日股價上漲4.74%,總市值1.29萬億港元(約合人民幣1.21萬億元)。


一、預訓練+后訓練,聯動提升推理能力

MiMo系列模型從零開始訓練,其推理能力的提升由預訓練和后訓練階段中數據和算法等多層面的創新聯合驅動,包括:

預訓練:核心是讓模型見過更多推理模式

  • 數據:著重挖掘富推理語料,并合成約200B tokens推理數據。


  • 訓練:采用三階段數據混合策略,逐步提升訓練難度,MiMo-7B-Base在約25T tokens上進行預訓練;受DeepSeek-V3啟發,將多token預測作為額外的訓練目標,以增強模型性能并加速推理。


▲使用MiMo-7B實現多token預測:在預訓練期間使用單個MTP層,推理階段可使用多個MTP層以獲得額外的加速

后訓練:核心是高效穩定的強化學習算法和框架

  • 算法:提出Test Difficulty Driven Reward來緩解困難算法問題中的獎勵稀疏問題,并引入Easy Data Re-Sampling 策略,以穩定強化學習訓練。
  • 數據:精選了13萬道數學和代碼題作為強化學習訓練數據,可供基于規則的驗證器進行驗證。每道題都經過仔細的清理和難度評估,以確保質量。僅采用基于規則的準確率獎勵機制,以避免潛在的獎勵黑客攻擊。
  • 框架:設計了Seamless Rollout系統,集成了連續部署、異步獎勵計算和提前終止功能,以最大限度地減少GPU空閑時間,使得強化學習訓練加速2.29倍,驗證加速1.96倍。


▲MiMo-7B-RL Seamless Rollout引擎概覽

二、7B強化學習模型,性能超過阿里32B模型和OpenAI o1-mini

小米大模型Core團隊將MiMo-7B-Base與Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等規模相當的開源基礎模型進行了比較,所有模型評估都共享相同的評估設置。

結果如圖所示,MiMo-7B-Base在所有基準和評估的k值取得了高于其他對比模型的pass@k分數。隨著k增加,MiMo-7B-Base與其他模型的分數差距穩步拉大,特別是在LiveCodeBench上。


在評估語言推理模型的BBH基準測試上,MiMo-7B-Base的分數為75.2分,比Qwen2.5-7B高出近5分。SuperGPQA基準測試結果展示出MiMo-7B-Base在解決研究生水平問題方面的出色表現。在閱讀理解基準測試DROP上,該模型的表現優于其他對比模型。


在代碼和數學推理任務中,MiMo-7B-Base的多項分數超過Llama-3.1-8B、Gemma-2-9B。

MiMo-7B-Base在支持的32K上下文長度內實現了近乎完美的NIAH檢索性能,并在需要長上下文推理的任務中表現出色,多數情況下分數都超過了Qwen2.5-7B。這些結果驗證了其在預訓練期間將多樣化數據與高質量推理模式相結合的策略的有效性。


▲RULER上的長上下文理解結果

MiMo-7B-RL在多項通用基準測試接近或超過擁有32B參數規模的QwQ-32B Preview模型,數學和代碼性能更是全面領先。


在數學基準測試AIME 2025測試、代碼基準測試LiveCodeBench v6中,MiMo-7B-RL的得分均超過OpenAI o1-mini。

MiMo-7B系列4款大模型的多項數學和代碼測試對比如下:


結語:今年大模型的三大熱點,MiMo一舉覆蓋

今年,在DeepSeek爆紅后,開源和推理迅速成為大模型領域的熱門風向。如今低調許久的小米也正式加入這一戰局。

作為國產手機頭部企業之一,小米這次開源的四款模型參數規模只有7B,小到可以滿足在端側設備上本地運行的需求,貼合了大模型的另一大趨勢——從卷參數規模轉向追求經濟高效。

通過在預訓練和后訓練過程中的多項創新聯動,MiMo-7B-Base在數學、代碼和通用任務上都展現了出色的推理能力。這項研究可以為開發更強大的推理模型提供參考。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
勢如破竹!趙心童13-5淘汰韋克林,晉級斯諾克世錦賽4強!

勢如破竹!趙心童13-5淘汰韋克林,晉級斯諾克世錦賽4強!

直播吧
2025-04-30 22:22:08
歌手海蘭阿木并沒有網上吹的那么帥!他現實中又矮又胖,引發熱議

歌手海蘭阿木并沒有網上吹的那么帥!他現實中又矮又胖,引發熱議

野山歷史
2025-04-30 09:46:12
9-11,斯佳輝打服奧沙利文,12-9贏賽點,7冠王13-9晉級沖冠

9-11,斯佳輝打服奧沙利文,12-9贏賽點,7冠王13-9晉級沖冠

全能體育柳號
2025-05-01 04:28:26
新任駐華大使戴維·珀杜:從亞洲舊友到特朗普忠實支持者|國際觀察

新任駐華大使戴維·珀杜:從亞洲舊友到特朗普忠實支持者|國際觀察

封面新聞
2025-04-30 19:49:03
受權發布|關于新冠疫情防控與病毒溯源的中方行動和立場

受權發布|關于新冠疫情防控與病毒溯源的中方行動和立場

新華社
2025-04-30 15:02:04
特大暴雨來了:12級大風沙塵暴突襲北方,更大暴雨五一假期后醞釀

特大暴雨來了:12級大風沙塵暴突襲北方,更大暴雨五一假期后醞釀

中國氣象愛好者
2025-05-01 00:01:22
史詩之戰!世錦賽威廉姆斯13-12力克希金斯 最后一顆黑球分勝負!

史詩之戰!世錦賽威廉姆斯13-12力克希金斯 最后一顆黑球分勝負!

直播吧
2025-04-30 20:48:07
協和醫學院4+4招生網頁已打不開!沒關系,所有錄取名單已保存!

協和醫學院4+4招生網頁已打不開!沒關系,所有錄取名單已保存!

小人物看盡人間百態
2025-04-30 14:38:43
現在的金晨已經不是關心她好不好看的問題了,而是很擔心她的健康

現在的金晨已經不是關心她好不好看的問題了,而是很擔心她的健康

野山歷史
2025-04-30 09:59:36
蘇杯:泰國隊腸子悔青,根本沒想到中國隊這么好打

蘇杯:泰國隊腸子悔青,根本沒想到中國隊這么好打

真理是我親戚
2025-04-30 23:02:46
大學越來越像高中了:上課不許用手機,甚至不許上廁所

大學越來越像高中了:上課不許用手機,甚至不許上廁所

貓頭鷹視頻
2025-04-30 19:59:00
又一個天龍人?博主爆料蔣依依姐姐表演中專畢業,在協和上班

又一個天龍人?博主爆料蔣依依姐姐表演中專畢業,在協和上班

逍遙史記
2025-04-30 14:18:29
13-5!趙心童六連鞭血洗韋克林,小火箭進世錦賽四強創造歷史!

13-5!趙心童六連鞭血洗韋克林,小火箭進世錦賽四強創造歷史!

世界體壇觀察家
2025-04-30 22:18:21
李兆基“家族墓園”曝光,占地很大亭臺樓閣,非常壯觀,落葉歸根

李兆基“家族墓園”曝光,占地很大亭臺樓閣,非常壯觀,落葉歸根

明月聊史
2025-04-30 13:38:22
董襲瑩執業機構突然從北京變到廊坊? 院方:不是突然變更  是去年統一辦理

董襲瑩執業機構突然從北京變到廊坊? 院方:不是突然變更 是去年統一辦理

可達鴨面面觀
2025-04-30 17:09:31
中央委員李樂成,有新職

中央委員李樂成,有新職

上觀新聞
2025-04-30 16:39:12
這也太巧了!董明珠剛拒絕海歸,教育部立馬就要加強國外學歷認證

這也太巧了!董明珠剛拒絕海歸,教育部立馬就要加強國外學歷認證

青青子衿
2025-04-30 21:21:37
看來董襲瑩的家人真的急了,也讓我們見識了什么是速度

看來董襲瑩的家人真的急了,也讓我們見識了什么是速度

魔都姐姐雜談
2025-04-30 18:57:09
剛剛!屠呦呦當選美國科學院外籍院士

剛剛!屠呦呦當選美國科學院外籍院士

全國婦聯女性之聲
2025-04-30 11:19:00
和肖醫生有婚外情的石護士長被開除,據說在國外讀書的孩子已請假

和肖醫生有婚外情的石護士長被開除,據說在國外讀書的孩子已請假

丫頭舫
2025-04-30 22:30:59
2025-05-01 06:11:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
9797文章數 116749關注度
往期回顧 全部

財經要聞

美國經濟萎縮 一季度GDP年化初值-0.3%

頭條要聞

印度宣布即日起對所有巴基斯坦航班關閉領空

頭條要聞

印度宣布即日起對所有巴基斯坦航班關閉領空

體育要聞

“魚有一條尾巴,而我有一條腿。”

娛樂要聞

災難性公關 毀掉曾黎二十年人緣積累

科技要聞

DeepSeek發布Prover-V2模型 參數量6710億

汽車要聞

智能升格滿載出發 全新攬境:再給燃油車一次機會

態度原創

藝術
家居
旅游
數碼
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

輕奢婚房 自由隨性生活

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

華碩天選 6 Pro 開售,國補后 7599 元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳泉市| 崇仁县| 化州市| 句容市| 册亨县| 遂昌县| 壶关县| 安新县| 定襄县| 阳朔县| 织金县| 沙坪坝区| 景洪市| 金塔县| 北京市| 老河口市| 安庆市| 徐水县| 华亭县| 改则县| 邵阳市| 浮梁县| 普宁市| 十堰市| 宜兴市| 左云县| 三原县| 竹溪县| 安新县| 平顶山市| 大宁县| 大冶市| 木里| 隆安县| 收藏| 纳雍县| 宝清县| 两当县| 丰城市| 孟村| 平舆县|