據(jù)å½åšç¤¾æ´å¼•知情人士消æ¯ç¨±ï¼ŒèžžèŸ»é›†åœ˜(tuán)使用ä¸åœ‹åˆ¶é€ çš„åŠå°Ž(dÇŽo)體開發(fÄ)了一種訓(xùn)ç·´ AI 模型的新技術(shù),能將相關(guÄn)æˆæœ¬é™ä½Žç´„ 20%。
消æ¯äººå£«è¡¨ç¤ºï¼ŒèžžèŸ»é›†åœ˜(tuán)在訓(xùn)練模型時采用了包括阿里巴巴和è¯ç‚ºåœ¨å…§(nèi)的國產(chÇŽn)芯片,并使用了一種å為「專家混åˆã€ï¼ˆMixture of Experts,MoE)的機(jÄ«)器å¸(xué)ç¿’(xÃ)方法。
據(jù)稱,這種訓(xùn)練方法å–得了與英å‰é”(dá) H800 ç‰èŠ¯ç‰‡ç›¸ç•¶(dÄng)?shù)男ЧîŽ?/p>
å…¶ä¸ä¸€ä½çŸ¥æƒ…人士é€éœ²ï¼ŒèžžèŸ»ç›®å‰ä»åœ¨ä½¿ç”¨è‹±å‰é”(dá)的芯片進(jìn)行 AI 開發(fÄ),但在最新的模型ä¸ï¼Œä¸»è¦ä¾è³´çš„æ˜¯ä¾†è‡ª AMD å’Œä¸åœ‹å» 商的替代芯片。
具體來說,螞蟻集團(tuán) CTOã€å¹³è‡ºæŠ€è¡“(shù)事æ¥(yè)群總è£ä½•å¾å®‡å¸¶é ˜(lÇng) Ling Team 團(tuán)隊(duì)ï¼Œæ‰“é€ äº†å…©æ¬¾é–‹æº MoE 模型:Ling-Lite å’Œ Ling-Plus。
å‰è€…åƒæ•¸(shù)è¦(guÄ«)模為 168 億,åŽè€…åƒæ•¸(shù)è¦(guÄ«)模高é”(dá) 2900 億。
公開論文顯示,技術(shù)團(tuán)隊(duì)在模型é (yù)訓(xùn)練階段使用較低è¦(guÄ«)æ ¼çš„ç¡¬ä»¶ç³»çµ±(tÇ’ng),將計(jì)ç®—æˆæœ¬ï¼ˆ 635 è¬å…ƒäººæ°‘å¹£/è¬å„„ Token)é™ä½Žç´„ 20%,é”(dá) 508 è¬å…ƒäººæ°‘幣,但模型性能å»èƒ½èˆ‡ Qwen2.5-72B-Instruct å’Œ DeepSeek-V2.5-1210-Chat 相媲美。
ä¸éŽï¼Œè«–æ–‡ä¸ä¹ŸæŒ‡å‡ºï¼Œå³ä½¿æ˜¯ç¡¬ä»¶æˆ–模型çµ(jié)æ§‹(gòu)çš„å¾®å°æ”¹å‹•,也å¯èƒ½å¼•發(fÄ)å•題,比如導(dÇŽo)致模型的錯誤率çªç„¶ä¸Šå‡ã€‚
æ¤å¤–,知情人士稱,螞蟻計(jì)劃使用這兩個新模型在醫(yÄ«)療和金èžé ˜(lÇng)域æä¾› AI æœå‹™(wù)。
é™„ä¸Šè«–æ–‡å ±(bà o)é“地å€ï¼š
https://arxiv.org/abs/2503.05139
ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§(nèi)容(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§(nèi))為自媒體平臺“網(wÇŽng)易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼(fÄ)布,本平臺僅æä¾›ä¿¡æ¯å˜å„²æœå‹™(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.