業(yè)內(nèi)首次彩云科技發(fā)布基于DCFormer架構通用大模型云錦天章

2024-11-14 14:08:02　來源: 了不起的程序員

陜西舉報

分享至

2017年，谷歌發(fā)布《Attention Is All You Need》論文，首次提出Transformer架構，掀開了人工智能自然語言處理（NLP）領域發(fā)展的全新篇章。

Transformer架構作為神經(jīng)網(wǎng)絡學習中最重要的架構，成為后來席卷全球的一系列通用大模型如ChatGPT、Gemini的底層技術支撐。而提升Transformer的運行效率也成為人工智能領域的研究熱點，2024年4月，谷歌最近一次更新了Transformer架構，提出了Mixture-of-Depths（MoD）方法，使得訓練后采樣過程中提速50%，成為Transformer架構提速升級的又一重要事件。

同樣在今年，一家來自國內(nèi)的人工智能企業(yè)彩云科技，在國際機器學習領域的頂級會議ICML（國際機器學習大會）上，發(fā)布全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》。

在該論文中，彩云科技團隊首次發(fā)布DCFormer架構，并在基于DCFormer打造的模型DCPythia-6.9B上，實現(xiàn)了在預訓練困惑度和下游任務評估上都優(yōu)于開源Pythia-12B。這意味著，DCFormer模型在性能上，實現(xiàn)了對Transformer模型1.7-2倍的提升。

11月13日，彩云科技在北京總部與媒體進行一場主題為“From Paper to App”的溝通會。

會上，彩云科技CEO袁行遠，就通用大模型未來進化之路，與人工智能的落地場景等熱點話題進行了交流。并正式推出了首款基于DCFormer架構開發(fā)的通用大模型云錦天章，與此同時，彩云科技旗下AI RPG平臺彩云小夢，也成為首款基于DCFormer架構開發(fā)的AI產(chǎn)品。

只有模型效率和智能度提升

才能實現(xiàn)真正的AGI

溝通會現(xiàn)場，袁行遠首先向參會者展示了一個ChatGPT o1的問答：“假設ChatGPT4每天響應用戶約2億個請求，消耗超過50萬千瓦時的電力。假設全球網(wǎng)絡都使用ChatGPT作為訪問入口，ChatGPT每天消耗多少電力？另外按照這個速度發(fā)展下去，到2050年全球人工智能的耗電量會達到目前地球發(fā)電能力的多少倍？”ChatGPT o1給出的答案是，“到2050年，全球人工智能的耗電量可能會達到目前地球發(fā)電能力的8倍”。

同樣的問題，在今年2月份的世界政府峰會上，英偉達CEO黃仁勛有更為夸張的表述，“假設計算機的速度永遠不會變快，我們可能需要14個不同的行星、3個不同星系、4個太陽為這一切（AI）提供燃料?！盇I對能源的強大需求在業(yè)內(nèi)已經(jīng)是共識，英偉達致力于通過提升硬件來提升AI效率，降低能耗；而袁行遠則認為，改善大模型底層架構，提升人工智能運行效率，是改變AI能源困局的更優(yōu)路徑。

“Scaling Law告訴我們，隨著算力的提升，模型更大、數(shù)據(jù)更多，模型效果會越來越好，但與之相應的，能耗也會越來越高，在Scaling Law失效，人工智能實現(xiàn)之前，或許我們地球的能源就已經(jīng)無法支撐了?！?/p>

袁行遠表示，“沒有效率的提升，AI就是鏡花水月?！?/strong>

彩云科技團隊構建DCFormer框架，提出可動態(tài)組合的多頭注意力（DCMHA），替換Transformer核心組件多頭注意力模塊（MHA），解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定，讓它們可以根據(jù)輸入動態(tài)組合，從根本上提升了模型的表達能力，由此實現(xiàn)了對Transformer架構1.7—2倍的性能提升。

今年的ICML會議上，彩云科技團隊的3篇論文，在錄用平均分為4.25-6.33的情況下，獲得平均7分的高分，并成為國內(nèi)唯二受邀參加維也納ICML 2024登臺演講的企業(yè)，另一家則是華為。

袁行遠表示：我們的工作表明，Transformer架構距離“理想模型架構”還有很大的提升空間，除了堆算力堆數(shù)據(jù)的“大力出奇跡”路線，模型架構創(chuàng)新同樣大有可為。往小了說，在大模型領域，利用效率更高的模型架構，小公司也可以在與世界頂級人工智能企業(yè)的對抗中取得優(yōu)勢。往大了說，模型效率的提升，可以有效地降低人工智能升級迭代的成本，加速AI時代的到來。

云錦天章問世

首個基于DCFormer架構的通用大模型

作為國內(nèi)最早做LLM（大語言模型）的公司之一，彩云科技在2017年就已經(jīng)開始做NLP和大模型方面的工作。目前，彩云科技旗下有彩云天氣、彩云小夢、彩云小譯三款面向C端用戶的AI產(chǎn)品，是國內(nèi)為數(shù)不多能夠實現(xiàn)盈利的人工智能公司。

“世界最強的小說續(xù)寫通用模型?！?/strong>溝通會上，袁行遠向大家展示了首個基于DCFormer架構的通用大模型云錦天章。“這個成語是比喻文章極為高雅、華美，和我們的大模型想要實現(xiàn)的效果有共通之處?！痹羞h介紹，云錦天章可以實現(xiàn)在虛構世界觀的基礎上，賦予小說人物編程、數(shù)學等基礎能力，可以高速針對大量文字進行擴寫、縮寫，針對文章風格進行大容量更換，同時兼具其他模型的問答、數(shù)學、編程等基礎能力。

而在應用端，擁有四百萬用戶的彩云小夢，也迎來了基于全新DCFormer架構的V.3.5版本。與之前的版本相比，彩云小夢V3.5整體流暢性和連貫性提升了20%，支持前文長度由2000字提升至10000字，故事背景設定最長長度高達10000字。

“這意味著，在故事創(chuàng)作或者與人工智能對話中，人工智能能夠記住之前發(fā)生的事情，記住之前故事里發(fā)生的細節(jié)，人物記得自己明確的目標，并且會根據(jù)劇情及時進行反思修正。在做到自主創(chuàng)作的同時，發(fā)散性收斂，不會天馬行空，人物性格前后一致，故事邏輯性更強。”

“深度對話，超長記憶，邏輯清晰?！痹羞h總結彩云小夢V3.5的特征，“我們的目標是為用戶打造指尖伴侶定制夢境?！?/strong>

袁行遠表示，彩云小夢的用戶單次使用時長，累計使用時長在同類產(chǎn)品中都處于遙遙領先的地位，“對話超過400句，你會發(fā)現(xiàn)彩云小夢真正的魅力。”

袁行遠介紹，公司接下來將繼續(xù)加大對DCFormer的研究和投入：“一方面有打破‘國外做技術層，國內(nèi)做應用層’刻板印象的情懷所在，一方面也是為公司自有產(chǎn)品應對市場競爭，實現(xiàn)快速迭代升級和能力領先的現(xiàn)實需要。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關推薦

熱點推薦

企業(yè)落地AI，只靠DeepSeek還不夠

虎嗅APP 2025-03-11 20:52:07
3 跟貼 3

10分鐘教你機器學習建模的6大步驟

醫(yī)咖會 2025-03-14 19:53:09
0 跟貼 0

后Transformer時代，AI將何去何從？（下）｜【十萬字】深度研報

鈦媒體APP 2025-01-01 20:46:37
0 跟貼 0

Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0

大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0

AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0

上交基于AI開發(fā)多感官反饋系統(tǒng)及硬件，建立人機協(xié)同空間認知范式

DeepTech深科技 2025-04-24 23:02:43
0 跟貼 0

宇樹機器人復雜環(huán)境穩(wěn)定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
263 跟貼 263

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

4o生圖前端效果騙了太多人，網(wǎng)友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0

零基礎入門Python機器學習，復現(xiàn)多個頂刊案例！

醫(yī)咖會 2025-01-08 19:56:07
2 跟貼 2

研發(fā)自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0

老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0

o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0

人人都能做開發(fā)者！連小學生都能輕松上手的0代碼開發(fā)平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0

面對AI應用落地難題，垂類大模型是突圍關鍵

量子位 2025-04-24 11:58:32
0 跟貼 0

單圖生成14秒吉卜力動畫，分享制作過程

量子位 2025-04-08 18:23:02
0 跟貼 0

大模型如何讓智能硬件有腦有腳、聽話能干？

36氪 2025-01-26 10:30:50
0 跟貼 0

百度李彥宏：如果沒有應用，DeepSeek等 AI 模型和芯片都沒有價值｜鈦媒體AGI

鈦媒體APP 2025-04-25 11:32:20
0 跟貼 0

華為云將發(fā)布盤古行業(yè)推理大模型；商業(yè)航天創(chuàng)新聯(lián)合體成立｜數(shù)智早參

每日經(jīng)濟新聞 2025-04-25 08:14:19
0 跟貼 0

諾獎得主辛頓：AI時代醫(yī)療領域會催生更多崗位！

盧菁老師 2025-04-23 17:18:38
0 跟貼 0

史上最大人肉機械臂，能拿東西還能做復雜手勢

量子位 2025-03-29 17:36:24
0 跟貼 0

北約戰(zhàn)斗機首次空戰(zhàn)勝利！美軍F-16擊落6架南斯拉夫攻擊機！

大國說軍武 2025-04-24 21:49:59
697 跟貼 697

微軟發(fā)布首個開源2B參數(shù)規(guī)模原生1bit LLM：BitNet，單CPU就能跑

量子位 2025-04-23 16:13:42
0 跟貼 0

HSD能像人一樣思考？在上海街頭體驗未來駕駛的神級操作

量子位 2025-04-19 11:43:06
1 跟貼 1

騰訊如何用AI幫汽車練成超級大腦？

量子位 2025-04-25 10:33:54
0 跟貼 0

醫(yī)學預測模型方法這么多，我該選擇哪一個？

醫(yī)咖會 2024-11-05 19:43:47
0 跟貼 0

全球最小飛行機器人，直徑不到1cm，僅靠磁場驅動起飛

量子位 2025-04-22 23:35:16
8 跟貼 8

常見機器學習算法

倪云華 2025-04-22 15:52:20
0 跟貼 0

AI版貓和老鼠：1分鐘一鏡到底，無后期無拼接

量子位 2025-04-11 09:06:11
6 跟貼 6

程序員把鴿子接入互聯(lián)網(wǎng)，帶寬爆表

量子位 2025-04-01 11:27:40
0 跟貼 0

AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0

十幾萬人圍觀的AI課：打造全自動Web Agent

量子位 2025-04-21 22:37:59
0 跟貼 0

都是國產(chǎn)CPU，能做到“無感切換”的為啥只有C86

量子位 2025-04-21 21:38:46
0 跟貼 0

o3在大模型智商測試中奪冠，高達132

量子位 2025-04-24 17:00:54
0 跟貼 0

為什么HSD能像人一樣思考？答案藏在地平線“軟硬結合”的密碼里

量子位 2025-04-19 11:13:10
0 跟貼 0

星動XHAND1五指靈巧手技能升級，最大負載近25公斤

量子位 2025-04-09 19:46:34
0 跟貼 0

1個表情背后能藏一篇文章，emoji讓推理模型大翻車

量子位 2025-02-23 12:06:20
0 跟貼 0

指速之王！星動紀元XHAND電競手，行業(yè)首創(chuàng)全直驅OG

量子位 2025-04-09 19:36:24
0 跟貼 0

AI取代重復性音樂工作，讓真正的創(chuàng)作者化繁為簡

量子位 2025-04-18 20:54:00
0 跟貼 0

黑龍江“蛇女”劉玉平：06年收留一條蛇，隔天拖家?guī)Э谝蛔?7年
我是斌哥哥
2024-04-25 17:04:39

浙江麗水一小區(qū)出現(xiàn)“石頭陣”？多位業(yè)主投訴，物業(yè)報警6次？當?shù)厣鐓^(qū)回應
封面新聞
2025-04-24 00:23:25

品牌服裝模特“饅頭”去世！年僅34歲渾身肌肉，友人曝細節(jié)太惋惜
裕豐娛間說
2025-04-24 09:25:02

你無意間摸到過什么不該摸的東西！網(wǎng)友看過全部笑岔氣了
解讀熱點事件
2025-01-13 01:34:06

猿輔導武漢公司一員工猝死，死者親屬：他原計劃5月2日舉行婚禮
華商網(wǎng)
2025-04-25 10:39:23

馬琳當年有多強？張繼科：打法很落后，卻是神一樣的存在！
十點街球體育
2025-04-25 00:10:03

“最佳睡眠時間”出爐！研究發(fā)現(xiàn)：早睡晚睡都折壽，這個時間最好！
腫瘤的真相與誤區(qū)
2025-03-12 14:46:53

梅西連續(xù)讓第三個客場上座數(shù)破隊史紀錄！
氧氣是個地鐵
2025-04-24 20:27:15

中方當眾宣布，歡迎印度總理來華，選中國還是選美國，莫迪懂了
盤觀前沿
2025-04-24 14:15:31

76年軍區(qū)副司令病逝，組織查檔案發(fā)現(xiàn)：中央從未下達過副司令任命
紅儒
2025-04-18 17:41:21

玥兒生日這天，黃春梅小s沉默，沒祝福沒文案，也沒有愛屋及烏
阿鳧愛吐槽
2025-04-24 22:51:25

美記：首節(jié)沃特森+威少同時在場輸了12分很意外阿德爾曼會這么排
直播吧
2025-04-25 10:58:06

關于王祖賢女士出席第十屆國際灸法大會的特別說明
新華日報健康
2025-04-23 23:32:33

董明珠公開“凌遲”小米：總揪著雷軍不放，是情商低還是輸不起？
說故事的阿襲
2025-04-25 06:50:58

“國情” 這個詞越來越讓人無語
花小萌和你聊情感
2025-04-25 07:21:29

內(nèi)塔尼亞胡：如不滅了哈馬斯，下一個10月7日只是時間問題
桂系007
2025-04-20 19:44:12

德媒：阿隆索對未來規(guī)劃猶豫不決導致藥廠高層不滿，已給他下最后通牒
雷速體育
2025-04-24 20:40:26

中國增持235億美債,特朗普松了一口氣,美經(jīng)濟學家：中國另有目的
寫了個錘錘
2025-04-24 20:53:13

你是咋判斷孩子聰明與否的？網(wǎng)友：看數(shù)學成績就知道了
解讀熱點事件
2025-04-23 00:10:09

章澤天恐怕要睡不著了！劉強東最男人的一面被大家發(fā)現(xiàn)了！太搶手
小娛樂悠悠
2025-04-25 06:50:03

2025-04-25 11:56:49

了不起的程序員

平凡的人也能做了不起的事

512文章數(shù) 1663關注度

往期回顧全部

科技要聞

這屆上海車展，沒人靠流量活著

中國制造卡住蘋果"印度夢"：關鍵設備出海難

AI智能體3大失控場景正在逼近

3.99萬"白菜價"，人形機器人半馬亞軍爆單

智駕宣傳急剎車，有廠商連夜改傳播物料

頭條要聞

媒體：中方表態(tài)直接戳破特朗普謊言有一段話值得品味

牛彈琴：形勢很危險中國兩個重要鄰國又到了戰(zhàn)爭邊緣

中央巡視組進駐后女副廳黃崢嶸主動向組織交代問題

媒體：日本又打了個樣妥協(xié)讓步?jīng)]換來美國的高抬貴手

男子被打致偏癱20個月后死亡年僅27歲兇手獲刑1年半

頭條要聞

媒體：中方表態(tài)直接戳破特朗普謊言有一段話值得品味

牛彈琴：形勢很危險中國兩個重要鄰國又到了戰(zhàn)爭邊緣

中央巡視組進駐后女副廳黃崢嶸主動向組織交代問題

媒體：日本又打了個樣妥協(xié)讓步?jīng)]換來美國的高抬貴手

男子被打致偏癱20個月后死亡年僅27歲兇手獲刑1年半

體育要聞

名記:梅西將續(xù)約2年近10%股權比肩小貝

暴漲4500萬！莫布里拿下DPOY 5年2.24億合同秒變5年2.69億！

MVP最大熱門！亞歷山大拿到了一張DPOY第二選票并列排名第10

哈登：人生有幾個第一次？今天Intuit Dome首場季后賽沖就完了！

火爆！布倫森惡犯插眼睛唐斯推奧薩爾流血+與里德米羅沖突3人吃T

娛樂要聞

S家再被打臉！葛斯齊爆料一針見血

黃一鳴甩重錘，曝聊天記錄。王思聰百口莫辯！

謝霆鋒演唱會首日，奚夢瑤曬現(xiàn)場照表白偶像

31歲董子健再破天花板：他讓整個娛樂圈“沉默”

鹿晗3次下跪求婚被拒！關母稱30歲前結婚賠10億

財經(jīng)要聞

王興注定“永無寧日”

特朗普考慮對華關稅分級方案

馬斯克隱退 “政府效率部”面臨大換血

發(fā)改委：設立國家創(chuàng)業(yè)投資引導基金

午評：創(chuàng)業(yè)板指半日漲超1% 房地產(chǎn)、電力股集體走強

汽車要聞

限時優(yōu)惠價29.98萬元 BJ40增程赤兔版上海車展發(fā)布

歷史與未來共馳保時捷攜文化名車與新車亮相車展

500Bar超高壓直噴+電動尾翼長安UNI-V車展亮相

6月預售 7月上市零跑B01車展正式亮相

節(jié)能更性能吉利雷達超級電混皮卡亮相上海車展

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

教育

健康

公開課

本地新聞

云游湖北 | 漢川文旅新體驗：千年陶藝邂逅湖光

云游湖北 | 澴川醉古今！孝文化名城藏了多少寶藏？

云游湖北 | 七仙女都愛的山水，雙峰米酒一口上頭

云游湖北｜相約安陸，解鎖限定版粉色春天

穿了十年仍然心動的裙子，它算一條

腰帶，除了顯瘦，更能顯高！

懶人超愛的8樣入夏好物！最低只要個位數(shù)！

今年流行“洋蔥式”穿法，這樣穿減齡又好看！

教育要聞

2025年度全國教育科學規(guī)劃教育考試研究專項指南

梁老師的「撿漏秘籍」核物理專業(yè)，雙非生的逆襲賽道打破偏見

新華視評｜優(yōu)化閱讀供給，讓青少年愛上讀書

高考地理中的水上雅丹

【技巧】高考地理熱點·重點·難點11 交通運輸與中國新基建

唇皰疹和口腔潰瘍是"同伙"嗎？

男子挖鼻孔進手術室！鼻子癢應當這樣做

每天走多少步合適？運動養(yǎng)生要“適度”

奶茶中有沒有“科技與狠活”？教你識別

感冒還是過敏性鼻炎？醫(yī)生教你3分鐘自測

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻

為什么人類有不同的膚色？

全球十大恐怖禁區(qū)有哪些？

李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

業(yè)內(nèi)首次 彩云科技發(fā)布基于DCFormer架構通用大模型云錦天章

這屆上海車展，沒人靠流量活著

媒體：中方表態(tài)直接戳破特朗普謊言 有一段話值得品味

媒體：中方表態(tài)直接戳破特朗普謊言 有一段話值得品味

名記:梅西將續(xù)約2年 近10%股權比肩小貝

S家再被打臉！葛斯齊爆料一針見血

王興注定“永無寧日”

限時優(yōu)惠價29.98萬元 BJ40增程赤兔版上海車展發(fā)布

態(tài)度原創(chuàng)

云游湖北 | 漢川文旅新體驗：千年陶藝邂逅湖光

穿了十年仍然心動的裙子，它算一條

2025年度全國教育科學規(guī)劃教育考試研究專項指南

唇皰疹和口腔潰瘍是"同伙"嗎？

業(yè)內(nèi)首次彩云科技發(fā)布基于DCFormer架構通用大模型云錦天章

媒體：中方表態(tài)直接戳破特朗普謊言有一段話值得品味

媒體：中方表態(tài)直接戳破特朗普謊言有一段話值得品味

名記:梅西將續(xù)約2年近10%股權比肩小貝

S家再被打臉！葛斯齊爆料一針見血

穿了十年仍然心動的裙子，它算一條