99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

業(yè)內(nèi)首次 彩云科技發(fā)布基于DCFormer架構通用大模型云錦天章

0
分享至


2017年,谷歌發(fā)布《Attention Is All You Need》論文,首次提出Transformer架構,掀開了人工智能自然語言處理(NLP)領域發(fā)展的全新篇章。

Transformer架構作為神經(jīng)網(wǎng)絡學習中最重要的架構,成為后來席卷全球的一系列通用大模型如ChatGPT、Gemini的底層技術支撐。而提升Transformer的運行效率也成為人工智能領域的研究熱點,2024年4月,谷歌最近一次更新了Transformer架構,提出了Mixture-of-Depths(MoD)方法,使得訓練后采樣過程中提速50%,成為Transformer架構提速升級的又一重要事件。

同樣在今年,一家來自國內(nèi)的人工智能企業(yè)彩云科技,在國際機器學習領域的頂級會議ICML(國際機器學習大會)上,發(fā)布全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》。

在該論文中,彩云科技團隊首次發(fā)布DCFormer架構,并在基于DCFormer打造的模型DCPythia-6.9B上,實現(xiàn)了在預訓練困惑度和下游任務評估上都優(yōu)于開源Pythia-12B。這意味著,DCFormer模型在性能上,實現(xiàn)了對Transformer模型1.7-2倍的提升。

11月13日,彩云科技在北京總部與媒體進行一場主題為“From Paper to App”的溝通會。

會上,彩云科技CEO袁行遠,就通用大模型未來進化之路,與人工智能的落地場景等熱點話題進行了交流。并正式推出了首款基于DCFormer架構開發(fā)的通用大模型云錦天章,與此同時,彩云科技旗下AI RPG平臺彩云小夢,也成為首款基于DCFormer架構開發(fā)的AI產(chǎn)品。


只有模型效率和智能度提升

才能實現(xiàn)真正的AGI

溝通會現(xiàn)場,袁行遠首先向參會者展示了一個ChatGPT o1的問答:“假設ChatGPT4每天響應用戶約2億個請求,消耗超過50萬千瓦時的電力。假設全球網(wǎng)絡都使用ChatGPT作為訪問入口,ChatGPT每天消耗多少電力?另外按照這個速度發(fā)展下去,到2050年全球人工智能的耗電量會達到目前地球發(fā)電能力的多少倍?”ChatGPT o1給出的答案是,“到2050年,全球人工智能的耗電量可能會達到目前地球發(fā)電能力的8倍”。

同樣的問題,在今年2月份的世界政府峰會上,英偉達CEO黃仁勛有更為夸張的表述,“假設計算機的速度永遠不會變快,我們可能需要14個不同的行星、3個不同星系、4個太陽為這一切(AI)提供燃料?!盇I對能源的強大需求在業(yè)內(nèi)已經(jīng)是共識,英偉達致力于通過提升硬件來提升AI效率,降低能耗;而袁行遠則認為,改善大模型底層架構,提升人工智能運行效率,是改變AI能源困局的更優(yōu)路徑。

“Scaling Law告訴我們,隨著算力的提升,模型更大、數(shù)據(jù)更多,模型效果會越來越好,但與之相應的,能耗也會越來越高,在Scaling Law失效,人工智能實現(xiàn)之前,或許我們地球的能源就已經(jīng)無法支撐了?!?/p>

袁行遠表示,“沒有效率的提升,AI就是鏡花水月?!?/strong>

彩云科技團隊構建DCFormer框架,提出可動態(tài)組合的多頭注意力(DCMHA),替換Transformer核心組件多頭注意力模塊(MHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動態(tài)組合,從根本上提升了模型的表達能力,由此實現(xiàn)了對Transformer架構1.7—2倍的性能提升。

今年的ICML會議上,彩云科技團隊的3篇論文,在錄用平均分為4.25-6.33的情況下,獲得平均7分的高分,并成為國內(nèi)唯二受邀參加維也納ICML 2024登臺演講的企業(yè),另一家則是華為。


袁行遠表示:我們的工作表明,Transformer架構距離“理想模型架構”還有很大的提升空間,除了堆算力堆數(shù)據(jù)的“大力出奇跡”路線,模型架構創(chuàng)新同樣大有可為。往小了說,在大模型領域,利用效率更高的模型架構,小公司也可以在與世界頂級人工智能企業(yè)的對抗中取得優(yōu)勢。往大了說,模型效率的提升,可以有效地降低人工智能升級迭代的成本,加速AI時代的到來。

云錦天章問世

首個基于DCFormer架構的通用大模型

作為國內(nèi)最早做LLM(大語言模型)的公司之一,彩云科技在2017年就已經(jīng)開始做NLP和大模型方面的工作。目前,彩云科技旗下有彩云天氣、彩云小夢、彩云小譯三款面向C端用戶的AI產(chǎn)品,是國內(nèi)為數(shù)不多能夠實現(xiàn)盈利的人工智能公司。

“世界最強的小說續(xù)寫通用模型?!?/strong>溝通會上,袁行遠向大家展示了首個基于DCFormer架構的通用大模型云錦天章。“這個成語是比喻文章極為高雅、華美,和我們的大模型想要實現(xiàn)的效果有共通之處?!痹羞h介紹,云錦天章可以實現(xiàn)在虛構世界觀的基礎上,賦予小說人物編程、數(shù)學等基礎能力,可以高速針對大量文字進行擴寫、縮寫,針對文章風格進行大容量更換,同時兼具其他模型的問答、數(shù)學、編程等基礎能力。


而在應用端,擁有四百萬用戶的彩云小夢,也迎來了基于全新DCFormer架構的V.3.5版本。與之前的版本相比,彩云小夢V3.5整體流暢性和連貫性提升了20%,支持前文長度由2000字提升至10000字,故事背景設定最長長度高達10000字。

“這意味著,在故事創(chuàng)作或者與人工智能對話中,人工智能能夠記住之前發(fā)生的事情,記住之前故事里發(fā)生的細節(jié),人物記得自己明確的目標,并且會根據(jù)劇情及時進行反思修正。在做到自主創(chuàng)作的同時,發(fā)散性收斂,不會天馬行空,人物性格前后一致,故事邏輯性更強。”


“深度對話,超長記憶,邏輯清晰?!痹羞h總結彩云小夢V3.5的特征,“我們的目標是為用戶打造指尖伴侶定制夢境?!?/strong>

袁行遠表示,彩云小夢的用戶單次使用時長,累計使用時長在同類產(chǎn)品中都處于遙遙領先的地位,“對話超過400句,你會發(fā)現(xiàn)彩云小夢真正的魅力。”

袁行遠介紹,公司接下來將繼續(xù)加大對DCFormer的研究和投入:“一方面有打破‘國外做技術層,國內(nèi)做應用層’刻板印象的情懷所在,一方面也是為公司自有產(chǎn)品應對市場競爭,實現(xiàn)快速迭代升級和能力領先的現(xiàn)實需要。”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黑龍江“蛇女”劉玉平:06年收留一條蛇,隔天拖家?guī)Э谝蛔?7年

黑龍江“蛇女”劉玉平:06年收留一條蛇,隔天拖家?guī)Э谝蛔?7年

我是斌哥哥
2024-04-25 17:04:39
浙江麗水一小區(qū)出現(xiàn)“石頭陣”?多位業(yè)主投訴,物業(yè)報警6次?當?shù)厣鐓^(qū)回應

浙江麗水一小區(qū)出現(xiàn)“石頭陣”?多位業(yè)主投訴,物業(yè)報警6次?當?shù)厣鐓^(qū)回應

封面新聞
2025-04-24 00:23:25
品牌服裝模特“饅頭”去世!年僅34歲渾身肌肉,友人曝細節(jié)太惋惜

品牌服裝模特“饅頭”去世!年僅34歲渾身肌肉,友人曝細節(jié)太惋惜

裕豐娛間說
2025-04-24 09:25:02
你無意間摸到過什么不該摸的東西!網(wǎng)友看過全部笑岔氣了

你無意間摸到過什么不該摸的東西!網(wǎng)友看過全部笑岔氣了

解讀熱點事件
2025-01-13 01:34:06
猿輔導武漢公司一員工猝死,死者親屬:他原計劃5月2日舉行婚禮

猿輔導武漢公司一員工猝死,死者親屬:他原計劃5月2日舉行婚禮

華商網(wǎng)
2025-04-25 10:39:23
馬琳當年有多強?張繼科:打法很落后,卻是神一樣的存在!

馬琳當年有多強?張繼科:打法很落后,卻是神一樣的存在!

十點街球體育
2025-04-25 00:10:03
“最佳睡眠時間”出爐!研究發(fā)現(xiàn):早睡晚睡都折壽,這個時間最好!

“最佳睡眠時間”出爐!研究發(fā)現(xiàn):早睡晚睡都折壽,這個時間最好!

腫瘤的真相與誤區(qū)
2025-03-12 14:46:53
梅西連續(xù)讓第三個客場上座數(shù)破隊史紀錄!

梅西連續(xù)讓第三個客場上座數(shù)破隊史紀錄!

氧氣是個地鐵
2025-04-24 20:27:15
中方當眾宣布,歡迎印度總理來華,選中國還是選美國,莫迪懂了

中方當眾宣布,歡迎印度總理來華,選中國還是選美國,莫迪懂了

盤觀前沿
2025-04-24 14:15:31
76年軍區(qū)副司令病逝,組織查檔案發(fā)現(xiàn):中央從未下達過副司令任命

76年軍區(qū)副司令病逝,組織查檔案發(fā)現(xiàn):中央從未下達過副司令任命

紅儒
2025-04-18 17:41:21
玥兒生日這天,黃春梅小s沉默,沒祝福沒文案,也沒有愛屋及烏

玥兒生日這天,黃春梅小s沉默,沒祝福沒文案,也沒有愛屋及烏

阿鳧愛吐槽
2025-04-24 22:51:25
美記:首節(jié)沃特森+威少同時在場輸了12分 很意外阿德爾曼會這么排

美記:首節(jié)沃特森+威少同時在場輸了12分 很意外阿德爾曼會這么排

直播吧
2025-04-25 10:58:06
關于王祖賢女士出席第十屆國際灸法大會的特別說明

關于王祖賢女士出席第十屆國際灸法大會的特別說明

新華日報健康
2025-04-23 23:32:33
董明珠公開“凌遲”小米:總揪著雷軍不放,是情商低還是輸不起?

董明珠公開“凌遲”小米:總揪著雷軍不放,是情商低還是輸不起?

說故事的阿襲
2025-04-25 06:50:58
“國情” 這個詞越來越讓人無語

“國情” 這個詞越來越讓人無語

花小萌和你聊情感
2025-04-25 07:21:29
內(nèi)塔尼亞胡:如不滅了哈馬斯,下一個10月7日只是時間問題

內(nèi)塔尼亞胡:如不滅了哈馬斯,下一個10月7日只是時間問題

桂系007
2025-04-20 19:44:12
德媒:阿隆索對未來規(guī)劃猶豫不決導致藥廠高層不滿,已給他下最后通牒

德媒:阿隆索對未來規(guī)劃猶豫不決導致藥廠高層不滿,已給他下最后通牒

雷速體育
2025-04-24 20:40:26
中國增持235億美債,特朗普松了一口氣,美經(jīng)濟學家:中國另有目的

中國增持235億美債,特朗普松了一口氣,美經(jīng)濟學家:中國另有目的

寫了個錘錘
2025-04-24 20:53:13
你是咋判斷孩子聰明與否的?網(wǎng)友:看數(shù)學成績就知道了

你是咋判斷孩子聰明與否的?網(wǎng)友:看數(shù)學成績就知道了

解讀熱點事件
2025-04-23 00:10:09
章澤天恐怕要睡不著了!劉強東最男人的一面被大家發(fā)現(xiàn)了!太搶手

章澤天恐怕要睡不著了!劉強東最男人的一面被大家發(fā)現(xiàn)了!太搶手

小娛樂悠悠
2025-04-25 06:50:03
2025-04-25 11:56:49
了不起的程序員 incentive-icons
了不起的程序員
平凡的人也能做了不起的事
512文章數(shù) 1663關注度
往期回顧 全部

科技要聞

這屆上海車展,沒人靠流量活著

頭條要聞

媒體:中方表態(tài)直接戳破特朗普謊言 有一段話值得品味

頭條要聞

媒體:中方表態(tài)直接戳破特朗普謊言 有一段話值得品味

體育要聞

名記:梅西將續(xù)約2年 近10%股權比肩小貝

娛樂要聞

S家再被打臉!葛斯齊爆料一針見血

財經(jīng)要聞

王興注定“永無寧日”

汽車要聞

限時優(yōu)惠價29.98萬元 BJ40增程赤兔版上海車展發(fā)布

態(tài)度原創(chuàng)

本地
時尚
教育
健康
公開課

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

穿了十年仍然心動的裙子,它算一條

教育要聞

2025年度全國教育科學規(guī)劃教育考試研究專項指南

唇皰疹和口腔潰瘍是"同伙"嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 穆棱市| 荆州市| 饶河县| 津市市| 渝北区| 乐都县| 江山市| 滕州市| 寿光市| 任丘市| 双城市| 巴林右旗| 蒙自县| 乡城县| 阆中市| 江陵县| 营口市| 泽州县| 深水埗区| 武功县| 揭东县| 乐清市| 康平县| 新晃| 会泽县| 黎川县| 呼伦贝尔市| 卫辉市| 武义县| 什邡市| 启东市| 杂多县| 许昌县| 榆林市| 岢岚县| 日喀则市| 济阳县| 长顺县| 黑山县| 长葛市| 中江县|