來源:有道AI情報(bào)局
自2022年11月30日ChatGPT問世,大語言模型在全球掀起熱潮,眾多高校、科研機(jī)構(gòu)及AI企業(yè)紛紛投身其中,探索其在各行業(yè)的應(yīng)用潛力與創(chuàng)新模式。
作為國(guó)內(nèi)機(jī)器翻譯領(lǐng)域深耕多年的技術(shù)團(tuán)隊(duì),我們?cè)氏瘸晒ν瞥鼋y(tǒng)計(jì)機(jī)器翻譯及神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯服務(wù),并持續(xù)迭代。
- 憑借豐富的業(yè)務(wù)生態(tài)與深厚的技術(shù)積累,2023年伊始,有道迅速開啟以“應(yīng)用落地” 為導(dǎo)向的翻譯大模型自研之路。
- 經(jīng)過持續(xù)的技術(shù)攻關(guān)和優(yōu)化迭代,2023年6月,“子曰翻譯大模型1.0”正式推出;
- 2024年5月,實(shí)現(xiàn)“子曰翻譯大模型1.5”上線部署,至今已過去七個(gè)月。期間有道翻譯的用戶們積極使用我們的服務(wù),并且慷慨地分享了眾多極具價(jià)值的反饋與建議。
如今,子曰翻譯大模型2.0已正式與大家見面,這象征著我們?cè)谡Z言翻譯技術(shù)的征途上又邁出了堅(jiān)實(shí)而重要的一步,相信能夠?yàn)槲覀兊挠脩魩砀映錾姆g體驗(yàn)。
從1.5到2.0, 質(zhì)的飛躍
整體性能上,子曰翻譯大模型 2.0相較于1.5版本實(shí)現(xiàn)了質(zhì)的飛躍。這背后,是我們從數(shù)據(jù)、算法以及評(píng)估三個(gè)關(guān)鍵維度所展開的深入探索與系統(tǒng)性升級(jí)。
在數(shù)據(jù)層面,為訓(xùn)練面向翻譯任務(wù)的基座模型,我們精心收集了并嚴(yán)格清洗了數(shù)千萬高質(zhì)量的翻譯數(shù)據(jù)。不僅確保了數(shù)據(jù)的準(zhǔn)確性與適配性,為模型訓(xùn)練打下了牢固的根基,更極大地豐富了數(shù)據(jù)資源庫(kù),讓模型在多樣化翻譯場(chǎng)景中游刃有余。此外,我們基于海量的翻譯提示進(jìn)行了精細(xì)化的人工標(biāo)注,有效地提升了數(shù)據(jù)標(biāo)注的質(zhì)量,為模型執(zhí)行翻譯任務(wù)提供了精準(zhǔn)的指導(dǎo)。
在算法層面,以子曰教育大模型為基礎(chǔ),我們進(jìn)行了二次預(yù)訓(xùn)練,成功打造出了更具專業(yè)性與針對(duì)性的翻譯基座大模型,顯著提升了翻譯性能。這其中,我們運(yùn)用了先進(jìn)的大模型蒸餾技術(shù),讓模型在精簡(jiǎn)參數(shù)的同時(shí),運(yùn)行效率與推理速度大幅提升;創(chuàng)新性地使用了大模型融合技術(shù),將多個(gè)模型優(yōu)勢(shì)進(jìn)行整合,進(jìn)一步增強(qiáng)了翻譯的準(zhǔn)確性與穩(wěn)定性;我們還實(shí)現(xiàn)了基于人類偏好的翻譯數(shù)據(jù)自動(dòng)獲取,并以此進(jìn)行強(qiáng)化學(xué)習(xí);通過引入Online DPO技術(shù),動(dòng)態(tài)調(diào)整模型生成策略,保證了譯文的質(zhì)量與流暢度的提升。此外,多任務(wù)聯(lián)合學(xué)習(xí)的開展,讓模型能夠在多個(gè)翻譯任務(wù)中協(xié)同進(jìn)步,綜合翻譯能力得到了顯著增強(qiáng)。
在評(píng)估層面,我們?nèi)斯?biāo)注了覆蓋各個(gè)領(lǐng)域的開發(fā)集和盲測(cè)集,嚴(yán)格確保了測(cè)試數(shù)據(jù)的全面性和代表性。我們對(duì)算法團(tuán)隊(duì)所使用的開發(fā)集和盲測(cè)數(shù)據(jù)集實(shí)行嚴(yán)格分離、相互獨(dú)立,以確保評(píng)估的客觀性與準(zhǔn)確性,模型最終效果以盲測(cè)集效果為準(zhǔn)。在自動(dòng)指標(biāo)評(píng)估上,除了基于comet的自動(dòng)化指標(biāo),我們還自主訓(xùn)練了超越comet準(zhǔn)確率的基于大模型的翻譯評(píng)估模型,為性能評(píng)估提供更可靠依據(jù)。同時(shí),我們?cè)O(shè)計(jì)并執(zhí)行了更完善的人工評(píng)估方案,從多維度對(duì)模型的翻譯結(jié)果進(jìn)行細(xì)致地分析和評(píng)價(jià)。
正是通過這三個(gè)層面的全方位優(yōu)化與升級(jí),子曰翻譯大模型2.0在翻譯質(zhì)量、效率以及魯棒性等方面實(shí)現(xiàn)了質(zhì)的飛躍,能夠?yàn)橛脩魩砀鼉?yōu)質(zhì)、精準(zhǔn)的翻譯服務(wù)。
性能遠(yuǎn)超國(guó)內(nèi)外通用大模型及專用翻譯模型
為了展示子曰翻譯大模型 2.0 的性能,我們?cè)赪MT以及Flores200的測(cè)試集上進(jìn)行了中英互譯的基準(zhǔn)測(cè)試。
(采用測(cè)試集測(cè)試的結(jié)果)
為精準(zhǔn)、客觀地評(píng)估子曰翻譯大模型2.0中英互譯能力在行業(yè)中的表現(xiàn),我們與多個(gè)國(guó)內(nèi)外領(lǐng)先通用大模型及專業(yè)翻譯器如DeepL Pro,進(jìn)行了人工評(píng)估對(duì)比。
通過嚴(yán)謹(jǐn)?shù)娜斯げ杉鞒蹋覀儤?gòu)建了涵蓋人文學(xué)科、商學(xué)、生活服務(wù)、醫(yī)療、科學(xué)等多個(gè)領(lǐng)域的數(shù)據(jù)樣本集,并制定了全面精細(xì)的MQM評(píng)測(cè)方案,從專業(yè)性、準(zhǔn)確性、語言慣例和風(fēng)格等維度打分。
最終,五位資深翻譯專家獨(dú)立評(píng)估的結(jié)果匯總?cè)缦拢?/p>
以上對(duì)比,凸顯了子曰翻譯大模型2.0在專有閉源模型中的競(jìng)爭(zhēng)優(yōu)勢(shì)——在翻譯準(zhǔn)確性和流暢度上,遠(yuǎn)優(yōu)于國(guó)內(nèi)外通用大模型及專用翻譯模型
該測(cè)試不僅客觀地呈現(xiàn)了我們的優(yōu)勢(shì),也精準(zhǔn)地指明了未來有待優(yōu)化和改進(jìn)的方向,堅(jiān)定了我們?cè)跈C(jī)器翻譯領(lǐng)域持續(xù)推進(jìn)改進(jìn)與創(chuàng)新的決心。
但我們深知仍面臨諸多挑戰(zhàn),在后續(xù)的工作中,我們將全力去推進(jìn)支持更長(zhǎng)文本輸入、拓展更多模態(tài)的輸入,以及增加更多語種的支持工作,我們期待在不久之后下一代子曰翻譯大模型能跟大家見面。
在此歡迎各位持續(xù)關(guān)注更多有道AI技術(shù)的進(jìn)展與突破,也誠(chéng)邀大家前來體驗(yàn)“子曰翻譯大模型 2.0”,期待您的反饋。
附:可體驗(yàn)入口
1、有道詞典APP-首頁(yè)入口
2、有道翻譯桌面版-首頁(yè)入口
3、有道翻譯網(wǎng)頁(yè)端-AI翻譯入口
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.