行業首創領域自約束訓練方案
12月23日,百川智能發布全鏈路領域增強大模型Baichuan4-Finance。在高質量金融數據的基礎上,通過行業首創的領域自約束訓練方案,Baichuan4-Finance實現了金融能力和通用能力同步提升的效果,極大提高了金融場景的整體可用性。其金融專業能力和場景應用能力大幅領先GPT-4o,在中國人民大學財政金融學院新近發布的評測體系FLAME以及國內主流開源金融評測基準FinancelQ上均登上榜首。
Baichuan4-Finance API現已在百川智能官網正式上線,網址:https://platform.baichuan-ai.com/finPage
整體準確率領先GPT-4o近20%,多個金融評測榜單第一
FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是中國人民大學財政金融學院12月17日發布的金融評測體系(github地址:https://github.com/FLAME-ruc/FLAME/tree/main)。
作為金融領域最新的評測體系,FLAME兼顧專業性和實用性,由兩個方向的評測基準組成。其中,FLAME-Cer主要面向模型的專業金融能力評測,覆蓋了CPA、CFA、FRM等14類權威金融資格認證;FLAME-Sce則側重模型的場景應用能力,包含10個一級核心金融業務場景,21個二級細分金融業務場景,近百個三級金融應用任務。
FLAME-Cer評測結果顯示,Baichuan4-Finance在銀行、保險、基金、證券等多個資格認證領域的準確率均突破了95%,整體準確率93.62%,大幅領先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。GPT-4o是金融領域公認的綜合實力最強的通用模型之一,而XuanYuan3-70B-Chat則是國內首個開源中文金融大模型。
在FLAME-Sce評測中,Baichuan4-Finance一級核心金融業務場景的整體可用率達84.15%,其金融數據計算、金融知識理論等場景的可用率更是超過90%,實際應用場景中的表現非常優秀。
不僅如此,在國內主流開源金融評測基準FinanceIQ上Baichuan4-Finance同樣超越了GPT-4o和XuanYuan3-70B,整體準確率達到79.23%,領先GPT-4o近13%。
行業首創領域自約束訓練方案,模型金融專項能力和通用能力同步提升
如何讓模型在提升專業能力的同時不損失通用能力,是當下大模型落地具體場景最大的阻礙。為解決這一問題,百川智能打造了一套全鏈路領域增強方案,該方案覆蓋了高質量數據集構建、模型預訓練、微調、強化學習等從模型研發到場景應用的全流程。
在模型訓練階段,通過行業首創的領域自約束訓練技術,百川智能實現了模型專項能力和通用能力同步提升的效果,極大提升了模型多元場景的可用性。而Baichuan4-Finance正是這一方案的最新成果,全鏈路金融領域增強讓其既掌握了扎實的金融理論基礎,又具備了豐富的多場景實踐應用能力。
具體而言,Baichuan4-Finance的高質量金融數據集全面且嚴謹,既包含金融專業教材與學術著作、頂級金融期刊論文、監管機構政策文件、金融法律法規等核心專業金融知識數據,也覆蓋了金融專業問答集、企業財報與年度報告、金融類研究分析報告等實踐應用類數據,為提升模型金融能力提供了良好的底層支撐。
在此基礎上,Baichuan4-Finance還在領域自約束訓練過程中引入了更高精的通用數據,與高質量金融數據一起進行混合訓練,最終實現了模型通用能力不下降,金融能力穩定增長的效果。
此外,百川智能在后訓練環節也做了大量增強工作,如:通過合成數據、指令數據對模型進行有監督的微調;在強化學習策略中,針對數學計算等金融領域特別關注的場景進行樣本增強等,進一步提升了模型性能。
值得一提的是,為了更好地助力金融企業將大模型應用到各種真實場景,百川智能還在官網發布了Baichuan4-Finance全鏈路領域增強的技術報告,詳細闡述了包括“領域自約束訓練”在內的各項技術細節。此舉不僅將極大增強金融行業對大模型的認知,還將有效提升金融企業部署大模型的能力與意愿。
全方位助力金融機構智能化升級和業務創新
攻克了專項能力和泛化能力平衡問題這一模型落地應用的最大阻礙后,Baichuan4-Finance能夠在效率提升、風控合規、客服、決策支持等諸多層面為金融行業帶來全方位的價值提升。例如,它能夠幫助金融從業者處理文檔審核、客戶咨詢、產品營銷等大量日常工作,還能依托深厚的金融專業知識和法律法規理解能力,為機構提供精準的風險識別和合規保障。此外,還可以憑借強大的數據分析能力為管理層提供專業的市場洞察和決策建議。
用友表示,Baichuan4-Finance憑借其海量的金融專業知識儲備,在財稅知識問答場景中,準確率較Baichuan4-Turbo提升了20%,較GPT-4o提升了10%,表現尤為亮眼。
軟通動力表示,我們的客戶在實際應用中既要求大模型具備通用能力,又希望其在金融場景中有所專長。經過對比測試,我們發現Baichuan4-Finance完美契合這一需求,不僅通用能力出色,金融專業能力也得到了增強。自部署Baichuan4-Finance以來,我們的客戶滿意度提升了20%。
目前百川智能已經服務了數千家客戶,包括北電數智、完美世界游戲、愛奇藝、360集團、生學教育、愛學堂等各行業的領軍企業,并且與信雅達、用友、軟通動力、新致軟件、達觀數據、華勝天成等多家行業生態伙伴,以及華為、中科曙光等硬件廠商,中國移動、中國電信、中國聯通等運營商達成合作,攜手構建百川大模型生態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.