4月22日,格桑花藏語語料庫建設在“2025天府融媒大講堂——主流媒體系統性變革之技術賦能”活動上正式啟動。該語料庫由天府融媒(四川)科技有限公司、四川省全媒信息傳播研究院共同發起,尼瑪扎西院士工作站(電子科技大學)、四川黨的建設雜志、甘孜州傳媒中心、四川日報全媒體技術中心等多家機構共同建設。
目前,格桑花藏語語料庫已初步搭建藏語語料訓練系統。接下來,將對已整理的超200億字符的藏文資料、30000多小時的音視頻資料進行訓練,形成千萬條高質量多模態藏語語料。同時,基于已有的翻譯詞庫構建500萬級“藏漢英對照”平行語料庫。今后,將通過數據清洗、知識提取等智能處理,形成藏語核心語料及細分領域知識庫,并借助格桑花藏語語料庫建設藏語智能體綜合平臺,開發藏語知識問答、藏漢互譯等智能體,為藏語研究、內容生產與傳播提供支撐。
中國工程院院士尼瑪扎西談到,四川是我國重要的藏族聚居地,其涉藏地區涵蓋了藏語三大方言中的康巴和安多兩大方言。同時,四川黨的建設雜志、甘孜州傳媒中心等四川主流媒體機構擁有的藏語數據具備素材多、質量好的優勢。由這些主流媒體參與建設的格桑花藏語語料庫,可以為語言學、計算機科學、民族學等多學科跨領域研究提供廣泛的數據支撐。格桑花藏語語料庫將在傳承和弘揚中華傳統文化,促進民族文化交流,增強國家文化軟實力方面發揮重要作用。
據了解,格桑花代表著幸福和吉祥,是藏族人民對美好生活的向往和期盼。以“格桑花”命名,寓意語料庫將像格桑花一樣傳承藏族文化,并為藏語在人工智能時代的應用注入新的希望和活力。
來源/ 四川觀察
編輯/ 黃星潔
校對/ 毛莉泓
責編/ 劉睿娟
審核/ 白馬
監制/ 譚榮皓
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.