通信世界網消息(CWW)數據集質量是大模型性能提升的 關鍵,目前國內大模型訓練主要依賴國 際開源數據集。由于數據開放共享不 足、版權數據使用受限、數據集建設成本高且缺乏統一規范,中文數據集在規模、質量上仍有很大提升空間。為此,本文建議通過建立統一的數據共享平臺、完善數據供給激勵機制、制定數據 全周期標準體系、優化“政產學研金服 用”協同創新體系,加快高質量中文數據集建設進程,助力國內大模型高質量發展。
點此閱讀雜志全文
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.