近日,在2025年華為中國(guó)合作伙伴大會(huì)上,華為攜手景聯(lián)文科技發(fā)布面向AI數(shù)據(jù)湖的數(shù)據(jù)工程聯(lián)合解決方案。該方案基于端到端高效、可靠、共享、易管理的AI數(shù)據(jù)湖,旨在將海量多模態(tài)數(shù)據(jù)資源高效轉(zhuǎn)化成高質(zhì)量AI算料,為行業(yè)智能升級(jí)注入充沛的數(shù)據(jù)動(dòng)能。
景聯(lián)文科技CEO劉云濤
“AI-ready的前提是Data-ready,大模型的好壞取決于數(shù)據(jù)的好壞。高質(zhì)量數(shù)據(jù)集的供給是AI行業(yè)化落地的關(guān)鍵要素,也是促進(jìn)數(shù)據(jù)要素繁榮交易的根基。”景聯(lián)文科技CEO劉云濤強(qiáng)調(diào),“精準(zhǔn)全面的數(shù)據(jù)治理能力,結(jié)合可靠高效的數(shù)據(jù)基礎(chǔ)設(shè)施,在智能化升級(jí)中不可或缺。”
普遍來(lái)說(shuō),面向AI的數(shù)據(jù)需要經(jīng)歷三大環(huán)節(jié),即:從海量原始數(shù)據(jù)提煉為結(jié)構(gòu)化數(shù)據(jù)集,然后經(jīng)標(biāo)注成為語(yǔ)料集,最終構(gòu)成知識(shí)庫(kù)、支撐模型訓(xùn)練及業(yè)務(wù)應(yīng)用。在這個(gè)過(guò)程中,當(dāng)下正面臨多重挑戰(zhàn):
●首先,數(shù)據(jù)擁有方動(dòng)力不足:大部分?jǐn)?shù)據(jù)持有者缺少便捷安全的數(shù)據(jù)匯聚托管系統(tǒng),普遍陷入“不愿、不敢、不會(huì)”的困境,數(shù)據(jù)共享壁壘高筑。
●其次,語(yǔ)料開(kāi)發(fā)難:原始數(shù)據(jù)種類多、格式雜、時(shí)效高,如文本、圖像、音視頻等多模態(tài)原始數(shù)據(jù),增加了語(yǔ)料處理的復(fù)雜性。同時(shí),行業(yè)專用語(yǔ)料往往包含大量特有的垂類知識(shí)、表達(dá)方式,加劇了精準(zhǔn)標(biāo)注的難度。
●最后,數(shù)據(jù)可信流動(dòng)難:數(shù)據(jù)作為風(fēng)險(xiǎn)資源,如果在流通中缺少端到端安全管控,則易遭受被篡改、被擴(kuò)散的風(fēng)險(xiǎn)。此外,區(qū)域間數(shù)據(jù)基礎(chǔ)設(shè)施發(fā)展程度不均,且兼容性和互操作性不足,導(dǎo)致數(shù)據(jù)跨域流通效率低下。
景聯(lián)文科技與華為強(qiáng)強(qiáng)聯(lián)合,依托景聯(lián)文科技深耕多年的數(shù)據(jù)工程能力、以及華為數(shù)據(jù)存儲(chǔ)行業(yè)領(lǐng)先的技術(shù)優(yōu)勢(shì),推出面向AI數(shù)據(jù)湖的數(shù)據(jù)工程聯(lián)合解決方案:
●全流程數(shù)據(jù)工程:景聯(lián)文科技Solar Data平臺(tái)采用AI Agent理念,與全閃數(shù)據(jù)湖存儲(chǔ)緊密協(xié)同,支持異構(gòu)數(shù)據(jù)的高效加工,實(shí)現(xiàn)對(duì)30+格式的自動(dòng)或半自動(dòng)化清洗、解析、預(yù)處理、特征提取與初步分析,并基于AI預(yù)標(biāo)注與專業(yè)手工標(biāo)注結(jié)合,最終整合為高質(zhì)量的數(shù)據(jù)產(chǎn)品,全流程效率提升70%。
●數(shù)據(jù)流通與資源調(diào)度:通過(guò)華為DME(Omni-Dataverse)全局文件系統(tǒng),結(jié)合可信數(shù)據(jù)空間,實(shí)現(xiàn)多源數(shù)據(jù)無(wú)縫歸集,讓全局?jǐn)?shù)據(jù)可視、可管、可流,保障數(shù)據(jù)交換過(guò)程的可信、可證、可控。基于華為DCS的統(tǒng)一資源調(diào)度,實(shí)現(xiàn)Solar Data平臺(tái)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源的彈性服務(wù)與統(tǒng)一管理。并通過(guò)ModelEngine AI使能工具鏈框架,實(shí)現(xiàn)高效模型編排與應(yīng)用對(duì)接,加速數(shù)據(jù)集開(kāi)發(fā)進(jìn)程。
●先進(jìn)數(shù)據(jù)底座:基于華為OceanStor Pacific分布式存儲(chǔ)底座建設(shè)統(tǒng)一數(shù)據(jù)底座,在先進(jìn)介質(zhì)、協(xié)議互通、負(fù)載優(yōu)化、分布式并行客戶端等領(lǐng)域軟硬協(xié)同創(chuàng)新,打造業(yè)界領(lǐng)先的高密綠色數(shù)據(jù)基礎(chǔ)設(shè)施,助力海量數(shù)據(jù)更持久地存儲(chǔ)、更高效地訪問(wèn)。
華為數(shù)據(jù)存儲(chǔ)將持續(xù)深化與業(yè)界伙伴的合作,攜手促進(jìn)AI時(shí)代應(yīng)用生態(tài)的蓬勃壯大,秉持“以數(shù)據(jù)為中心”的產(chǎn)業(yè)理念,發(fā)揮數(shù)據(jù)在數(shù)字經(jīng)濟(jì)的核心驅(qū)動(dòng)力作用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.