在一個群模共舞的時代,一家AI創業公司怎么做到行業頭部?位于杭州蕭山的景聯文科技給出的答案是,為大模型訓練提供海量的數據。用CEO劉云濤的話來說,他們就是讓大模型這些“巧婦”有“米”可炊。
大學時創業
拿到人生第一個100萬
劉云濤出生于安徽一個商業家庭,從小的耳濡目染讓他對創業充滿了熱情,在浙江大學城市學院讀工商管理時,總想著自己折騰點什么事情出來。
大一暑假看著學校的運動場地空下來,劉云濤就琢磨要么辦個跆拳道培訓班。他從5歲開始學習跆拳道,曾獲得過多個獎項,國家二級運動員。后來培訓班的項目從跆拳道擴展到羽毛球、網球等其他運動,一度注冊了專業的體育培訓公司,賺到了人生中的第一個100萬。
“現在回過頭去看,那個時候創業更多靠的是沖勁,從各方面講都比較初級,不能稱得上多成功,但也積累了寶貴的經驗,實踐中深度學習了商業邏輯和管理策略,也讓我更確信自己的優劣勢在哪里?!?/p>
因為創業,劉云濤還申請了延期畢業,延續少兒體育培訓的路子,折騰過其他的項目。“不過后來的項目也沒有多成功,好在也沒白‘挨打’?!闭f起自己前半程創業經歷,劉云濤有種獨有歷盡千帆的云淡風輕。
從賣技術到賣材料
數據標注的價值被挖掘
景聯文科技成立于2012年,目前是一家基于自研數據工程平臺提供AI數據服務的科技企業。
最初幾年,公司主營的業務是為各大手機廠商提供手機指紋防偽算法解決方案。簡單來說,就是不能讓別人用假指紋來解鎖你的手機,曾經獲得2017年和2019年的Fingerprint Liveness Detection Competition國際活體指紋檢測大賽第一名。
劉云濤2019年加入公司,考慮到手機指紋防偽算法的解決方案需要運用到很多手段攻擊數據庫,他突發奇想:為什么不直接把這些攻擊手段賣給對方?
從賣技術到賣數據,劉云濤第一次嘗試到數據作為一種“原材料”的價值所在,景聯文也從此進入AI數據標注行業。
此后,景聯文科技在AI數據領域不斷擴張,基于自身Solar數據工程處理平臺提供AI數據采集、標注、微調、分析、挖掘等服務,先后獲取Iso27001、Iso9001、Iso27701、DCMM認證等資質,參與8項國家數據交換格式和數據安全標準制定。
2022年,景聯文科技開始布局大模型數據服務賽道,建成了完善的數據代理、生產、清洗流程,為國內頭部大模型公司提供豐富的算料。“我們手里教育方面的題庫,去年至少60家大模型都想要?!眲⒃茲f。
現在,景聯文科技也在國防軍事智能化領域,基于自身平臺提供高效的數據處理能力和高質量數據產品。劉云濤也成了“iso國際標準專家”和“國家標準第一起草人”。
大模型時代
數據的需求量成指數級上升
在上海大數據聯盟最新發布的一份2024中國AI大模型產業圖譜中,在騰訊云、阿里云、聯通云等云計算巨頭扎堆中,“景聯文”三個字顯得有些突兀。
大語言模型之所以能夠展現出驚人的理解和生成能力,是因為從海量的預訓練數據中學習了豐富的世界知識。
一般而言,大模型廠商在處理數據時遵循的流程通常包括幾個環節:首先,數據從各渠道獲取被獲取后,進入數據工程部門,數據工程師會對數據進行清洗和預處理;接著,處理好的數據會被交給算法部門,算法部門會利用多種方法進一步處理,包括調參、通過監督學習對模型進行調整,最終會被應用到具體的任務或產品中。
這中間就給景聯文這樣的數據公司提供了機會,他們需要做的,就是把全球的優質數據買回來處理成算料,再賣給大模型廠商。
目前景聯文在細分領域已經做到了交易量前兩名,并且覆蓋了絕大多數頭部科技公司,比如手機廠商華為、三星、騰訊、小米、阿里等。
“目前我們有400個擁有領域知識的標注工程師,預計在明年將達到2000人?!眲⒃茲榻B,其實標注師一度也曾到1000多人,后來因為要求變高優化了一批,“剛開始招聘的時候,要求是會用電腦就行,現在顯然已經不適用了?!?/p>
隨著AI技術的快速發展,數據標注這個工作也在不斷高質量發展迭代,只論標注人員簡單的標注項目越來越少。標注需求更加精細化、專業化,要求標注人員應具備相應的專業知識和技能,對標注員的學歷等級、語言能力、理解能力,專業知識背景的要求都越來越高,比如語言標注團隊要求會各種小語種,醫療標注需要醫學院畢業的學生。
除此之外,大模型時代,算法技術的突破帶來更復雜、更大規模的數據處理需求。數據標注企業必須具備強大的數據處理能力,包括數據平臺的智能化水平、數據工程化能力、對大模型/AI算法的理解等。
景聯文科技已經從以前的純人工標注,發展為目前AI算法預標注加人工標注審核的生產模式,景聯文數據工程平臺有數據智能識別和自動化標注功能,能有效降低高質量數據的獲取成本。
“數據標注公司的核心競爭力還是利用數據工程平臺進行自動化標注,實現降本增效,不是一家簡單的人力標注公司?!眲⒃茲f,公司在2022年底建立了北京、深圳雙研發中心,就在五道口,為的就是挖到國內更頂尖的數據工程算法人才。
對于這個正欣欣向榮的行業來說,故事才剛剛開始。
對話“新”青年
九千光年:掌握數據之后,有想過自己直接去做大模型嗎?
劉云濤:沒有想過。AI時代核心三要素:數據、算法、算力,數據是成就算法的核心要素,如何把海量的多模態數據加工成功高質量的算料,這是一個千億的市場。我們期待用自己數據工程平臺為千行百業的科技公司帶去高質量“燃料”。
九千光年:數據標注并不是一個行業門檻很高的領域,你們是如何做到行業領先的?
劉云濤:在大部分人眼里數據標注行業門檻低,在當今大模型時代我認為這是一個擁有高門檻的行業。當今數據形態多種多樣,如何能把數據利用人工+算法的能力處理成高質量算料,才能建立門檻。
這個領域主要是看中兩個能力,一個是數據尋源能力,首先要有收集到海量的原始數據能力;第二個是數據處理能力,我們非常重視從技術角度而非人力角度來解決整體數據生產流程中存在的問題,根據不同的客戶需求來定制技術方案。
目前我們自研的景聯文數據工程平臺包括數據處理、項目管理和數據安全管控等模塊,有SAM自動預標注算法,能夠實現對圖像視頻、語音、文本等數據的智能識別。通過AI輔助,幫助客戶大幅度降低了數據準備時長和成本,科技公司自然會優先選擇我們。
九千光年:如何評價自己作為一個CEO的角色?
劉云濤:我是一個市場型CEO,我每年有一半的時間都在出差和客戶進行交流,這是我制定公司方向的取勝秘訣。我的底線就是帶領公司活下去,責任是讓公司過的更好,愿景是為中國AI科技公司提供高質量、高性價比的數據算料。這條路還很長,我們期望與全球優秀的科技客戶一起共同探索和推動人工智能技術的發展,成為行業中最值得信賴的數據解決方案提供商。
文 | 劉永麗
海報 | 李前芳
VIEW MORE
@杭州一群互聯網人下班后集體看起《四庫全書》 >>
@ 全球打響“百鏡大戰” >>
@95后紹興小伙研發的“巨型充電寶”拿下第一 >>
@AI“心理咨詢師” >>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.