作 者:微瀾
來 源:正和島(ID:zhenghedao)
如果要列出當下全球最有權(quán)勢的一位95后,他的名字應該大多數(shù)人都沒聽說過——亞歷山大·王(Alexandr Wang)。
這位在硅谷被稱為“下一個扎克伯格”的天才少年,在2022年借助著生成式AI的浪潮,成功登上《福布斯》全球億萬富豪榜,也憑此成為了史上最年輕的白手起家的億萬富豪。
盡管在一年后其創(chuàng)立的公司Scale AI因估值大幅下滑,他的名字也從富豪榜上消失。
但在今年5月,隨著Scale AI宣布獲得10億美元融資,估值138億美元(約為人民幣1000億元),亞歷山大·王也再一次回到大眾的視野當中。
從2016年創(chuàng)立到成為千億估值的獨角獸企業(yè),亞歷山大·王和Scale AI用了短短8年的時間,而憑借著Scale AI,亞歷山大不僅在AI數(shù)據(jù)標注行業(yè)上演了一段傳奇創(chuàng)業(yè)故事,也在全球AI熱潮中扮演了一個“賣鏟人”的角色,為馬斯克、奧特曼、扎克伯格等一眾科技大佬提供數(shù)據(jù)支持,某種程度上來說,他影響了整個AI世界的格局。
一、“賣鏟子”的天才少年
如果用一句話總結(jié)亞歷山大·王的創(chuàng)業(yè)故事,那一定是一出場就手握爽文大男主劇本。
1997年,亞歷山大出生于美國的新墨西哥州,其父母都是物理學家,在新墨西哥州洛斯·阿拉莫斯國家實驗室工作。
關(guān)于亞歷山大這個名字的由來,還有一個蘊含中國文化的故事:
Alexandr(亞歷山大)是其名字的英文拼寫,但比通用拼法少了一個e。在中國傳統(tǒng)中,數(shù)字“8”承載著許多美好寓意,所以他的父母就想讓他的名字剛好為8個字母。
受到家庭氛圍的熏陶,亞歷山大從小就是“別人家的孩子”:
小學時,亞歷山大便展露出數(shù)學天才的一面,到了初中,亞歷山大就讀于頂尖私立名校洛斯·阿拉莫斯,數(shù)次在美國數(shù)學人才選拔賽中拿下銅牌、金牌等;
上了高中后,亞歷山大又自學了編程技術(shù),成為美國計算機、物理、數(shù)學奧林匹克競賽上的???,成績均名列前茅;
此外,他9歲時學過小提琴,還精通中文、英語、法語等多種語言,可以說是“文理兩開花”。
除了學有所成,在高中時,亞歷山大就收到了多家硅谷科技公司的工作邀請,他先是去了硅谷最熱門的財富投資大數(shù)據(jù)管理平臺Addepar,之后又加入了“海外版知乎”Quora從事編碼工作并擔任技術(shù)主管。
也就是在Quora,亞歷山大結(jié)識了同為華裔的女孩Lucy Guo,后者也將成為Scale AI的聯(lián)合創(chuàng)始人。
2015年,憑借優(yōu)異的成績,亞歷山大考入麻省理工學院(MIT),主要攻讀數(shù)學和計算機專業(yè)。根據(jù)領(lǐng)英(Linkedln)的個人資料顯示,亞歷山大在MIT求學期間GPA為5.0(滿分),且其選修的還是研究生級別的計算機科學課程。
也正是在其麻省理工學院上大一期間,DeepMind推出的AlphaGo,戰(zhàn)勝了圍棋世界冠軍,開啟了人工智能的元年和深度學習的熱潮。
“我記得當時我在大學里,嘗試使用神經(jīng)網(wǎng)絡,嘗試訓練圖像識別神經(jīng)網(wǎng)絡。我很快意識到,這些模型在很大程度上只是數(shù)據(jù)的產(chǎn)物?!?br/>
亞歷山大在后面一次采訪中曾回憶起上大學時的思考,“這些模型或AI總體上是由三個基本支柱構(gòu)成——算法、計算能力和數(shù)據(jù)?!?/strong>
在當時,已經(jīng)有公司在研究算法,比如OpenAI或Google的實驗室,或者其他一些AI研究機構(gòu);至于算力,英偉達也已展示出了為這些AI系統(tǒng)提供算力的領(lǐng)導者潛力。
唯獨沒有公司專注于數(shù)據(jù),亞歷山大意識到隨著人工智能技術(shù)的長期發(fā)展,數(shù)據(jù)智慧變得越來越重要。
于是在麻省理工大一剛結(jié)束后的暑假,亞歷山大決定從MIT輟學,與此同時Lucy Guo也從卡內(nèi)基梅隆大學輟學,兩人一同創(chuàng)辦了Scale AI。
當時很多人為這兩位天才的中途輟學感到惋惜,認為這就是一場豪賭,但亞歷山大的看法卻不一樣:“如果現(xiàn)在不愿意邁出這一步,那什么時候會愿意呢?”
這里還有個流傳的小插曲:
在大一結(jié)束后暑假的某一天,亞歷山大跟爸媽說,我暑假搞了個項目玩。
爸媽問到,啥項目啊,送檸檬水還是送外賣?
亞歷山大回答道,差不多吧,搞了個AI公司,還有個叫Sam Altman的給我投了點錢,對了,airbnb(愛彼迎)也是他們投的,現(xiàn)在估值也就300多億美金吧。
除了拿到Y(jié) Combinator(山姆·奧特曼時任總裁)的天使輪投資,在創(chuàng)立第一年,Scale AI還拿到了風投巨頭Accel的A輪融資。兩方資助下,Scale AI初期的資金障礙被掃清。
在成立之初,亞歷山大對ScaleAI的設想是打造一個一站式服務中心,解決AI生態(tài)系統(tǒng)中的數(shù)據(jù)支柱問題。
因此,Scale AI早期的定位就是通過結(jié)合自動化技術(shù)與人力審核,創(chuàng)建一個高效、精確的數(shù)據(jù)標注平臺,為創(chuàng)建機器學習算法的公司快速處理和標注大規(guī)模的數(shù)據(jù)集。
所謂的數(shù)據(jù)標注,是指為圖像、文本、視頻或音頻等原始數(shù)據(jù)添加結(jié)構(gòu)化信息,以便機器學習模型能夠理解和學習這些數(shù)據(jù)的過程。
通俗來講,就是給你一段視頻或圖片,讓你分門別類地標出里面的行人、車輛、建筑等元素,某種程度上,這是個小學生也能做的事。
雖然原理很簡單,但這些經(jīng)過標注的數(shù)據(jù)對于人工智能的發(fā)展不可或缺。AI模型需要大量的標注數(shù)據(jù)來進行學習,才能具備識別、分類和預測等功能。
這里值得一提的是,盡管一些自動化工具可以加快部分標注過程,但為了得到高質(zhì)量、高精確度的標注數(shù)據(jù),仍然需要大量的人工來處理、標記和驗證數(shù)據(jù),尤其是在一些如醫(yī)療、自動駕駛、軍事等對高精度有要求的領(lǐng)域。
事實上,在Scale AI崛起之前,數(shù)據(jù)標注行業(yè)在AI領(lǐng)域長期處于“邊緣”位置,其對大量人工的需求使得外界打上了勞動密集型產(chǎn)業(yè)的標簽。
在大多數(shù)人看來,數(shù)據(jù)標注行業(yè)既不“AI”,也一點都不“性感”。
但就是這樣一個“低門檻”的“辛苦活”,被亞歷山大在8年時間里干出了一家估值千億的AI獨角獸;在2023年《時代周刊》發(fā)布AI領(lǐng)域最具影響力的100個人物中,亞歷山大與李飛飛、黃仁勛、李彥宏等人共同入選榜單,其本人更是其中最年輕的人之一。
而在這背后,亞歷山大又是帶領(lǐng)Scale AI怎么做到的?
二、從0到估值千億,8年時間Scale AI做對了什么?
盡管數(shù)據(jù)標注看起來是一個低門檻、勞動密集型的行業(yè),但在2016年的節(jié)點,它卻是一個為數(shù)不多的空白市場。
除了谷歌、亞馬遜等少數(shù)大廠因業(yè)務需求設立了自己的數(shù)據(jù)標注部門外,大多數(shù)公司不愿意也沒有精力去自己管理,這導致標注數(shù)據(jù)的獲取的過程耗時且昂貴。
而這也正是Scale AI“賣好鏟子”飛速發(fā)展的機會所在,并且再回顧Scale AI八年的發(fā)展歷程,其成功也可以說是天時、地利,加人和的一個結(jié)果:
1.天時
在創(chuàng)立Scale AI后,8年時間里亞歷山大帶領(lǐng)整個團隊抓住了人工智能行業(yè)發(fā)展的幾次大風口。
先是自動駕駛領(lǐng)域。
2016年是AI時代的元年,也同樣是自動駕駛周期的起點,在那一年Cruise被通用以超10億美元的價格收購。
關(guān)注到這一消息后,亞歷山大意識到自動駕駛行業(yè)對于數(shù)據(jù)標注將產(chǎn)生大規(guī)模的剛性需求——自動駕駛技術(shù)的發(fā)展依賴于大量高精度的標注數(shù)據(jù),比如道路場景、行人和其他物體的圖像數(shù)據(jù),車企需要成千上萬小時的視頻數(shù)據(jù)進行標注來訓練和驗證其算法。
“我們構(gòu)建了第一個支持傳感器融合數(shù)據(jù)的數(shù)據(jù)引擎,支持2D數(shù)據(jù)和3D數(shù)據(jù)的組合,即激光雷達加攝像頭,這些設備安裝在車輛上,這很快成為整個行業(yè)的標準?!?br/>
通過建立高效的數(shù)據(jù)標注平臺,以及使用模型輔助標注和數(shù)據(jù)預處理來加速了數(shù)據(jù)處理流程,使得標注成本和時間得到大幅度降低,很快Scale AI就吸引了通用汽車、豐田和Waymo等車企的合作。
亞歷山大和Scale AI也憑此在自動駕駛數(shù)據(jù)標注領(lǐng)域站穩(wěn)腳跟。
而在2019~2020年期間,這個階段自動駕駛行業(yè)技術(shù)方面已基本成熟,加上當時語言模型和生成式AI還未誕生,人工智能領(lǐng)域處于一個高度不確定時期。
于是,亞歷山大和Scale AI開始專注于政府應用,“這是一個顯然具有高度適用性的領(lǐng)域,并且在全球范圍內(nèi)變得越來越重要。”
也正是在進軍新市場的過程中,Scale AI也從過去單純的數(shù)據(jù)標記延伸到數(shù)據(jù)服務,提供從數(shù)據(jù)標記和管理、模型訓練和評估,再到AI 應用開發(fā)和部署的全流程解決方案。
在之后幾年時間里,Scale AI在數(shù)據(jù)領(lǐng)域迅速崛起,客戶也擴展到了醫(yī)療、國防、電商、政府服務等領(lǐng)域。
另外,為了應對某些行業(yè)數(shù)據(jù)不足的挑戰(zhàn),Scale AI還向下游延伸到合成數(shù)據(jù)的生成,通過從現(xiàn)有數(shù)據(jù)中創(chuàng)建新的數(shù)據(jù)集,幫助訓練模型。
與此同時,Scale AI在這一階段也開始致力于生成AI,與OpenAI開展合作,在GPT-2上進行RLHF的首次實驗。
“當時的模型非常粗糙,真的看起來不怎么樣。但我們認為OpenAI是一群聰明的人,我們應該與他們合作。所以我們與發(fā)明RLHF的團隊合作,并從2019年開始不斷創(chuàng)新?!?br/>
2022年,ChatGPT的問世震驚世界,生成式AI領(lǐng)域迎來了大爆發(fā)——生成式AI模型需要海量的訓練數(shù)據(jù)來提升其生成內(nèi)容的準確性和多樣性,加上大語言模型的爆發(fā)式增長極大推動了整個行業(yè)對高質(zhì)量標注數(shù)據(jù)的需求。
而靠著和OpenAI的合作,在生成式AI賽道Scale AI已搶占先機,到了今天Scale AI更是成為了通用AI的數(shù)據(jù)鑄造廠,為OpenAI、Meta、Microsoft等行業(yè)內(nèi)幾乎所有主要的大型語言模型提供支持。
2.地利
除了抓住這些行業(yè)風口到來的時機,亞歷山大還借助著全球化這一地利優(yōu)勢,實現(xiàn)了在數(shù)據(jù)標注行業(yè)里的成本最小化。
因為美國人力成本高昂,在LinkedIn、indeed等平臺上,數(shù)據(jù)標注的兼職時薪大多都在30-200美元之間,但作為一個勞動密集型業(yè)務,這在客觀上就要求企業(yè)去思考解決數(shù)據(jù)生產(chǎn)問題,或者采購相關(guān)服務。
于是在2017年,Scale AI 成立了 Remotasks 作為其內(nèi)部外包機構(gòu),在肯尼亞、菲律賓、委內(nèi)瑞拉等地設立了幾十家機構(gòu),在世界各地培訓了成千上萬的數(shù)據(jù)標注員,這些標注員的工作大部分都是按件計酬,一次標注的收入低至幾美分,很多合約工在時薪甚至不到1美元。
曾有業(yè)內(nèi)人士指出,“Scale AI不是一家人工智能初創(chuàng)企業(yè),它只是一家提供廉價勞動力的公司”。
但不管外界如何質(zhì)疑,無法否認的確是,在這樣的“全球工廠”模式下,Scale AI的毛利率長期保持在65%以上,Scale AI也成為了當下AI領(lǐng)域為數(shù)不多不需要燒錢,而是狂賺錢的AI初創(chuàng)企業(yè)之一。
2023年,Scale AI年化收入高達7.5億美元(約合54.3億元人民幣),預計2024年底將達到14億美元(約合101億元人民幣)。
3.人和
除了營收快速增長,創(chuàng)業(yè)8年時間,亞歷山大和Scale AI的背后還集結(jié)了一支豪華的投資人隊伍。不僅有著大半個硅谷圈大佬,也出現(xiàn)了亞馬遜、英偉達、英特爾、Meta等超級大廠。
在前文我們提到,Scale AI剛創(chuàng)立時,就分別獲得硅谷著名孵化器Y Combinator和風投巨頭Accel的支持,前者的時任總裁山姆·奧特曼在后面的OpenAI又與Scale AI 開展了合作,而后者機構(gòu)的合伙人還曾將家里的地下室借給Scale AI臨時辦公。
而此后5、6年時間里,Scale AI也基本是一兩年就融一次資,而參與投資的機構(gòu)和個人在這個過程中顯然也不止是進行資金上的幫助,更是在多方面都進行了助力。
2024年5月,Scale AI再次官宣完成F輪融資,融資額10億美元,估值增長超過80%至約138億美元(約1000億人民幣),投資方陣容堪稱史詩級豪華,20多家機構(gòu)和個人:
老股東Accel領(lǐng)投,Index Ventures、Founders Fund、Coatue、Thrive Capital、Spark Capital、老虎基金、Greenoaks、Y Combinator、Wellington Management和GitHub 前首席執(zhí)行官 Nat Friedman繼續(xù)加碼,同時英偉達、Elad Gil、亞馬遜、Meta、思科、英特爾、AMD、DFJ Growth、WCM、ServiceNow Ventures也參與了此次融資。
時來天地皆同力。毫無疑問,作為這一波AI浪潮中的“閃耀群星”中的一顆,亞歷山大和Scale AI注定要留下濃墨重彩的一筆。
也正如亞歷山大在完成F輪融資后在采訪中講到的:“Scale AI為當今市場上幾乎所有領(lǐng)先的 AI 模型提供數(shù)據(jù)支持。借助此次融資,公司將進入旅程的下一階段——加速豐富前沿數(shù)據(jù),為通用人工智能鋪平道路?!?br/>
而解決人工智能的數(shù)據(jù)問題將是他一生為之奮斗的事業(yè)。
三、中國為什么沒有Scale AI的誕生?
事實上,看完Scale AI的發(fā)展故事,大多數(shù)人可能會產(chǎn)生的一個疑問是,為什么中國沒有類似于Scale AI這樣的企業(yè)誕生?
尤其是在生成式AI熱潮前,國內(nèi)的人工智能行業(yè)在應用方面一度領(lǐng)先,并且數(shù)據(jù)標注作為勞動密集性企業(yè),中國天然就有優(yōu)勢。所以為什么呢?
總體來看,這背后有幾方面的原因:
1.“資源陷阱”
這里先引入一個“資源陷阱(詛咒)”的概念,什么是資源陷阱,就是指一個國家或地區(qū)擁有豐富的自然資源,但因為過度依賴這些資源,忽視了其他潛在的經(jīng)濟增長領(lǐng)域,如制造業(yè)、服務業(yè)和技術(shù)創(chuàng)新等,導致經(jīng)濟發(fā)展單一、結(jié)構(gòu)不合理,同時隨著這種自然資源枯竭或市場需求下降,經(jīng)濟可能會遭受嚴重打擊。
典型的例子便是委內(nèi)瑞拉、俄羅斯,它們依靠石油、天然氣等賺取大量的外匯,但除了能源行業(yè)外,其它的經(jīng)濟產(chǎn)業(yè)都非常落后,這種國家也被稱為“資源詛咒型國家”
一定程度上,在AI數(shù)據(jù)標注行業(yè),國內(nèi)也陷入了這種資源豐富的“詛咒”。
事實上,國內(nèi)的數(shù)據(jù)標注業(yè)務也很早就起步發(fā)展了,但并沒有形成規(guī)模。很多龍頭企業(yè)雖然成立了數(shù)據(jù)標注部門,但主要是為自身業(yè)務服務,而并不是尋求將數(shù)據(jù)與各個行業(yè)進行資源匹配;
加上依靠國內(nèi)的人口紅利,讓標注后的數(shù)據(jù)獲取成本變得十分低廉,哪怕是今天國內(nèi)的數(shù)據(jù)標注價格依舊偏低,拿重慶這種新一線城市來說也僅為4~6k/月。
在這種情況下采用技術(shù)平臺或者進一步研發(fā)來提高數(shù)據(jù)標注或是從標注行業(yè)進一步向上延展創(chuàng)新,對于處在市場競爭中的企業(yè)而言,可能反而是得不償失的做法。
但一旦在這個階段錯過了對數(shù)據(jù)標注行業(yè)的技術(shù)創(chuàng)新或沉淀,也許就永遠地錯失了創(chuàng)新升級的機會了。
2.生態(tài)不足
這里的生態(tài)不足體現(xiàn)在兩個方面,一是單純從語言生態(tài)來講,必須要承認,英文的使用范圍是全球,而中文的使用范圍更多還是在國內(nèi)以及海外的部分華人。
所以在數(shù)據(jù)標注這一產(chǎn)業(yè)上,Scale AI天然就有了優(yōu)勢,站在資本的高地,在全球范圍內(nèi)尋找著價值洼地,而國內(nèi)哪怕是有人口紅利,這成本優(yōu)勢終究更高,且在資本(投融資)方面也沒有占據(jù)高地。
另外,需要提到的是在數(shù)年前,隨著移動互聯(lián)網(wǎng)格局的成熟,國內(nèi)互聯(lián)網(wǎng)生態(tài)在當時也進一步走向了對抗封閉,而這也使得數(shù)據(jù)在流通上出現(xiàn)了阻礙,甚至可以說當時的數(shù)據(jù)標注行業(yè)也被迫參與到這種對抗封閉的生態(tài)中去,各為其主、各自而戰(zhàn),無法形成有效的、規(guī)模性的創(chuàng)新力量。
3.視野局限
對于數(shù)據(jù)標注行業(yè),站在當時那個節(jié)點,只有少數(shù)人能因為相信而看見。
在國外,也只有亞歷山大等寥寥幾人,在國內(nèi)這樣的人顯然就更少了。
事實上,大多數(shù)參與到數(shù)據(jù)標注行業(yè)中的人,更多就是秉持著過往的勞動密集型產(chǎn)業(yè)的邏輯,靠著“內(nèi)卷”來實現(xiàn)生存以及盈利的。
但是亞歷山大不同的是,盡管行業(yè)邏輯是勞動密集型的特點,但對于他而言,這只是最基礎的一點,是作為構(gòu)建起整個數(shù)據(jù)行業(yè)上下游生態(tài)的一個跳板。正如其在最近的訪談中談到,人們已經(jīng)用盡了互聯(lián)網(wǎng)上的所有數(shù)據(jù),想要開發(fā)出比GPT-4.5更強大的人工智能,則必須構(gòu)建前沿數(shù)據(jù)。
所謂的“前沿數(shù)據(jù)”是指那些與應用場景密切相關(guān)、能及時反映最新趨勢和變化的數(shù)據(jù),往往包含大量長尾或少見的場景,有助于提升AI在非典型情況下的表現(xiàn),推動人工智能能力的邊界向復雜推理、多模態(tài)等方向發(fā)展。
隨著AI的快速進化,未來的數(shù)據(jù)訓練需要更多地與特定任務、特定應用場景相匹配,因此也需要挖掘和生產(chǎn)出更多新的、差異化的數(shù)據(jù),而這可能也正是亞歷山大在2016年時就看到的未來。
從這個角度來看,Scale AI作為一面鏡子,其從最“廉價”的行業(yè)中成長為一個估值千億的AI獨角獸企業(yè)有太多可以學習的地方了。
參考資料:
[1].從麻省理工輟學,他干成億萬富翁,環(huán)球人物
[2]. 估值1000億,輟學90后華裔天才,剛剛?cè)诹?2億,融中財經(jīng)
[3]. 給AI公司“打雜”,95后華人把估值做到138億美元
[4]. 95后,一舉融資70億,投資界
排版| 小元| 微瀾主編| 孫允廣
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.