作者 |耿 宸斐
編輯|宋婉 心
封面來源|企業(yè)供圖
不久前,3D大模型公司影眸科技完成了數(shù)千萬美元A輪融資。這一輪融資由美團(tuán)龍珠、字節(jié)跳動(dòng)領(lǐng)投,老股東紅杉中國(guó)種子基金、奇績(jī)創(chuàng)壇連續(xù)跟投,光源資本擔(dān)任獨(dú)家財(cái)務(wù)顧問。
據(jù)影眸科技創(chuàng)始人吳迪介紹,本輪融資將主要用于影眸科技在3D大模型的前沿探索,并加速以3D生成大模型Rodin為核心的Hyper3D系列產(chǎn)品在全球市場(chǎng)的商業(yè)化落地。
2024年,資本及市場(chǎng)對(duì)AI的關(guān)注迅速從技術(shù)前沿進(jìn)展轉(zhuǎn)向商業(yè)化收益。據(jù)了解,影眸科技推出的大模型Rodin自上線僅45天,年度經(jīng)常性收入(ARR)就已突破100萬美元,成為當(dāng)前AI創(chuàng)業(yè)公司中少有的商業(yè)化成功案例。
圖:Rodin界面;圖片來源:企業(yè)供圖
Rodin的快速增長(zhǎng)折射出3D生成市場(chǎng)的巨大潛力,尤其是隨著元宇宙、虛擬現(xiàn)實(shí)、具身智能等新興應(yīng)用場(chǎng)景的迅猛發(fā)展,3D內(nèi)容的需求量正迎來爆發(fā)。
綜合相關(guān)行業(yè)數(shù)據(jù),游戲和娛樂、影視和動(dòng)畫、建筑與房地產(chǎn)(AEC)、制造業(yè)與產(chǎn)品設(shè)計(jì)、電?商務(wù)與虛擬展示的3D建模外包市場(chǎng)TAM總規(guī)模高達(dá)149-335億美元。
然而,傳統(tǒng)的基于幾何建模的手工創(chuàng)作3D模型不僅耗時(shí)費(fèi)力,還有著較高的技術(shù)門檻,極大地限制了3D內(nèi)容生產(chǎn)的效率和規(guī)模。在此背景下,生成式AI工具被視作是提高3D生成效率,降低3D內(nèi)容創(chuàng)作門檻的關(guān)鍵。
但問題在于,盡管AIGC的熱潮已席卷全球,目前,我們熟悉的大部分主流AIGC工具依然集中在圖像和視頻等2D內(nèi)容的生成上,屬于3D生成的“ChatGPT”時(shí)刻尚未真正到來。
這背后的原因是,受限于技術(shù),3D大模型的生成質(zhì)量瓶頸尚未得到真正突破。
相較于圖像、視頻等形式,生產(chǎn)級(jí)的3D內(nèi)容需要滿足更為復(fù)雜和更嚴(yán)格的標(biāo)準(zhǔn)。除了生成速度、質(zhì)量,還要兼顧3D網(wǎng)格的結(jié)構(gòu)和拓?fù)滟|(zhì)量、UV圖結(jié)構(gòu)以及紋理清晰度等。
吳迪坦言,雖然3D生成的質(zhì)量已經(jīng)被抬升到一個(gè)新的高度,目前的3D生成在材質(zhì)可用性、拓?fù)浣Y(jié)構(gòu)、UV展開等方面還不能滿足實(shí)際應(yīng)用的需求。這些技術(shù)方面的短板,已經(jīng)成為3D生成行業(yè)前沿待攻克的重點(diǎn)問題。
這一背景下,全球范圍內(nèi),3D生成技術(shù)的迭代正加速推進(jìn)。去年,影眸團(tuán)隊(duì)與上海科技大學(xué)合作提出的“可控3D原生DiT生成框架CLAY”和“3D服裝生成框架DressCode”,顯著提升了3D生成的質(zhì)量,被認(rèn)為是新一代3D生成的基礎(chǔ)框架。
與此同時(shí),海內(nèi)外已經(jīng)集中爆發(fā)了一批AI生成3D產(chǎn)品。
在海外,Meta推出文生3D模型Meta 3D Gen,可1秒生成3D素材;谷歌發(fā)布基礎(chǔ)世界模型Genie2,根據(jù)一張圖片生成可供人類或AI智能體控制動(dòng)作、可玩的3D環(huán)境;英偉達(dá)發(fā)布Edify 3D,支持從文本提示或圖像直接生成4K級(jí)別的3D實(shí)體與場(chǎng)景。
在國(guó)內(nèi),除了影眸科技上線了AI 3D模型生成產(chǎn)品Rodin,騰訊也發(fā)布了3D生成開源模型Hunyuan3D-1.0,可同時(shí)支持文字、圖像轉(zhuǎn)3D資產(chǎn),最快10秒完成端到端生成。
可以說,全球3D大模型選手們都在暗中較量、默默發(fā)力,從a16z押注的Yellow、Kaedim、BackFlip,到李飛飛的World Labs,AI 3D生成的技術(shù)迭代正在加速逼近質(zhì)變的臨界點(diǎn)。
不過,從市場(chǎng)層面看,3D生成現(xiàn)階段所輻射的用戶群體仍集中于游戲、視頻制作、電商、工業(yè)設(shè)計(jì)等B端領(lǐng)域,C端市場(chǎng)的滲透率相對(duì)較低。
吳迪在和36氪的對(duì)談中對(duì)這一現(xiàn)象分析稱,與視頻、圖像以及音樂不同,3D資產(chǎn)現(xiàn)階段還無法輕松地通過社交媒體進(jìn)行分享和傳播。
尤其是在當(dāng)前以二維為主的設(shè)備環(huán)境下,普通用戶對(duì)3D資產(chǎn)的需求尚未成熟,消費(fèi)場(chǎng)景也較為有限,這一現(xiàn)狀很大程度上影響了3D生成技術(shù)在C端市場(chǎng)的普及與推廣。
“但隨著3D打印、AR和VR等消費(fèi)級(jí)產(chǎn)品的不斷發(fā)展和普及,3D生成有望在C端市場(chǎng)迎來爆發(fā)式增長(zhǎng)。”在吳迪看來,隨著技術(shù)的成熟,3D生成一定可以運(yùn)用在越來越多的領(lǐng)域,甚至像文字、圖像和視頻一樣成為普通用戶日常創(chuàng)作和分享的一部分。
圖:影眸團(tuán)隊(duì)在SIGGRAPH Real-time Live!環(huán)節(jié)展示Rodin 3D生成;圖源:企業(yè)供圖
正是基于對(duì)商業(yè)化的洞察,影眸在研發(fā)階段便以落地為目標(biāo),比如公司專注的“生產(chǎn)就緒(Production-Ready)”標(biāo)準(zhǔn)。
這個(gè)標(biāo)準(zhǔn)指的是生成的3D模型可以直接適配后期制作管線,進(jìn)入實(shí)際生產(chǎn)流程,從而將用戶的興趣轉(zhuǎn)化為真正的生產(chǎn)力工具,并產(chǎn)生實(shí)際商業(yè)價(jià)值。
“在更加遙遠(yuǎn)的未來,當(dāng)元宇宙、機(jī)器人成為生活中的一部分時(shí),3D生成必然會(huì)迎來真正的爆發(fā)。”吳迪表示。
近期36氪和影眸科技創(chuàng)始人吳迪進(jìn)行了對(duì)談,以下為采訪精編:
36氪:作為一家由高校孵化的企業(yè),影眸的商業(yè)化進(jìn)展很多都基于學(xué)術(shù)研發(fā),可以簡(jiǎn)單介紹一下嗎?
吳迪:影眸孵化于上海科技大學(xué),2016年起就在三維建模領(lǐng)域進(jìn)行研發(fā)。2024年,我們有兩篇和3D生成大模型相關(guān)的文章獲得SIGGRAPH最佳論文榮譽(yù)提名,兩次入選SIGGRAPH Real-time Live!,是該項(xiàng)目50年來首次入選的中國(guó)大陸團(tuán)隊(duì)。
36氪:Rodin為什么能做到上線僅45天就達(dá)到了100w美金ARR?
吳迪:主要得益于對(duì)市場(chǎng)的精準(zhǔn)定位以及產(chǎn)品力。在研發(fā)和產(chǎn)品開發(fā)的過程中,我們始終把“Production- Ready”作為研發(fā)的核心指標(biāo),我們要做的就是可直接使用的技術(shù)的研發(fā)。而且,在研發(fā)的過程中,我們對(duì)比了所有技術(shù)路線,沒有選擇當(dāng)時(shí)更被廣泛關(guān)注的“2D升維”的技術(shù)路徑,而是選擇了當(dāng)時(shí)并不被看好的“3D原生”路線,即從該模型的訓(xùn)練、監(jiān)督、生成都在三維中進(jìn)行。這雖然讓我們的產(chǎn)品比同行晚了半年發(fā)布,但也讓我們產(chǎn)品的生成效果在當(dāng)時(shí)的行業(yè)內(nèi)實(shí)現(xiàn)了代差級(jí)的領(lǐng)先。
36氪:在技術(shù)路徑上,影眸并沒有跟隨大多數(shù)人去采用2D升維的技術(shù)路線,而是選擇3D原生,這背后的考量是什么?
吳迪:2D升3D的路徑是當(dāng)時(shí)行業(yè)內(nèi)被普遍認(rèn)同,也是用的最多的,因?yàn)閺亩嘁暯堑亩S圖像來得到三維信息最符合大家直覺,同時(shí)大家普遍覺得三維資產(chǎn)不夠,需要用二維資產(chǎn)補(bǔ)足,但我們?cè)谧铋_始接觸目標(biāo)客戶的時(shí)候,我們就發(fā)現(xiàn)他們其實(shí)不只是需要能生成3D模型,更重要的是這個(gè)3D模型的可用性要足夠好。
我們當(dāng)時(shí)結(jié)合自己在圖形學(xué)領(lǐng)域數(shù)年的研究經(jīng)驗(yàn),認(rèn)識(shí)到當(dāng)三維數(shù)據(jù)被壓縮到二維時(shí),無論有多少視角,都無法完整表達(dá)物體三維結(jié)構(gòu)中的每個(gè)細(xì)節(jié),這會(huì)導(dǎo)致2D升3D的路徑很難達(dá)到客戶的使用標(biāo)準(zhǔn),同時(shí)3D原生能保留更多信息,生成質(zhì)量的上限會(huì)更高。
如果當(dāng)時(shí)選擇了2D升維這條路的話,我們可能很快就能推出產(chǎn)品,但最后還是沒這樣做,Rodin Gen-1比別人晚發(fā)半年左右。
36氪:但其實(shí)很多企業(yè)都會(huì)擔(dān)心自己的產(chǎn)品發(fā)布落后于同行,在做這個(gè)選擇的時(shí)候不會(huì)有顧慮嗎?
吳迪:這確實(shí)是一個(gè)“敢為天下后”的決定,但在當(dāng)時(shí)我們幾乎沒有猶豫,因?yàn)槲覀儓?jiān)定認(rèn)為只有3D原生的技術(shù)路徑才能達(dá)到更接近商用的標(biāo)準(zhǔn),我們?cè)趦?nèi)部把他稱為“Production- Ready”,這也是影眸研發(fā)和開發(fā)產(chǎn)品的核心標(biāo)準(zhǔn)。要達(dá)到“Production- Ready”,除了建出模型,還在3D表達(dá)、拓?fù)洹V展開、材質(zhì)等方面有更多要求。Rodin Gen-1雖然比其他產(chǎn)品發(fā)出的更晚,但它是最早跨過“可用性”那條標(biāo)準(zhǔn)線的3D大模型產(chǎn)品。當(dāng)然即使我們現(xiàn)在這一代模型已經(jīng)提升了質(zhì)量上限,它與真正可以接入到流程還有距離。
36氪:這種差距具體表現(xiàn)在哪里?
吳迪:由于在一些場(chǎng)景,比如游戲中要使用一個(gè)模型,他會(huì)有很嚴(yán)格的要求,比如在剛說到的拓?fù)浣Y(jié)構(gòu)、UV展開還有一些絕對(duì)的細(xì)節(jié)量上,即使我們已經(jīng)做的非常不錯(cuò),但仍舊會(huì)有距離。客戶在使用的過程中還是需要經(jīng)過修改甚至是重新制作。
36氪:公司的收入分布是怎樣的?
吳迪:我們有70%的收入來自海外,在美國(guó)、歐洲、日韓都有業(yè)務(wù)布局,其中歐美的份額占比較大,占大約50%以上。比如有一個(gè)來自德國(guó)的用戶,調(diào)用我們的API做了一個(gè)非常有吸引力的產(chǎn)品,這個(gè)產(chǎn)品甚至本身就超過了50萬美元的ARR。
36氪:影眸的核心客戶群體有哪些?
吳迪:目前還是集中在游戲、視頻制作、電商這些泛娛樂、新消費(fèi)場(chǎng)景。但3D生成也正在不斷地拓展使用邊界,像3D打印、具身智能、工業(yè)設(shè)計(jì)都是我們未來目標(biāo)的的核心用戶群。
36氪:有沒有具體的案例可以講一下?
吳迪:以我們與拓竹的合作為例,我們之間合作實(shí)際上是拓竹基于我們的技術(shù)開發(fā)出產(chǎn)品,然后將產(chǎn)品開放給客戶。在拓竹官方的printmo項(xiàng)目中,用戶僅需上傳一張圖片,AI就能把它轉(zhuǎn)換成寵物小精靈的風(fēng)格,然后由我們的技術(shù)完成3D生成,再由用戶的3D打印機(jī)打印為實(shí)體。這也是我們?cè)?D打印領(lǐng)域的第一次嘗試。
36氪:這些客戶的需求對(duì)于影眸在技術(shù)上的迭代有哪些影響?
吳迪:影眸的所有技術(shù)層面的迭代幾乎都是基于客戶需求的。比如說游戲、視頻制作等領(lǐng)域需要的模型都是拓?fù)湟?guī)整且合理、UV利用率高的模型,我們接下來的技術(shù)研發(fā)就會(huì)朝著這個(gè)目標(biāo)前進(jìn)。但當(dāng)我們橫跨到工業(yè)設(shè)計(jì)等領(lǐng)域,需求就完全不同。所以從最長(zhǎng)期的角度考慮,我們希望能夠找到一種一統(tǒng)天下的3D表達(dá)方式,可適配不同場(chǎng)景,對(duì)各種需求下的三維模型都能做到很好的轉(zhuǎn)換和適配。
2024年底,我們最新上線了Rodin Gen-1.5版本的模型,這次升級(jí)通過新一代3D原生表達(dá),全面解決了行業(yè)內(nèi)長(zhǎng)期存在的薄面與邊緣銳度問題,讓生成的模型有更加銳利和平直的邊緣。這個(gè)需求在游戲,尤其是產(chǎn)品設(shè)計(jì)領(lǐng)域中尤為重要。這次升級(jí)也讓我們的產(chǎn)品領(lǐng)先幅度再次擴(kuò)大。
36氪:影眸如何看待3D生成的未來發(fā)展?
吳迪:在未來3D生成還有很大的可供挖掘的空間。要實(shí)現(xiàn)在AR/VR/虛擬世界中的個(gè)人創(chuàng)作,就要解放用戶的3D內(nèi)容創(chuàng)作能力。作為構(gòu)建在三維空間中的世界,未來機(jī)器對(duì)世界的理解也必然基于三維。3D生成會(huì)實(shí)現(xiàn)空間智能的最重要組成部分。
點(diǎn)擊圖片即可閱讀
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.