作者| 金旺
2024年12月3日,美國斯坦福大學教授李飛飛第一個空間智能項目終于趕在年終歲末上線。
僅憑上傳的一張圖片,就可以生成一個可交互3D線上空間,這是李飛飛World Labs團隊帶給全球科技領域的第一個空間智能禮物。
在李飛飛這個項目上線不久前,位于大洋彼岸的中國上海,一家中國科技公司也完成了他們一次關鍵技術迭代,隨著這次技術迭代一同面世的,是他們內部籌劃多年的3D激光雷達產品——SLAMTEC Aurora。
與市面上大多數激光雷達不同的是,這款產品不需要基于任何特定平臺、也沒有什么安裝要求,甚至不需要進行二次配置,只要通電,Aurora就可以進入工作狀態。
在拿到這款產品后,他們的測試團隊先是拿著Aurora在一個多樓層的大型商場進行了逐層建圖,后又將它帶上了汽車,開車沿著上海內環跑了整整一圈。
陳士凱說,“當我們開車沿著上海內環線跑完一圈后,我們發現,帶在車上的Aurora已經把整個內環線的‘高清地圖’構建了出來。”
這是思嵐科技成立的第十二年,是陳士凱和他的團隊進入這一領域的第十六年。
在過去這十幾年里,陳士凱已經數不清究竟做了多少款激光雷達,嚴格意義上來說,思嵐科技并不是一家激光雷達公司,他們最初的定位是做空間定位導航。
不過,陳士凱一直覺得,空間定位導航這個詞太技術了,也無法很好地表達思嵐科技所做的事,直到今年,受李飛飛World Labs的啟發,陳士凱找到了一個可以更精準解釋他們在做的事的定位,空間感知。
和李飛飛的空間智能不同的是,陳士凱的空間感知是通過技術手段真真切切地將現實世界空間地圖“復刻”到虛擬世界的一條路徑。
在Aurora面世后,這條路徑成了具身智能機器人邁入現實世界的重要一步。
01 算力的量變和質變
2009年,智能手機剛剛面世,移動互聯網僅僅掀開了扉頁,國內硬件創業潮還未開啟,商業機器人依然是一件遙不可及的事情,這一年,身在當時全球科技霸主英特爾公司的陳士凱,有了創業的想法。
陳士凱形容自己是一個“不安分”的人,從小就喜歡動手做一些電子小玩意,大學進入上海交通大學后,本想在大三分專業時進入軟硬結合的自動化專業,卻又由于種種原因,選了更適合自己的計算機專業。
更重要的是,陳士凱身邊還有著一群同樣“不安分”的人,這讓他們在那個大多數人選擇進入外企謀一份不錯的工作或借著互聯網熱潮創業做網游的年代,有了創業做更硬核的機器人的想法。
2009年的國內市場,雖然沒有什么機器人產業,甚至沒有很好的機器人創業環境,但當時的陳士凱從PC產業的發展中發現,機器人這一終端產品的終極形態即將到來。
這樣的判斷源于當時他在行業中看到的一些變化。
首先是PC產業已經顯現出了沒落的趨勢,大家開始思考下一個有意義的時代、可能改變人類生活的產業是什么。
智能家居是當時很多人看好的一個未來產業,傳奇人物、蘋果iPod 之父Tony Fadell正是在2010年創業做了智能家居項目Nest,這家公司幾年后被谷歌收購,并由此掀起了智能家居熱潮。
此外,科大訊飛的語音合成技術在2008年首次超過普通人說話水平,后經上海世博會上的產品展示,開始嶄露頭角,人工智能技術率先在語音合成領域得到驗證。
對于陳士凱而言,這些都不是他想要做的,但這樣的變化讓他意識到:
“智能家居本質上是對PC的一次應用,或者說是計算設備的一次外延,而要讓智能家居有更高的靈活性,機器人就成了一個很好的載體;
人工智能技術未來一定會得到普及,而人工智能技術的終局,也將會是機器人。”
此外,當時身在英特爾的陳士凱還意識到了另外一個重要趨勢,那就是整個IT產業中的算力正在愈發具有可移動性。
如果說從基礎算力到可移動算力是一次量變,那么,算力從可移動到自主移動將是一次質變的飛躍。
于是,“不安分”的陳士凱拉著一群“不安分”的好友,開始研究如何做出一款家用機器人。
這一年還有另一個時代背景是,創客運動開始在全球興起,一個名為Maker faire活動席卷全球,也是在這時,互聯網上一個智能垃圾桶的演示視頻,讓陳士凱有了興趣。
那是一位不喜歡總是要跑到垃圾桶旁邊丟垃圾的日本極客的奇思妙想,他將自己家中的垃圾桶改造成了一個可以自主移動的智能垃圾桶,當你隨意丟出垃圾時,它會像接球一樣接到你丟出的垃圾。
這個智能垃圾桶,本質上已經是一個機器人,正是這樣一個機器人讓陳士凱更加確信,自主移動是研發機器人繞不開的問題。
然而,在那個機器人蠻荒時代,行業里并沒有很好的移動機器人解決方案,即便是掃地機器人鼻祖iRobot,當時使用的移動方案還停留在隨機碰撞方案,自主移動對于那時的機器人還是天方夜譚。
既然繞不過去,那么,陳士凱的團隊該用什么辦法來解決這個問題呢?
02 讓機器人有激光雷達可用
2020年10月,iPhone 12正式發布,和大多數通過增加攝像頭數量來提升智能手機攝影能力的方案不同,蘋果為iPhone 12 Pro系列產品增加入了一顆激光雷達,由此實現了景深測量和3D掃描建圖。
這樣的激光雷達應用,在十年前是無法想象的。
如果回到十年前,激光雷達更多是被應用在軍事和工業領域,動輒大幾萬的售價,勸退了很多想要將它應用到消費硬件中的團隊。
說起來,激光雷達是上世紀五六十年代出現的技術,最早可以追溯到1960年美國休斯實驗室發明的人類歷史上第一臺激光器,關于激光雷達的理論基礎,在2010年前后已經相當詳實,但真正要在消費領域應用,當時有參考價值的文獻寥寥無幾。
陳士凱認為,激光雷達是機器人自主移動解決方案的關鍵。
為此,他在那段時間里翻閱了很多文獻資料,直到看到一篇關于簡易激光測距的論文,才找到了方向。
在這篇論文中,作者簡述了一種通過一支激光筆、一個羅技攝像頭,基于三角測距原理實現的激光測距,不同于復雜的ToF原理,基于這種方法進行激光測距,硬件成本被控制到了300元左右。
陳士凱和他的團隊在工作之余,開始嘗試將這套系統復制出來,等到他們將這套系統復制出來后發現,測距效果遠超他們的預期,于是,他們又基于這套系統向前邁了一步——通過將激光筆固定在電機上形成旋轉器件,由此實現激光掃描圖。
更重要的是,陳士凱發現,他們后來由此設計出的激光雷達,并不比當時商用市場買來的激光雷達差多少。這讓陳士凱下定決心要研發一款可以用于消費級機器人的激光雷達,以此解決機器人最關鍵的自主移動難題。
從頭自研一款激光雷達,還是為了應用到消費級機器人上,讓機器人擁有自主移動能力,這件事兒在那個年代聽起來很瘋狂,尤其是科研領域還沒有什么能夠拿來做參考的學術成果,這讓這件事變得難上加難。
對于已經摸到方向的陳士凱來說,當時擺在他們面前的是三個現實問題:
第一,如何將激光筆+攝像頭這個雛形方案做得足夠小,小到可以裝到小型機器人里;
第二,如何讓攝像頭滿足激光雷達掃描過程中需要的采集幀率的需求,要知道,即便是今年蘋果發布的iPhone 16,攝像幀率最高也只能到120FPS,而激光雷達所需要的幀率至少要在1000FPS以上;
第三,如何將硬件成本控制在百元級,讓它適用于消費產品。
當得出這樣的結論,陳士凱和他的團隊是近乎絕望的,尤其是當時在國內芯片供應鏈中,想要找到一家能夠在這樣短時間內研發出提升10倍幀率的攝像頭幾乎是不可能的事。
山重水復疑無路,絕處往往也會有一線生機,對于陳士凱而言,這一線生機由Neato帶來。
Neato是掃地機器人發展史上另一個無法忽視的團隊,這個團隊成立于2005年,雖然他們成立時間不如iRobot早,但是他們卻是最早將激光雷達應用到掃地機器人的廠商。
2008年,Neato開發出了一款硬件成本在200元左右的激光雷達,并在之后發表的一篇論文中闡述了一種通過消費級CMOS芯片實現激光測距的方法。
由于Neato作為一家商業公司,相關專利還在申請中,論文中并未過多解釋實現方法,但這已經足夠證明,消費級CMOS確實可以用于激光雷達的研發。
那段時間里,陳士凱將市面上能找到的所有CMOS芯片的數據手冊拿來翻了個遍,后來是在機緣巧合之下發現,基于非常規用法和特殊配置,可以讓CMOS芯片超性能工作,但這往往不在芯片廠商原本支持的工作范圍之內。
突破了激光雷達的信號采集幀率問題后,陳士凱和他的團隊一步一步找到了自己的產品研發節奏,并在2012年底完成了第一代激光雷達產品RPLIDAR A1。
RPLIDAR A1在2014年正式面世,不僅實現了6米半徑范圍內2000次/秒激光測距,還將激光雷達的價格從萬元打到了2000元,兩年之后,經過重新設計的A1更是將價格打到了900元。
激光雷達至此不再讓機器人高不可攀,A1也成了思嵐科技改寫機器人歷史的起點。
03 干掉激光雷達,改寫機器人歷史
2015年,隨著產業鏈成熟和各種新奇的想法塵埃落定,屬于那一代人的創客運動接近尾聲,國內硬件創業進入集中爆發期。
中國商用機器人產業大門在這一年緩緩開啟,尤其是各類服務機器人在這一年開始涌入市場。
第一批涌入商用場景的服務機器人,大都遇到了一個經典問題——在一個千平、乃至萬平的商業大場景地圖構建過程中,通常會遇到各種環形走廊,機器人在經過這些環形走廊時,在機器人運行界面上,構建出的環路地圖總是無法首尾相連。
這就是機器人的閉環問題,究其原因,是因為當時激光雷達的閉環檢測理論不夠成熟,由此也使得那些年的機器人定位導航系統備受詬病。
陳士凱告訴我們,其實這個問題解決起來并不難,大家當時都能想到的是,用粒子濾波方案來解決這個問題。
對于這一方案,陳士凱做了一個通俗的比喻,一個人畫地圖總會有誤差,如果幾十、甚至上百人同時畫一張地圖,我們就可以以上帝視角,從其中篩選出最符合真實場景的地圖。
不過,通過粒子濾波方案雖然在一定程度上可以解決地圖的閉環問題,但也帶來了另一個問題——算力問題。
這里就不得不提到機器人另一關鍵要素,操作系統。
2007年,斯坦福大學人工智能實驗室里誕生了一個機器人開源操作系統項目,這個項目的創建者Willow Garage給它取了一個通俗易懂的名字Robot Operating System,這就是現在在全球機器人市場得到廣泛使用的ROS系統。
不過,陳士凱的團隊在做技術開發時,并沒有用這個操作系統。
其一是因為思嵐科技團隊前身創建較早,2009年的ROS系統還沒有完整的代碼庫,無法在市場中得到廣泛使用。
其二是陳士凱后來發現,ROS當時的目標并不是做成更具商業價值的產品,而是一個用于做技術研究的產物,因而ROS不會考慮很多商業問題,例如它不會考慮內存爆炸問題——機器人中的程序一直在跑,占用內存不斷增長,最終就會導致系統崩潰。
因而,原生的ROS系統往往需要非常豪華的硬件配置,以一臺掃地機器人為例,當年如果采用ROS系統,至少需要一顆英特爾的高性能處理器、內存也需要3-4G,整個算力存儲成本合下來要兩三千。
更重要的是,在創業之前,陳士凱在英特爾一個很特別的軟件研發部門工作,他在這個部門負責的工作是通過軟件優化讓硬件跑出更高的性能,這就是軟硬結合的理念。
不過,后來是另一家全球科技巨頭——蘋果將這一理念做到了全球之最。
正是在英特爾這段工作經歷,讓陳士凱認識到,未來真正能賦予機器人靈魂、改變機器人歷史的,是軟件,而非硬件。
于是,在研發機器人、解決機器人亟需的激光雷達時,思嵐科技內部也并行立項了一個研發機器人系統的項目,也就是思嵐科技的定位導航系統。
思嵐科技的定位導航系統一方面也是面向行業的一個開源系統,另一方面是思嵐科技如今諸如激光雷達、機器人移動底盤和開發平臺軟硬結合的關鍵。
陳士凱告訴我們,“思嵐科技的機器人操作系統走的路子有點像蘋果的iOS,雖然由于種種原因沒能像安卓系統一樣成為機器人領域全球廣泛使用的操作系統,但卻成了思嵐科技各產品線的一個核心技術壁壘。”
思嵐科技的定位導航系統自2014年隨RPLIDAR A1以模塊化方案一并發布后,如今已經經歷了三個大的版本,分別是:
在2016年研發完成的能夠滿足商用場景萬平建圖需求的2.0系統,在2019年引入在線閉環和自學習方案的3.0系統,以及在今年實現的以視覺為主,視覺、激光、慣導多傳感器融合的4.0系統。
搭載思嵐科技4.0版本定位導航系統的模塊化產品,就是前文提到的3D激光雷達產品——SLAMTEC Aurora,而Aurora已經不只是一個解決方案,陳士凱稱之為“思嵐科技的一次自我革命。”
在以往面對商用場景時,大場景建圖面積被視為一個重要指標,陳士凱稱,“如果按這個邏輯,在Aurora已經測試過的場景中,實現千萬平米建圖已經完全沒有問題。”
據陳士凱介紹,“思嵐科技團隊在將Aurora裝到汽車上并在上海內環測試時候,上海內環線全長是47.7公里,我們在整個測試過程中將內環線周邊全部房屋建筑都構建到了3D地圖中。”
在此過程中,激光雷達的建圖邏輯已經悄然改變。
在行業中已經摸爬滾打十幾年的陳士凱一個深刻的感受是,“行業真正需要的并不是激光雷雷達,而是空間感知能力。”
基于這樣的認知,陳士凱向我們透露,“我們未來的目標是干掉激光雷達這個品類。”
04 什么是具身智能的當下?
2022年11月,ChatGPT面世,人工智能進入到一個全新的時刻。
信奉軟硬結合的陳士凱一直認為,“一個不那么完美的硬件結合一個足夠智能的系統,往往會帶來真正的技術變革。”
毫無疑問,ChatGPT就是這樣一個足夠智能的系統。
因而,在ChatGPT面世后,思嵐科技團隊開始基于大模型做各種測試,例如讓大模型模擬一個機器人,向它輸入一個攝像頭畫面并讓它輸出一個控制指令。
當思嵐科技團隊通過語音指令讓大模型找出客廳中的冰箱時,大模型會先判斷這是一個客廳,然后觀察視野范圍內有沒有冰箱,如果沒有冰箱它會轉過頭來再探索背面的空間,看是否有冰箱,這是以往的算法所無法實現的。
陳士凱當時對此的分析是,“以往的機器人對你輸入的指令本質上是進行判斷,它并不具有歷史經驗,但是深度學習讓機器人有了這樣的可能。”
大模型讓機器人擁有了更擬人的思考能力,實際上,如今的Aurora在導航建圖上,同樣擁有了擬人的邏輯。
Aurora的擬人邏輯能力,在思嵐內部其實也經歷過多次蛻變。
時至今日,通過激光雷達進行導航建圖已被驗證,成本問題也早已不再是激光雷達進入機器人領域,乃至消費市場的瓶頸,但是激光雷達有著自身的先天缺陷。
例如面對長走廊只能采集到兩條平行的直線,面對高地起伏的路面,除非價格昂貴的3D激光雷達,普通激光雷達難以進行準確識別。
正因如此,早在2015年,思嵐科技內部就成立了視覺方案研究小組,開始重新基于視覺算法研究導航建圖方案。
也是在這一年,思嵐科技內部就有了一個名為Aurora的項目,當時陳士凱基于第一性原理在考慮空間定位產品的終極形態時,他認為,”未來激光雷達一定會是一個通電就能用的獨立設備。“
第一款實現陳士凱這一構想的產品是思嵐科技2018年對外發布的Mapper,不過,這款產品構建出的依然是二維地圖,無法識別出高低起伏的路面。
直到2024年年初,基于視覺、激光、慣導多傳感器融合思路的3D導航建圖產品Aurora正式立項。
在這代產品中,思嵐科技做了另一個大膽的嘗試,引入深度學習算法。
陳士凱告訴我們,“二維激光的結構簡單,能夠提取的特征數據并不多,因而行業里基于激光的深度學習研究已經觸碰到了行業前沿,另一方面,在引入視覺方案并以視覺方案為主導后,我們開始通過深度學習進行視覺算法的研究。”
自2015年重新研究視覺方案時,思嵐科技團隊發現,攝像頭直接影響了視覺方案最終的表現。
當時市面上已經有不少開源視覺算法,基于開源算法跑下來的數據各種好,等到基于攝像頭進行實際場景測試時,跑出來的數據并不理想,這顯然是攝像頭“有問題”。
“當時市面上沒有一款攝像頭能滿足我們的需求,”回憶起攻克視覺算法在導航建圖方面的難題時,陳士凱如是說。
為此,思嵐科技團隊最早在進行視覺算法研究之前,先是從攝像頭的研發入手,直接參與到了硬件設計和調校中,將研發出符合自己需求的攝像頭交到供應鏈廠商進行代工、生產。
這既符合以技術立命的思嵐科技的調性,也符合思嵐科技軟硬結合的發展思路,最終也成了2024年10月發布的Aurora的技術壁壘。
2024年10月,思嵐科技Aurora正式發布,Aurora的發布再一次將3D導航建圖方案的成本從萬元級打到了千元級,這讓思嵐科技對這款產品有了很高的期待,期待它可以為整個行業開啟3D建圖定位的新紀元。
此外,在Aurora對外發布時,陳士凱也給了它一個新的標簽——具身智能。
前不久,特斯拉官網上發布了一個新視頻,這個視頻展現了特斯拉的人形機器人通過內部視覺系統進行環境地圖構建、路徑規劃,并基于此執行最終目標任務的能力。
陳士凱看到這段視頻后發現,“特斯拉已經開始考慮落地到實際場景中的一些更為現實的問題,地圖構建、路徑規劃就是其中的一個關鍵問題,而特斯拉在視頻中展現的這套視覺系統其實與思嵐科技Aurora中采用的深度學習+視覺+激光雷達的方案有諸多相似之處。”
而談到具身智能,陳士凱認為,“機械臂+輪式底盤會是這幾年在實際商業場景中更有價值的形態,思嵐科技所擅長的是為這些機器人廠商提供包括運動控制、導航建圖在內的空間感知方案,機器人廠商則可以將更多精力放到在工廠搬運環節更需要的靈巧手的研發上。”
據陳士凱透露,基于這樣的思路,思嵐科技已經參與到了諸多具身智能機器人的場景落地中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.