99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

銀河通用:利用三維合成數據提升機器人泛化能力

0
分享至



合成數據才是真正能夠帶領具身智能進入泛化、實現通用的基石性數據。

文|閆佳佳

ID | BMR2004

近日,北京銀河通用機器人有限公司(下稱“銀河通用”)再次引發關注。天奇自動化工程股份有限公司(下稱“天奇股份”)發布公告稱,其與銀河通用簽署《合資公司投資協議》,雙方擬出資設立合資公司天奇銀河機器人有限公司(暫定名,以工商核準為準),整合雙方優勢及資源,就具身智能大模型及具身智能機器人在汽車制造產業相關領域規?;瘧梅矫嬲归_戰略合作。

銀河通用成立于2023年5月,創始人王鶴本科畢業于清華大學電子系、斯坦福大學博士,現擔任北京大學前沿計算研究中心助理教授、博士生導師。2024年6月,銀河通用推出了第一代產品Galbot G1,開始在藥店等場景進行商業化服務。

據悉,銀河通用憑借其創新的合成數據驅動技術和強大的多模態感知大模型,打造了這款能夠在現實環境中靈活應對各種情況的智能機器人。天奇股份方面表示,與銀河通用深度合作,將利用銀河通用在基礎大模型及泛化能力方面的核心技術優勢,重點推進大模型在汽車制造場景的研發應用,打造智能工業解決方案。后續視雙方合作及市場需求,合資公司將逐步開展汽車制造產業細分場景的專用具身智能算法研發,打造適應專用場景的機器人產品并實現規模化生產。

此外,銀河通用還與美團達成戰略合作,共同打造全球首個以人形機器人為核心的智慧藥房解決方案,實現了24小時無人值守,進一步推動了智能機器人在商業領域的應用。

01

合成數據驅動具身智能革命

通用機器人技術正成為研究熱點,通用機器人不僅需要理解人類的語言指令,還要能夠根據視覺信號和傳感器信息進行精確的操作。這背后的關鍵技術在于開發一個可以將這些輸入直接轉化為機器人關節控制信號的大模型。

薩摩耶云科技集團AI機器人產業研究員鄭揚洋接受《商學院》雜志訪談時表示:“國內企業積極探索多模態大模型技術,通過融合視覺、語言、觸覺等多模態信息,提升機器人的感知和理解能力。其中,高質量的多模態數據是訓練自然語言交互模型的基礎,但目前數據的獲取和標注成本較高,且數據的多樣性和完整性不足。此外,在復雜多變的現實環境中,模型的泛化能力仍需提升。”

高質量的數據對于訓練有效的機器人模型至關重要,在機器人領域,其操作復雜度遠超自動駕駛,需要處理多種物體和非平坦地形。而依賴人類遙控產生大量高質量數據效率低下,難以短時間內達到所需的千億條數據量級。

以谷歌的技術為例,谷歌在Mountain Village(美國加州)辦公室的廚房里采集了17個月,得到13萬條數據,使得其機器人在谷歌的廚房里表現可以非常好。但一旦出了這個廚房,需要考察其環境泛化性,它的成功率就從97%驟降到30%左右。并且這種泛化是有選擇的泛化,不是將其直接放到施工工地、非常嘈雜的后廚等場景中,它最大的問題就是數據采集沒有辦法做到Scalable(可擴展)。

面對數據和泛化能力的挑戰,銀河通用提出了一個創新的方法,通過合成數據驅動的具身多模態大模型解決這些問題。王鶴認為合成數據才是真正能夠帶領具身智能進入泛化、實現通用的基石性數據。

具體分析,二維視覺模型最大的特點是很難泛化。如果之前在黑色房間做訓練,那么換成白色的房間,此前的訓練就白費了。相較于傳統二維視覺模型難以適應環境變化的問題,三維合成數據能夠提供幾何信息,不受光照、紋理或顏色的影響,為機器人操作提供了更穩定的基礎。

采用三維合成數據更為有效,因為它不僅包含RGB圖像的信息,還能捕捉物體的幾何形態。例如,在抓取任務中,方形物體應夾持其兩側,而球形物體則需用手掌包裹。顏色雖然是視覺的一部分,但對于實際抓取操作來說往往是無關緊要的,甚至會增加干擾。通過使用三維幾何模態(即點云:一種表示三維空間中物體或環境的方法,它由大量離散的點組成,每個點代表了三維空間中的一個坐標位置),可以專注于物體的形狀特征,從而提高抓取的成功率和效率。

銀河通用的技術路線是從二維視覺擴展到三維空間,利用雙目紅外傳感器獲取信號,并結合擴散模型精確學習深度信息。這一過程基于自研的千萬場景合成大數據進行訓練,覆蓋了各種桌面布局、物體位置及其材質等復雜情況。

銀河通用機器人的標志性成果是構建了三層級大模型系統:底層是硬件層,中間層是三維視覺合成數據驅動的技能層,上層是大模型層。研究團隊還創建了世界上首個以零件為中心的數據集,覆蓋了各種家用電器上的主要操作零部件,如旋轉蓋、推蓋、轉鈕、按鈕等。這些數據幫助機器人理解不同部件的工作原理,然后在仿真環境中進行訓練。在仿真環境中,研究團隊標注了這些零部件的位置和使用方法,讓機器人能夠學習如何操作它們,例如開門或抽屜。最后將三維視覺技術和語言模型(如GPT-4V)進行結合。GPT-4V這樣的二維語言雙模態大模型具備強大的推理和感知能力,但它無法直接獲取物體在三維空間中的具體位置。因此,三維視覺模型提供了必要的補充,通過提供檢測到的零部件數量、位置和形態信息給GPT-4V,使其能夠生成具體的操作建議。

基于該系統,機器人可實現跨場景、跨物體材質、跨形態、跨物體擺放、依據人類語音指令進行的開放語義泛化抓取,成功率達95%。

02

開放語義指令驅動的空間智能大模型系統

銀河通用的開放語義泛化抓取能力,還得益于其研發的空間智能大模型系統。銀河通用研發了世界上第一個支持開放語義指令六自由度取放的空間智能大模型系統Open6DOR。該大模型系統突破了只能控制物體放置位置的局限性,進一步實現了通過開放語義指令對于物體在目標位置擺放姿態的精細控制,為具身大模型商業化應用展開更大想象空間。

具體來看,該大模型系統做到了六自由度物體的自由擺放。六自由度指的是三自由度的平動(上下、左右、前后)、三自由度的轉動(繞這三個軸的旋轉)。六自由度操作不僅能指定物體放在哪里,還能控制它的朝向。

Open6DOR是一個大型仿真平臺,里面包含2500個各種各樣的任務。這些任務不用于訓練,而是拿來檢測具身多模態大模型能不能完成,這其中涉及200多個家中常用物體。

銀河通用主要關注三類任務追蹤,第一是僅位置追蹤,比如把蘋果放到勺子的右邊、把瓶子放到錘子和改錐的中間;第二是僅旋轉追蹤,把錘子沖向左、易拉罐的標簽朝左、把碗上下顛倒。而實際需要的是位置加旋轉的任務執行,也就是六自由度追蹤,比如把盒子放到鍋和鍋蓋之間并讓標簽沖上,或者把卷尺放到中間且讓它立起來,像這樣的操作是桌面級操作里的關鍵性里程碑。誰能夠率先完成2500個任務,就說明大模型已經初步具備了開放指令能力。

針對2500個任務,銀河通用提出了一套方法。首先是抓取能力,銀河通用研發出全球首個可以實現基于仿真合成數據訓練任意材質的技術。通過海量的合成數據,解決了透明和反光物體的抓取難題。

王鶴表示,抓取不是簡單的從上往下抓,它其實是六自由度的抓取,利用GPT-4V等大模型提取并理解用戶給出的復雜指令,并通過Grounded-SAM等工具將指令中的物體分割出來,并且把其三維Bounding Box(邊界框)輸出給GPT-4V。GPT-4V理解這些物體現在的位置后,就會輸出應該把物體放在哪個位置的指令。

那么如何解決旋轉指令?GPT-4V無法直接輸出旋轉矩陣,沒有能力直接輸出機械臂左轉上轉橫轉分別多少度,它也并不知道轉軸在哪里。銀河通用采用了名為“Real-same-real”的流程,先將真實物體在仿真環境里面重建,再把重建的物體以Mesh形式進行自由落體,撒滿整個仿真環境,讓物體處于各種可能的位置。然后將這些位置交給GPT-4V評判并篩選出符合指令要求的最佳方案。

盡管銀河通用嘗試使用GPT-4V進行端到端的動作生成,但這種方法效率并不高。為了實現實時的動作生成,銀河通用提出了用中間的三維視覺小模型進行動作快速生成,大模型進行規劃的三層級思路。這比端到端的方法更快,更適合在線實時應用。雖然未來目標是實現端到端的視覺、語言和動作集成的大模型,但在此之前,需要先打好小模型的基礎,因為大模型在單一任務上需要的數據量遠大于小模型。

銀河通用通過整合各種小模型(如抓取、放置、柔性物體操作到關節類物體操作等),旨在融匯到大模型里實現通用機器人。

王鶴在2024中國生成式AI大會上表示,具身智能的未來還是端到端,通過構建端到端視覺語言動作大模型,將迅速革命現有的機器人產業。目前,銀河通用率先將多個小模型整合,成功打造出全球首個跨場景泛化的導航大模型Navid。該模型僅需圖片輸入就能讓機器人在未見過的環境中根據指令行動,模擬人類走路、找路的方式,而無需依賴三維定位、建圖或激光雷達等傳統技術。

Navid模型的獨特之處在于其訓練數據完全來源于對真實世界的仿真合成,在不使用任何實際世界中的動作數據的情況下,實現了真實世界中的Zero-Shot跨場景泛化能力。具體來說,該模型基于51萬個純仿真合成的室內環境視頻導航樣本(包括動作規劃和指令推理)以及76.3萬個來自現實世界的不含導航任務和動作信息的視頻數據進行訓練。它僅依靠單視角攝像頭采集的RGB視頻流作為輸入,避免了傳統導航技術中使用三維點云、里程計、深度圖等傳感器信號所帶來的sim2real gap問題。

高工機器人產業研究所所長盧瀚宸接受《商學院》雜志訪談時表示,機器人完全通過仿真合成數據訓練而達到高性能,這種方法相比傳統的物理數據采集而言具備高效率、低成本,可以無限量生產的優勢,尤其適用于數據量較大的需求,同時具備提供高度的多樣性和可控性。但是也存在缺點,比如數據質量可能依賴于生成算法的優劣,存在噪聲或與真實數據分布差異過大的情況。

03

Galbot G1,開創具身智能新時代

在具身智能領域先進技術的支持下,銀河通用推出了首款具身大模型機器人Galbot G1(以下簡稱G1),這款輪式、雙臂、身體可折疊的人形機器人身高1.73米,設計亮點包括大工作空間、腿部折疊實現地面抓取以及腰部前傾擴大手部操作范圍,使其向上摸高達2.4米。

G1于2024年6月在北京智源大會(BAAI)上首次亮相。在模擬的24小時無人值守便利店場景中,G1兩天內累計工作18小時,服務超過800位顧客,完成了1000多項任務。

從技術亮點來看,G1配備了一個聰明的感知決策“大腦”和精準控制身體進行復雜操作的“小腦”。例如,在接到倒飲料的指令時,它能夠自主詢問主人所需的飲料類型,并在得到橙汁的選擇后,準確地將橙汁倒入桌面的杯子中。即使遇到意外情況,如玻璃杯被打碎,G1也能迅速識別并清理隨機形狀的透明碎片,突破了必須對傳統機器人預先設定物體材質、形狀、光線條件的這一局限,展現出前所未有的泛化能力。

中關村物聯網產業聯盟副秘書長袁帥告訴《商學院》雜志,銀河通用G1的泛化抓取技術是通過自研具身大模型、端到端導航大模型以及創新的物理仿真及渲染方法實現的。這些技術創新使得機器人能夠直接泛化至真實世界,成功抓取各類復雜、未見過的物體。G1也展現了強大的感知、決策和執行能力。在感知層面,G1配備了先進的傳感器和視覺系統,能夠準確感知環境信息;在決策層面,其搭載了先進的AI算法,能夠快速做出最優決策;在執行層面,G1擁有靈活的機械結構和強大的動力系統,能夠精確執行各種任務。這些優勢使得G1在智能家居、工業自動化等領域具有廣泛的應用前景。

在場景落地方面,G1已經在藥店中進行了商業化服務,它能夠完成取貨、送貨、補貨等工作,以取貨為例,G1會自主進行三維場景重建并收集場景數據,消費者在圖形界面或語音下單后,G1根據重建得到的3D語義地圖找到相應商品位置,自主決策使用夾爪或者吸盤,精準拾取商品并放置到指定位置。

在工廠和車廠的應用中,G1在執行拆跺、料箱轉運工作時,面對多層堆疊、緊密放置的料箱,G1會基于每個料箱所處位置,推理并給出不同的雙臂抓取方案,自主規劃路徑搬運至相應位置,全程完全基于視覺引導,無二維碼等定位標識。

盧瀚宸表示,針對人形機器人下游應用市場主要可分為To B和To C市場,To B場景的核心是讓機器人成為生產力工具,補充稀缺勞動力或提高作業效率如上述的零售商超、制造業、藥店等場景;To C場景短期更多需要考慮從滿足消費者的情緒價值或某些特定功能需求作為切入點,如家庭場景,短期內一個全能型的家庭家務機器人似乎不易實現,但針對特定場景和需求的機器人是具備可行性的。

他進一步指出,選擇汽車行業作為突破口不是單一企業的選擇,目前來看,算得上是國內人形機器人企業的“淺共識”。一方面汽車行業在制造業體系中是體量規模最大的行業,同時也是生產標準化、自動化程度最高的行業之一;另一方面,汽車與人形機器人有諸多的相通性,汽車廠商對于人形機器人的認知度期許相對較高,從這一點算得上是雙向奔赴。

值得注意的是,銀河通用除了在商業、工業領域多方試點,快速推進落地應用的同時,也在不斷探索醫療康養、教育科研、家庭應用等場景,向服務千行百業、千家萬戶的愿景不斷挺進。

關于商業落地時間點,王鶴表示,現在的技術已達到了產業化的邊界,2025年或將是商用的“元年”,5年銀河通用的目標是在商業場景的無人值守和車廠、工廠等場景中的應用達到萬臺,10年后機器人的安全性或將達到進入家庭的標準,預計15年后將產生千萬級別的市場。

每一代技術變革,成本一直是影響技術商用化的重要因素。具身智能行業在推動具身智能技術商用化的過程中,如何平衡技術先進性和成本?在降低成本方面還有哪些潛力和空間?

盧瀚宸認為,降本一般有兩個路徑:技術創新和規?;?。在人形機器人未真正實現批量化產業落地之前,規?;€無從談起,該階段的降本主要依靠技術創新實現,如選用準直驅的關節模組方案、電容式的力傳感器方案、自主研發核心部件等。通過技術創新往往可以實現綜合成本倍數級的降低。

通過對全球主要人形機器人廠商的梳理調研,產業化落地的拐點有望在2026年之后,屆時規?;獙⒂型鲗Ы当镜倪M程,預計成本的年均降幅將超20%,到2030年人形機器人單臺硬件成本有望降至10萬元左右,到2035年人形機器人單臺硬件成本有望降至6萬元左右。

來源 | 2025年2&3月合刊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
被陳赫允許露臉的這一天,張子萱等了10年

被陳赫允許露臉的這一天,張子萱等了10年

娛樂皮皮醬
2025-04-14 23:58:47
滬上昔日網紅小吃“阿大蔥油餅”將重開,阿大的兒子說“這是背水一戰”

滬上昔日網紅小吃“阿大蔥油餅”將重開,阿大的兒子說“這是背水一戰”

澎湃新聞
2025-04-14 21:26:33
2025軟科中國大學排名發布:清華、北大、浙大居前三

2025軟科中國大學排名發布:清華、北大、浙大居前三

上觀新聞
2025-04-15 09:52:19
“從重、從嚴、從快”與案發后十四天執行槍斃

“從重、從嚴、從快”與案發后十四天執行槍斃

鄒談
2025-04-14 21:58:44
中國強勢回擊后,首個抵京訪問的外國元首來了,美財長警告遭無視

中國強勢回擊后,首個抵京訪問的外國元首來了,美財長警告遭無視

新葉健談
2025-04-15 14:15:39
剛剛!國家,重磅宣布

剛剛!國家,重磅宣布

米筐投資
2025-04-15 07:08:41
林高遠爆冷丟局,賽后發言有點可怕:還有自己打算,出線難度增大

林高遠爆冷丟局,賽后發言有點可怕:還有自己打算,出線難度增大

趙仔說
2025-04-15 15:27:37
最新預報!山河四省迎來強降雨天氣。山東多地中到大雨。

最新預報!山河四省迎來強降雨天氣。山東多地中到大雨。

小嵩
2025-04-15 14:20:03
10年后最可能貶成"白菜價"的8大資產:現在當寶的以后可能喂豬

10年后最可能貶成"白菜價"的8大資產:現在當寶的以后可能喂豬

阿器談史
2025-04-12 09:11:38
撞死一家三口肇事者父親威脅家屬,怨恨對方非要搞死他兒子

撞死一家三口肇事者父親威脅家屬,怨恨對方非要搞死他兒子

映射生活的身影
2025-04-14 17:27:36
沈佳妮不再隱忍,公開回應與朱亞文“婚姻真相”,陳思誠這波躺賺

沈佳妮不再隱忍,公開回應與朱亞文“婚姻真相”,陳思誠這波躺賺

小噎論事
2025-04-15 10:44:28
又一內鬼出現!打入中央內部,大量國家機密被泄露,作案過程曝光

又一內鬼出現!打入中央內部,大量國家機密被泄露,作案過程曝光

清游說娛
2025-04-14 17:26:26
西媒:若皇馬歐冠八強被淘汰,巴西足協將全力追求安切洛蒂

西媒:若皇馬歐冠八強被淘汰,巴西足協將全力追求安切洛蒂

直播吧
2025-04-15 14:46:18
中國當眾接下特朗普“戰書”,布林肯罕見露面,給白宮提了個醒

中國當眾接下特朗普“戰書”,布林肯罕見露面,給白宮提了個醒

冰雪財經官方
2025-04-15 14:39:05
你敢信嗎?歐盟27國剛剛上演了一場堪稱“精分現場”的貿易大戲!

你敢信嗎?歐盟27國剛剛上演了一場堪稱“精分現場”的貿易大戲!

小企鵝侃世界
2025-04-14 21:03:16
心虛!臺當局悄悄刪了

心虛!臺當局悄悄刪了

環球時報新聞
2025-04-14 15:07:51
中青報:農村老人自殺現象,已經到了觸目驚心的地步!

中青報:農村老人自殺現象,已經到了觸目驚心的地步!

尚曦讀史
2024-11-23 21:35:02
甲亢哥回美國后發18張照片,對中國印象一目了然,釋放了3個信號

甲亢哥回美國后發18張照片,對中國印象一目了然,釋放了3個信號

界史
2025-04-15 13:48:33
太陽確認,休賽期開啟交易,杜蘭特下家5選1,勇士冷門

太陽確認,休賽期開啟交易,杜蘭特下家5選1,勇士冷門

樂聊球
2025-04-15 16:18:09
阿爾茨海默病者逐漸增多,醫生提醒:50歲后,盡量改掉4個壞習慣

阿爾茨海默病者逐漸增多,醫生提醒:50歲后,盡量改掉4個壞習慣

39健康網
2025-03-18 18:31:19
2025-04-15 16:40:49
商學院雜志 incentive-icons
商學院雜志
本號由《中國經營報》社有限公司主辦,為商業領袖提供管理實踐與方法
6760文章數 22653關注度
往期回顧 全部

科技要聞

OpenAI放大招!GPT-4.1上線,編程戰力全開

頭條要聞

特朗普談俄烏沖突 把澤連斯基、普京和拜登一起批一頓

頭條要聞

特朗普談俄烏沖突 把澤連斯基、普京和拜登一起批一頓

體育要聞

父母是臺灣移民!女林書豪被WNBA球隊選中

娛樂要聞

娛樂圈模范夫妻塌房?私生活曝光!

財經要聞

美國財長,突然發聲!涉及“對華關稅”

汽車要聞

轉型中的"穩健派" 一汽-大眾的智能化突圍路徑

態度原創

教育
時尚
親子
房產
數碼

教育要聞

日本留學好考的等級考試!PJC日語考試答疑(1)基礎篇!

健身效果堪比“整容”!她們保持好狀態的秘密全都分享出來了

親子要聞

你家孩子有幾分像爸爸呢~

房產要聞

2300億砸向海南,一大波超級項目要來了!

數碼要聞

美版4nm工藝!AMD首次在美國臺積電生產Zen5 EPYC

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 慈利县| 黎城县| 合作市| 汉沽区| 昭觉县| 浮梁县| 申扎县| 合川市| 房产| 白朗县| 山阴县| 三原县| 香港| 内黄县| 汾西县| 衡阳县| 白水县| 遂川县| 肇州县| 闻喜县| 繁峙县| 澄迈县| 常宁市| 交口县| 互助| 镇雄县| 化州市| 南安市| 多伦县| 德格县| 安乡县| 涞源县| 普定县| 襄樊市| 额尔古纳市| 沙湾县| 康定县| 宜丰县| 宁南县| 买车| 余庆县|