大語言模型“狂飆”,如何與具身智能領域緊密結合?
從 ChatGPT 以驚艷之姿闖入大眾視野,到DeepSeek驚艷全球,人們不斷驚嘆于大語言模型的強大能力;緊接著,2025 蛇年春晚舞臺上,機器人扭秧歌的精彩表演又掀起一陣科技狂潮。從智能對話到靈活起舞,這背后都繞不開一個關鍵領域 —— 具身智能。在科技飛速迭代的當下,具身智能如何突破發展瓶頸?又將如何重塑我們的未來生活?
讓我們翻開清華大學全球創新學院院長、自動化系教授兼博導劉云浩的新書《具身智能:人工智能的下一個浪潮》,探尋其中的奧秘。
大模型如何“接地”
最近,大語言模型的熱潮席卷了整個技術界,也迅速與具身智能領域緊密結合。有人形象地說,引入大模型就像是給機器安裝了一個新的大腦,似乎只要將其簡單地嵌入,就能賦予機器全新的生命力。
先來說“加 bu?(增益)”的地方。
首先,大語言模型能夠幫助智能體與人類以自然語言進行交流。人類能夠直接說出任務要求,大模型能夠對此進行編碼并得到更加方便機器進行處理的語義表示形式。同樣,大模型也能夠根據智能機器當時的狀態生成自然語言,反饋給人類。這正如我們所看到的 Figure 01 機器人與人類用戶對話交流并執行任務的過程。
大模型與具身智能
其次,大模型能夠提供一些解決問題的“常識”,或者說高層次的語義指導。例如,如果我們問它:“如何把大象裝進冰箱?”大模型可能會輸出:“拉開冰箱門,把大象放進去,關上冰箱門。”我們姑且不論這個方案的可行性如何,大模型確實是能夠將解決問題的完整過程拆解成多個子步驟并且給出一個執行方案的。因此,大模型具備成為優秀的行動規劃器的潛力。
最后,多模態大模型,例如預訓練的視覺—語言模型(Visual-Language Models,VLMs),能夠為智能機器進行多模態感知和認知提供更為通用的選擇。例如,CLIP 能夠將視覺信息和文本映射到統一的表征空間,使得機器能夠直接以視覺數據作為輸入。3D-VLA 提出了一種新的三維視覺—語言—動作模型,它通過引入一個生成世界模型來無縫連接三維感知、推理和動作。與現有的基于 2D 輸入的 VLA 模型不同,3D-VLA 更加貼近現實世界的 3D 物理環境。
當然,除了生成自然語言,大模型在未來也是能夠生成可用的代碼的。Code as Policies 通過訓練大語言模型來為機器編寫策略代碼。給定自然語言的指令,大模型生成一段代碼,然后這段代碼就可以在智能機器上運行,持續接收傳感器的輸入并輸出行動指令。有研究證明,這種生成代碼的方式比直接生成行動規劃要更好。VoxPoser 也是使用了大模型來生成代碼,然后這個代碼與前面提到的視覺—語言模型進行交互,為后續的動作規劃提供信息。
大模型當前遇到的挑戰
接下來我們說說當前遇到的挑戰。大模型的一個顯著缺陷就是缺乏現實世界中的經驗。還是剛才說的,如果我們給大模型一個“把大象裝進冰箱”的任務,它可能會正兒八經地生成一段邏輯上合理的指導,卻不會思考這樣的步驟是否真的能實現。
為解決這一問題,谷歌的一項研究 SayCan 提出使用預訓練技能,為模型提供現實世界的知識基礎,這樣大語言模型輸出的內容就被約束在這些預訓練技能對應的范疇內。這種方法有點類似于我們為大模型準備好了很多能夠執行的 API(應用程序編程接口),然后大模型通過調用它們完成行動。在這種配置中,智能機器充當模型的“手和眼”,執行具體任務,而大語言模型則負責提供關于任務的高級語義指導。GLiDE 嘗試在大模型的語義和智能機器在物理世界的行動軌跡之間建立關聯,這個過程使用了人類的演示數據,這樣系統就能夠將自然語言的任務指令翻譯為機器的具體行動序列。
剛才討論的一些方法很多都是利用其他應用領域預訓練好的大模型,因此需要進行額外的“接地”操作,即從大模型輸出的符號(語言、代碼等)轉換到物理世界的行動。而谷歌的 RT 系列大模型,通過端到端的訓練一步到位輸出行動序列。在 RT—1 中,谷歌科學家首次提出一個模型類,叫作 Robotics Transformer(RT)。RT—1 的設計思路秉承了大模型“力大磚飛”的理念,也就是說,模型容量大,可以吸收大量的各類數據,也可高效地泛化。
之后的 RT—2 似乎不滿足之前的訓練力度,于是將基于互聯網規模數據訓練的一個視覺—語言模型直接整合到端到端機器人控制中,進一步提升模型的泛化能力。
而 2024 年新推出的 RT—H 開始走分層路線,提出行動層級(action hierarchy)的概念,將復雜任務分解成簡單的語言指令,然后將這些指令轉化為機器人的行動,以提高任務執行的準確性。
例如,以“蓋上開心果罐的蓋子”這一任務和場景圖像作為輸入,RT—H 會利用視覺—語言模型預測語言動作,如向前移動手臂和向右旋轉手臂,然后根據這些語言動作,輸出具體的機器行動。這個過程允許人類的干預,人 類的修正也能夠幫助機器進行學習。
可以這么說,大模型作為目前人工智能領域的一個方法論,必將成為具身智能發展的重要推動力。我們有理由相信,不久的將來,具身智能體將具備執行通用任務的能力和強大的學習能力,它們將能夠更深入地理解我們的世界,并以前所未有的方式參與其中。
至少,在回答“如何把大象裝進冰箱”這一問題時,一個“充滿人性”的具身智能體可能會這樣回答:“首先,我們需要確認大象是否有意愿被關進冰箱里;其次,考慮到大象的體量,我們可能需要一個特制的大型冰箱;最后,確保在關上冰箱門之后,大象擁有足夠的空間和舒適的環境。”
DeepSeek—— 開啟 AI 平民化新時代
2025 年的科技圈中,如果有誰還沒聽說過 DeepSeek, 那么就等于被時代拋在身后了。這款由中國團隊“深度求索”(DeepSeek)研發的大語言模型,憑借“技術突破、低 成本與開源”的組合策略,迅速成為全球 AI 領域的新焦點。
DeepSeek 之所以能在短時間內爆火,首先要歸功于它對 AI 技術平權的推動。DeepSeek v3 僅用 GPT—4 大約十分之一的訓練成本,就達到了與后者相當的性能。這種“以小博大”的低成本模式為更多中小型團隊帶來了希望,讓AI 從原先的“巨頭玩具”轉變成“大眾工具”。DeepSeek R1 公布后,不少研發團隊受其啟發,紛紛借鑒 R1 的技術路線,以更易負擔的成本研發大模型,就好像“拼多多”在電商領域用低價策略打開市場一樣,DeepSeek 同樣憑借開源和成本優勢,迅速拉近了普通人與尖端 AI 的距離。
除此之外,DeepSeek 的開放生態也產生了強大的“滾雪球效應”。通過開放核心技術,DeepSeek 為全球開發者提供了協同改進模型的機會。這種與維基百科類似的模式不僅加速了技術迭代,而且還允許企業在本地或私有云環境中部署自己的 DeepSeek 實例,從而降低對 OpenAI 等廠商的依賴。在這種“你中有我、我中有你”的生態里,新功能和新技術能夠快速孵化,最終反哺整個 AI 產業。正因如此,DeepSeek v3 和 R1 一經推出,各路服務商便紛紛宣布對其進行集成或給予支持。
當然,資本市場對 DeepSeek 的追捧也為其知名度的提升推波助瀾。自 2025 年 1 月開始,AI 概念股一路飆升,中證軟件指數更是在短短數周內上漲 23.1%,與 DeepSeek 相關的公司獲得了資本的“熱捧”。更具戲劇性的是,DeepSeek 在 2025 年 1 月底因過度火爆而遭遇了國家級對手的 DDoS(分布式拒絕服務)攻擊。有人調侃,這是對 DeepSeek 實力的另一種“官方認證”,更進一步印證了它引發的巨大影響力。
DeepSeek 的崛起并不是一次簡單的技術升級,而是一場可能改變行業規則的“地震”。傳統大模型訓練往往動輒耗資數千萬美元,而 DeepSeek v3 采用 FP8 混合精度訓練等創新手段,將單次訓練成本壓到約 550 萬美元,讓人們第一次看到了“以經濟艙價格享受商務艙服務”的可能。與此同時,DeepSeek 的全面開源也打破了閉源模型長期以來的壟斷地位,為醫療、教育等垂直領域的中小公司帶來“二次開發”的機遇,從而催生了一場類似于安卓系統之于手機行業的變革。更引人注目的是,DeepSeek R1-Zero 還是首個完全基于強化學習訓練的大模型,這意味著它能夠像小朋友學騎自行車那樣,通過試錯完成自我迭代和進化,逐漸擺脫對人工標注數據的嚴重依賴。
隨著 DeepSeek 的步步崛起,中美之間的 AI 競爭格局也受到了影響。美國企業更傾向于依賴 GPU 芯片等硬件優勢,以大算力硬扛大模型的方式來開拓技術前沿陣地。相 比之下,中國團隊則更加注重模型壓縮、算法優化等“以巧取勝”的策略,這種“技術瘦身”繞過了對高端算力的 嚴重依賴,也拓寬了 AI 落地場景的廣度。DeepSeek 的成功證明,不總是需要頂尖算力,通過工程和算法創新,也可能在 AI 領域取得突破。與此同時,生態模式的分歧也日益明顯。如我們在“大模型的困局”中所述,科技巨頭大多偏向閉源,牢牢掌控技術話語權,但 DeepSeek 所倡導的開源生態,吸引著全球眾多開發者加入“技術共同體”。這種 自下而上的“群眾路線”不僅能不斷豐富 AI 應用場景,還可能瓦解傳統巨頭建立起來的護城河。這種競爭態勢的轉 變,本質上是基礎理論創新與應用落地兩種發展路徑的碰 撞,而中國在智能制造、智慧城市等領域的深厚產業基礎, 正在為 AI 技術提供得天獨厚的試驗場。
當我們站在 AI 開始全面走入普通人生活的開端展望未來時會發現,DeepSeek 依然有漫長的道路要走。它目前的重點在于文本處理,未來可能會擴展至圖像、視頻等多模態領域, 向真正的“全能型 AI 助手”進化。同時,通過邊緣計算技術, DeepSeek 或許能在智能手機、AR(增強現實)眼鏡等設備上實現離線翻譯、實時 AR 導航等功能,讓更多人真正體驗到“AI 飛入尋常百姓家”的便利。更深遠的影響或許在于,以DeepSeek 為代表的開源大模型可能像云計算重構 IT 基礎設施那樣,通過開源社區構建 AI 時代的“水電”網絡,讓開發者如同調用電力般便捷地使用 AI 技術。
前進的道路上依然存在不少挑戰。數據安全與隱私保護的沖突仍需謹慎應對,國際政治環境帶來的風險也不容小覷。但就像蒸汽機拉開工業革命的大幕,DeepSeek 所代表的 AI 平民化趨勢,很可能正在開啟智能時代的大門。
DeepSeek 的崛起不僅僅是一家中國企業的逆襲之路, 更是 AI 技術實現民主化的重要里程碑。它用開源去挑戰壟斷,用低成本推動普惠,用工程智慧彌補算力短板,而這場“破圈”革命帶來的意義,恰如網友所戲稱的“過去 AI 是‘神仙打架’,現在終于輪到凡人修仙了”。我們都將是親歷者與見證者。
摘自《具身智能:人工智能下一個浪潮》
《具身智能:人工智能下一個浪潮》
劉云浩著
中信出版集團
2025年1月
作者簡介:
劉云浩,清華大學全球創新學院院長,清華大學自動化系教授、博導,ACM Fellow,IEEE Fellow, ACM主席獎、國家自然科學二等獎、教育部技術發明一等獎、中國計算機學會自然科學一等獎和中國電子學會自然科學一等獎獲得者。在清華大學自動化系獲得工學學士學位,在美國密西根州立大學計算機系獲得工學碩士和工學博士學位。曾任清華大學軟件學院院長和美國密西根州立大學計算機系系主任。
內容簡介:
人類已經完成了“人工智能初級階段”的原始積累,正式進入向“更高階段”邁進的時代。在人工智能誕生之初,其目標或許是實現具身智能--這種智能體不僅擁有物理形態,還能與物理世界進行互動。
具身智能這條路徑能通向通用人工智能嗎?邏輯學、統計學、神經科學和計算機科學等領域的研究者分別從符號主義、聯結主義和行為主義三個綱領出發研究人工智能。打造通用人工智能是否需要第四種綱領?還是依靠這三者的融合就能解決?這些問題現在給出確定的答案還為時尚早,但知古而論今,本書以當前比較火熱的具身智能話題為引,討論人工智能的過去、現在和將來。
#書中自有黃金屋,讀書互動#
你對“具身智能:人工智能下一個浪潮“如何看?
歡迎關注公眾號“互聯網思想”并在本文評論區留言,隨機精彩原創的3位讀者將有機會獲得本書一本。活動限一周!
為偉大思想而生!
AI+時代,互聯網思想(wanging0123),
第一必讀自媒體
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.