網易首頁 > 網易號 > 正文申請入駐

商湯具身智能大招!最強多模態大模型登場,給機器人裝上大腦和眼睛

2025-04-11 12:04:27　來源: 智東西

北京舉報

分享至

作者 ZeR0

編輯漠影

國產大模型，給人形機器人裝上大腦、眼睛、耳朵和嘴巴了！

這位傅利葉通用人形機器人GRx，立即辨認出“水”和“可樂”，還能根據說話人提出的“想減肥+愛運動”需求，給出適合的建議。

讓它夸人，也是張口就來。

另一位具身智能機器人“飛燕”，能娓娓道來地描述眼前的場景，包括室內環境如何、人們在做什么。

這意味著以后機器人迎賓或當解說員，不再是站樁上崗了，而是活人感滿滿，更自如地跟人侃天侃地聊周圍，還能察覺眼前人的心情，通過改變語氣和音調給足情緒價值。

這些多模態能力，來自商湯剛剛發布的新一代「日日新SenseNova V6」大模型。

今天，「日日新SenseNova V6」火力全開，實現「長思維鏈 x 數理能力 x 推理能力 x 全局記憶」能力升級，包括最長64K思維鏈、大幅領先GPT-4o的數據分析能力、多模態深度推理國內第一、10分鐘長視頻理解及深度推理等強項，還展示了將先進視覺交互和理解引入機器人的應用效果。

商湯這次多模態能力的升級，讓人形機器人在視覺和語言能力上，具備了更趨近人的水平。

當智東西問到是否會做與行為能力相關的具身智能模型，商湯科技聯合創始人、執行董事及人工智能基礎設施和大模型首席科學家林達華干脆利落地回答：“這個肯定會去做。”

林達華說，商湯將“如何將機器人交互能力與具身智能的結合”視作一個非常重要的未來發展方向。他認為最終的AI交互形態是像人一樣交互，不會是對著一個電腦窗口，屆時從機器人、汽車到手機、眼鏡，多模態交互將無處不在。

除了當導游、講解員，「日日新SenseNova V6」也能玩創意，智東西實測了讓它給空白梗圖設計對話，腦洞開得既多又大。

它還能速覽中長分鐘視頻，總結重點內容，精確到視頻里的幾分幾秒，而且能按照用戶要求，將信息按列表形式輸出，或是剪輯指定場景的視頻片段。

只需在商量網頁版上傳一個視頻，你就可以做針對性的提問，比如“這倆人關系怎么樣？”、“這個人推薦的三個商品，哪個性價比高？”

你還可以讓它深入分析故事情節，比如分析某一集《名偵探柯南》里兇手是怎么下毒的。

林達華透露說，今年商湯將把視頻理解支持時長進一步提升到1小時。

商量App上的實時視音頻交互能力也非常絲滑方便，打開手機攝像頭，就可以哪里不懂問哪里。無論是鏡頭里一掃而過的街景，還是講解數學題和翻譯文字，或者看圖講故事，AI都信手拈來。

全新商量網頁版即日上線，商量App已開啟內測，日日新SenseNova V6 API明日上線。

網頁版指路：chat.sensetime.com

商湯還發布商湯大裝置SenseCore 2.0，同時推出四大行業解決方案，要做“最懂大模型的AI基礎設施”。

值得一提的是，國產芯片參與了「日日新SenseNova V6」的訓練。

商湯科技聯合創始人、大裝置事業群總裁楊帆告訴智東西，國產芯片這三年快速進步，商湯持續對進口及國產芯片做適配和優化，希望能提供市場最優的性價比。

2025年大模型發展有三大重要技術趨勢：效率至上、多模態、深度推理。

新發布的「日日新SenseNova V6」原生多模態通用大模型，采用混合專家架構（MoE），擁有6000億參數，做到三合一：多模態長思維鏈+多模態強化學習+多模態全局記憶。

其推理能力顯著提升，一個模型同時在多模態推理和純文本推理上做到性能對標國際領先模型。從商湯展示的分數來看，SenseNova V6 Reasoner推理模型的推理能力超過了OpenAI o1和Gemini 2.0 flash-thinking。

商湯也實誠地放出了SenseNova V6與OpenAI、谷歌、DeepSeek先進模型在純文本、多模態、純文本推理、多模態推理上的具體分數對比，總體旗鼓相當，高低略有參差。

其中，純文本推理和多模態推理方面，SenseNova V6在多項數學基準測試中的超過了DeepSeek-R1、OpenAI o1、GPT-4.5。

SenseNova V6的Tablebench通過率超過GPT-4o，展現出強推理能力。

主打實時視音頻交互的SenseNova V6 Omni，實現了視頻-語音交融的端到端輸入輸出，在多模態音視頻學術榜單上的綜合能力全面領先，單項能力對標專用大模型水準，做到視覺理解準確度高，語音錯誤率低。

在場景能力私域評測中，SenseNova V6 Omni在識別能力、問答對話、記憶能力等維度均顯著領先于同類產品。

模型不能紙上談兵，解決現實問題才是硬本事。商湯認為，大模型在商業應用上有兩個關鍵價值：融入真實的業務應用，優化與人交互體驗。

而真實世界中的對話，不是像跟DeepSeek對話那樣，把每個指令都描述得很完整清晰，可能隨手指著一個東西提問：“那個是啥？”“這道題怎么做？”

對應到機器人也是如此。

多模態融合模型可以成為機器人的大腦和眼睛，增強感知能力，像人一樣進行深入思考和自然表達，還有更強的記憶力，比如能夠記住之前來參觀過的人。

這使得機器人在落地到導覽等應用場景時，可以隨時隨地做講解，在網絡通暢的狀態下，實時理解和響應語音意圖，與人流暢對話，實現更擬人化的社交與互動。

得益于「日日新SenseNova V6 Omni」多模態能力的進化，機器人能夠看懂人的手勢，回答人們對周圍環境及物品的提問，根據對話內容和場景靈活切換交流方式，帶給用戶更真實、親切的互動體驗。

具身智能將是商湯多模態推理模型的重要場景之一。此次技術交流日上，商湯特別設置具身智能主題論壇。

談到近期引起輿論爭議的“朱嘯虎批量退出人形機器人”以及具身智能泡沫話題，作為人形機器人嘉賓代表，銀河通用合伙人、大模型負責人張直政談道，作為科研人員，他從謹慎樂觀的角度來看待，泡沫對于驅動科技創新很正常。

商湯科技聯合創始人、大裝置事業群總裁楊帆認為，科技產業要經歷質疑，克服質疑，才能邁向更認真嚴肅的產業階段，讓大家更認真的思考距離商業落地還有多遠。他相信多模態交互能力會給機器人帶來幫助。

在日常生活和辦公場景中，應用了「日日新SenseNova V6」系列模型后，也能帶來更多便利和生產力的提升。

比如上傳時長10分鐘以內的網課、旅游、生活類視頻，就可以讓AI快速整理重點、回答與視頻內容相關的問題。

商家可以收集顧客對新品的評論吐槽截圖，讓「日日新SenseNova V6」做專業的經營分析。

它還能解決真實辦公場景里繁瑣但重要的需求，包括信息管理、報告生成、運維日志生成、數學建模等。

另外通過商量app，不僅有常見的文字聊天、圖片問答、深度思考等功能，還能進行音頻通話和視頻通話，并針對四大高頻需求，提供「數學解題」、「點讀翻譯」、「文旅講解」、「繪本講解」四大功能。

你可以跟AI玩“你畫我猜”。在開場演示中，「日日新SenseNova V6」立即識別出用戶正在畫的是哪吒大電影里的太乙真人。它還能惟妙惟肖地模仿太乙真人角色的口音。

拍照解題幾乎已經是各類多模態AI聊天app的標配。但這些普遍要先拍照，上傳照片，再等AI輸出一個很長的答案。

而通過商量app實時視頻通話，AI可以像一個真人家教，精準識別手寫體，深度推理分析和定位錯誤，并針對錯誤點一步一步引導式講題。

外出旅游就更方便了，相當于在手機里擁有一個博學多識的免費導游，打開攝像頭一掃，想問什么都能立即獲得答案。你還可以把攝像頭對準外文書籍或菜單，讓AI實時翻譯。

在家庭場景，很多家長沒有時間讀繪本，或者得絞盡腦汁地給孩子講故事。這也可以由商量app代勞，它能實現連續記憶與時序邏輯理解，講述更完整生動的故事，還能挖掘故事深意，升華主旨。

上述進展離不開商湯在技術上的持續創新。會上，商湯著重強調了三類技術：

（1）多模態長思維鏈：通過智能體（Agents）協作進行長思維鏈合成和驗證，可支持合成最長 64K的多模態長思維鏈，使模型具備面對復雜問題的長時間思考能力。

（2）多模態強化學習：構建了面向多種圖文任務的混合增強學習框架，可以同步進行基于人類偏好的RLHF、基于確定性答案或沙盒運行的RFT，并通過動態調節機制保證主客觀表現的均衡。

（3）多模態全局記憶：可將視覺信息、聽覺、語言、與時間軸邏輯進行對齊，形成多模態統一時序表征。在此基礎上通過內容敏感的細粒度級聯信息壓縮，實現400倍的長視頻壓縮。

此外，SenseNova V6 Video將視頻理解時長突破到10分鐘，離不開長視頻統一表征和動態壓縮的技術進步，可將10分鐘長視頻壓縮到16K tokens，同時仍然保留關鍵語義。通過“視覺-聽覺-語義”三重關聯推理，它能發現視頻內容中的一些矛盾和漏洞。

大模型技術的高效落地與規模化應用，離不開高效穩定的算力底座。據商湯科技聯合創始人、大裝置事業群總裁楊帆透露，商湯大裝置已經將商湯多模態推理應用的成本降到和大語言模型一樣。

通過PD分離/通信計算折疊/FP8強化/算子優化等基礎設施與模型協同優化，結合預測模型驅動的彈性伸縮技術，商湯大裝置實現了推理性能的突破，在線服務性能較頭部廠商提升15%，超行業平均水平25%；離線推理方面，Prefill階段提速5倍，Decode階段提速3.5倍。

此外，商湯大裝置聯合某頭部客戶進行了大規模異構混訓，基于自動并行策略、跨芯通信、容錯恢復等核心技術，在5000張國產GPU集群上實現1個月穩定異構混訓，達成80%算力利用率，成功突破單一GPU限制，為國產芯片碎片化問題提供了關鍵解決方案。

商湯大裝置還宣布今年發放1億代金券，全棧賦能場景落地。

大模型算法與基礎設施的聯合優化，已經成為推動生成式AI飛速發展的核心動力。

當前，商湯正基于“大裝置-大模型-應用”三位一體核心戰略，全面構建未來競爭力，致力于通過基礎設施、大模型和應用的協同迭代，成為“最懂算力的大模型服務商”和“最懂大模型的算力服務商”。

基于三位一體戰略，商湯打造以日日新（SenseNova）多模態大模型為基石，以生產力工具和交互工具為兩大落地方向的“一基兩翼”布局。其中生產力工具側重在企業copilot、金融、政務，交互化工具側重在擬人交互、多模態交互、智能營銷。

從技術突破、商業落地到生態協同，商湯正在摸索出作為獨立AI企業的核心競爭力，深入真實場景需求，服務于大眾和企業日常，將多模態大模型的優勢真正落到實處，實現更智慧、更溫暖、更有用的人機交互。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.