網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

多模態(tài)能力國(guó)內(nèi)最強(qiáng)！商湯日日新V6讓AI融入“百姓之日用”

2025-04-12 21:06:11　來(lái)源: 單行科技

天津舉報(bào)

分享至

2025年4月10日，商湯科技舉辦2025技術(shù)交流日活動(dòng)，重磅推出全新升級(jí)的“日日新SenseNova V6”（以下簡(jiǎn)稱(chēng)：日日新V6）大模型體系，通過(guò)多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)的技術(shù)突破，形成領(lǐng)先的多模態(tài)推理能力，并突破成本邊界。

「日日新 V6」模型能力顯著提升，在長(zhǎng)思維鏈、推理、數(shù)理、全局記憶方面擁有顯著優(yōu)勢(shì)，多模態(tài)推理能力國(guó)內(nèi)第一，對(duì)標(biāo)OpenAI o1，數(shù)據(jù)分析能力大幅領(lǐng)先GPT-4o；同時(shí)，高效能與低成本完美結(jié)合：多模態(tài)訓(xùn)練整體效率對(duì)齊語(yǔ)言訓(xùn)練實(shí)現(xiàn)業(yè)內(nèi)最低、推理成本均實(shí)現(xiàn)業(yè)界最低；全新的輕量級(jí)全模態(tài)交互模型SenseNova V6 Omni帶來(lái)了國(guó)內(nèi)最強(qiáng)的多模態(tài)交互能力；涵蓋國(guó)內(nèi)首個(gè)支持10分鐘中長(zhǎng)視頻深度解析的大模型，對(duì)標(biāo)Gemini 2.5 Turbo達(dá)到同類(lèi)型最強(qiáng)。

商湯科技董事長(zhǎng)兼首席執(zhí)行官徐立表示：“AI之道，在于百姓之日用。商湯日日新V6將跨越多模態(tài)邊界，釋放推理與智能的無(wú)限可能。”

多模態(tài)長(zhǎng)思維鏈、強(qiáng)化學(xué)習(xí)、全局記憶，日日新V6率先實(shí)現(xiàn)多模態(tài)下深度思考

作為擁有超6000億參數(shù)的MoE原生多模態(tài)通用大模型，「日日新 V6」實(shí)現(xiàn)了多項(xiàng)技術(shù)突破，憑借單一模型就可以完成文本、多模態(tài)等各類(lèi)任務(wù)：

長(zhǎng)思維鏈：超過(guò) 200B 高質(zhì)量多模態(tài)長(zhǎng)思維鏈數(shù)據(jù)，最長(zhǎng) 64K 思維鏈；
數(shù)理能力：數(shù)據(jù)分析能力大幅領(lǐng)先 GPT-4o；
推理能力：多模態(tài)深度推理國(guó)內(nèi)第一，對(duì)標(biāo) OpenAI o1；
全局記憶：率先在國(guó)內(nèi)突破長(zhǎng)視頻理解，支持10分鐘的視頻理解及深度推理。

在權(quán)威的推理能力及多模態(tài)能力評(píng)測(cè)中，「日日新 V6」在多個(gè)維度獲得SOTA：

【核心指標(biāo)】純文本任務(wù)綜合性能優(yōu)秀，比肩國(guó)際一線模型；多模態(tài)性能領(lǐng)先，各方面性能突出；純文本推理與多模態(tài)推理能力均均對(duì)標(biāo) GPT-4.5 和 Gemini 2.0 Pro 等國(guó)際一流模型的水平

【強(qiáng)推理能力】日日新融合模型從 5.5 到 V6 / V6 Reasoner，推理能力顯著提升。在獨(dú)立評(píng)測(cè)中，多模態(tài)和語(yǔ)言深度推理任務(wù)上同時(shí)超過(guò)了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平

基于超過(guò)200B高質(zhì)量多模態(tài)長(zhǎng)思維鏈數(shù)據(jù)，商湯通過(guò)多智能體協(xié)作進(jìn)行長(zhǎng)思維鏈合成和驗(yàn)證，「日日新 V6」形成了突出的多模態(tài)推理能力，可以支持合成最長(zhǎng) 64K 的多模態(tài)長(zhǎng)思維鏈，支持模型長(zhǎng)時(shí)間思考能力。

針對(duì)真實(shí)環(huán)境存在的復(fù)雜問(wèn)題，「日日新 V6」強(qiáng)大的混合圖文理解推理能力，能夠幫助用戶解決各類(lèi)問(wèn)題。

在復(fù)雜繁瑣的文檔處理場(chǎng)景中，「日日新 V6」同樣能夠以多模態(tài)強(qiáng)推理能力解決用戶難題，快來(lái)商湯辦公小浣熊體驗(yàn)：

以保險(xiǎn)理賠場(chǎng)景為例，「日日新 V6」可根據(jù)商業(yè)醫(yī)療保險(xiǎn)理賠材料，判斷提供材料是符合理賠要求，檢查是否存在亂開(kāi)藥、亂檢查、材料缺失或者材料對(duì)不齊等問(wèn)題。

小額理賠雖然金額小但往往耗費(fèi)時(shí)間長(zhǎng)（3-7天），而交給「日日新 V6」，它能自己檢測(cè)到風(fēng)險(xiǎn)提示，自己交叉驗(yàn)證，最后再給到用戶非常細(xì)節(jié)、多維的結(jié)論，完成模型到客戶使用的最后一公里

得益于多模態(tài)強(qiáng)化學(xué)習(xí)的突破，商湯構(gòu)建了面向多種圖文任務(wù)的混合增強(qiáng)學(xué)習(xí)框架，基于不同難度分級(jí)和多獎(jiǎng)勵(lì)模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。

國(guó)內(nèi)首個(gè)！視頻理解打破10分鐘限制，超長(zhǎng)內(nèi)容實(shí)現(xiàn)秒級(jí)推理拆解

憑借“全局記憶”能力，「日日新 V6」打破了傳統(tǒng)模型僅支持短視頻的限制，可支持10分鐘級(jí)視頻全幀率解析。

基于強(qiáng)大的理解能力，「日日新 V6」還可以對(duì)視頻的精彩內(nèi)容進(jìn)行智能剪輯輸出，幫助用戶保留珍貴瞬間。

針對(duì)一段《黑神話》游戲錄屏，游戲玩家們?nèi)粘７e累的游戲錄制、實(shí)況，輸入「日日新 V6」理解精彩內(nèi)容和值得記錄的時(shí)間，剪輯出高光時(shí)刻，同時(shí)可自定義生成解說(shuō)文案，幫助分享游玩經(jīng)驗(yàn)和游戲內(nèi)的精彩操作

商湯自研技術(shù)可將視覺(jué)信息（畫(huà)面）、聽(tīng)覺(jué)信息（語(yǔ)音、音效）、語(yǔ)言信息（字幕、口語(yǔ)）、時(shí)間軸邏輯進(jìn)行對(duì)齊，形成多模態(tài)統(tǒng)一時(shí)序表征。在此基礎(chǔ)上通過(guò)細(xì)粒度級(jí)聯(lián)信息壓縮和內(nèi)容敏感的動(dòng)態(tài)過(guò)濾，實(shí)現(xiàn)長(zhǎng)視頻的高比例壓縮，10分鐘視頻可以壓縮到 16K tokens，仍然保留關(guān)鍵語(yǔ)義。

真正像人一樣交互，「SenseNova V6 Omni」發(fā)布即實(shí)現(xiàn)多行業(yè)落地

伴隨日日新SenseNova V6的發(fā)布，商湯日日新實(shí)時(shí)交互融合大模型升級(jí)至「SenseNova V6 Omni」，在角色扮演、翻譯點(diǎn)讀、文旅導(dǎo)游、講解繪本、數(shù)學(xué)講解等場(chǎng)景下進(jìn)行了深度優(yōu)化。

以翻譯點(diǎn)讀場(chǎng)景為例，「SenseNova V6 Omni」讓用戶通過(guò)手指就能實(shí)現(xiàn)精準(zhǔn)位置的空間交互，并精準(zhǔn)理解局部信息與全局信息的關(guān)系，帶來(lái)更符合人類(lèi)自然直觀的指讀交互體驗(yàn)。

「SenseNova V6 Omni」擁有更像人的感知和表達(dá)能力、情感理解能力，并已在具身智能等領(lǐng)域?qū)崿F(xiàn)多行業(yè)、多場(chǎng)景落地，成為國(guó)內(nèi)首個(gè)商業(yè)化的全模態(tài)實(shí)時(shí)交互模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.