2025年4月10日,商湯科技舉辦2025技術(shù)交流日活動(dòng),重磅推出全新升級(jí)的“日日新SenseNova V6”(以下簡(jiǎn)稱(chēng):日日新V6)大模型體系,通過(guò)多模態(tài)長(zhǎng)思維鏈訓(xùn)練、全局記憶、強(qiáng)化學(xué)習(xí)的技術(shù)突破,形成領(lǐng)先的多模態(tài)推理能力,并突破成本邊界。
「日日新 V6」模型能力顯著提升,在長(zhǎng)思維鏈、推理、數(shù)理、全局記憶方面擁有顯著優(yōu)勢(shì),多模態(tài)推理能力國(guó)內(nèi)第一,對(duì)標(biāo)OpenAI o1,數(shù)據(jù)分析能力大幅領(lǐng)先GPT-4o;同時(shí),高效能與低成本完美結(jié)合:多模態(tài)訓(xùn)練整體效率對(duì)齊語(yǔ)言訓(xùn)練實(shí)現(xiàn)業(yè)內(nèi)最低、推理成本均實(shí)現(xiàn)業(yè)界最低;全新的輕量級(jí)全模態(tài)交互模型SenseNova V6 Omni帶來(lái)了國(guó)內(nèi)最強(qiáng)的多模態(tài)交互能力;涵蓋國(guó)內(nèi)首個(gè)支持10分鐘中長(zhǎng)視頻深度解析的大模型,對(duì)標(biāo)Gemini 2.5 Turbo達(dá)到同類(lèi)型最強(qiáng)。
商湯科技董事長(zhǎng)兼首席執(zhí)行官徐立表示:“AI之道,在于百姓之日用。商湯日日新V6將跨越多模態(tài)邊界,釋放推理與智能的無(wú)限可能。”
多模態(tài)長(zhǎng)思維鏈、強(qiáng)化學(xué)習(xí)、全局記憶,日日新V6率先實(shí)現(xiàn)多模態(tài)下深度思考
作為擁有超6000億參數(shù)的MoE原生多模態(tài)通用大模型,「日日新 V6」實(shí)現(xiàn)了多項(xiàng)技術(shù)突破,憑借單一模型就可以完成文本、多模態(tài)等各類(lèi)任務(wù):
- 長(zhǎng)思維鏈:超過(guò) 200B 高質(zhì)量多模態(tài)長(zhǎng)思維鏈數(shù)據(jù),最長(zhǎng) 64K 思維鏈;
- 數(shù)理能力:數(shù)據(jù)分析能力大幅領(lǐng)先 GPT-4o;
- 推理能力:多模態(tài)深度推理國(guó)內(nèi)第一,對(duì)標(biāo) OpenAI o1;
- 全局記憶:率先在國(guó)內(nèi)突破長(zhǎng)視頻理解,支持10分鐘的視頻理解及深度推理。
在權(quán)威的推理能力及多模態(tài)能力評(píng)測(cè)中,「日日新 V6」在多個(gè)維度獲得SOTA:
【核心指標(biāo)】純文本任務(wù)綜合性能優(yōu)秀,比肩國(guó)際一線模型;多模態(tài)性能領(lǐng)先,各方面性能突出;純文本推理與多模態(tài)推理能力均均對(duì)標(biāo) GPT-4.5 和 Gemini 2.0 Pro 等國(guó)際一流模型的水平
【強(qiáng)推理能力】日日新融合模型從 5.5 到 V6 / V6 Reasoner,推理能力顯著提升。在獨(dú)立評(píng)測(cè)中,多模態(tài)和語(yǔ)言深度推理任務(wù)上同時(shí)超過(guò)了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 的水平
基于超過(guò)200B高質(zhì)量多模態(tài)長(zhǎng)思維鏈數(shù)據(jù),商湯通過(guò)多智能體協(xié)作進(jìn)行長(zhǎng)思維鏈合成和驗(yàn)證,「日日新 V6」形成了突出的多模態(tài)推理能力,可以支持合成最長(zhǎng) 64K 的多模態(tài)長(zhǎng)思維鏈,支持模型長(zhǎng)時(shí)間思考能力。
針對(duì)真實(shí)環(huán)境存在的復(fù)雜問(wèn)題,「日日新 V6」強(qiáng)大的混合圖文理解推理能力,能夠幫助用戶解決各類(lèi)問(wèn)題。
在復(fù)雜繁瑣的文檔處理場(chǎng)景中,「日日新 V6」同樣能夠以多模態(tài)強(qiáng)推理能力解決用戶難題,快來(lái)商湯辦公小浣熊體驗(yàn):
以保險(xiǎn)理賠場(chǎng)景為例,「日日新 V6」可根據(jù)商業(yè)醫(yī)療保險(xiǎn)理賠材料,判斷提供材料是符合理賠要求,檢查是否存在亂開(kāi)藥、亂檢查、材料缺失或者材料對(duì)不齊等問(wèn)題。
小額理賠雖然金額小但往往耗費(fèi)時(shí)間長(zhǎng)(3-7天),而交給「日日新 V6」,它能自己檢測(cè)到風(fēng)險(xiǎn)提示,自己交叉驗(yàn)證,最后再給到用戶非常細(xì)節(jié)、多維的結(jié)論,完成模型到客戶使用的最后一公里
得益于多模態(tài)強(qiáng)化學(xué)習(xí)的突破,商湯構(gòu)建了面向多種圖文任務(wù)的混合增強(qiáng)學(xué)習(xí)框架,基于不同難度分級(jí)和多獎(jiǎng)勵(lì)模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。
國(guó)內(nèi)首個(gè)!視頻理解打破10分鐘限制,超長(zhǎng)內(nèi)容實(shí)現(xiàn)秒級(jí)推理拆解
憑借“全局記憶”能力,「日日新 V6」打破了傳統(tǒng)模型僅支持短視頻的限制,可支持10分鐘級(jí)視頻全幀率解析。
基于強(qiáng)大的理解能力,「日日新 V6」還可以對(duì)視頻的精彩內(nèi)容進(jìn)行智能剪輯輸出,幫助用戶保留珍貴瞬間。
針對(duì)一段《黑神話》游戲錄屏,游戲玩家們?nèi)粘7e累的游戲錄制、實(shí)況,輸入「日日新 V6」理解精彩內(nèi)容和值得記錄的時(shí)間,剪輯出高光時(shí)刻,同時(shí)可自定義生成解說(shuō)文案,幫助分享游玩經(jīng)驗(yàn)和游戲內(nèi)的精彩操作
商湯自研技術(shù)可將視覺(jué)信息(畫(huà)面)、聽(tīng)覺(jué)信息(語(yǔ)音、音效)、語(yǔ)言信息(字幕、口語(yǔ))、時(shí)間軸邏輯進(jìn)行對(duì)齊,形成多模態(tài)統(tǒng)一時(shí)序表征。在此基礎(chǔ)上通過(guò)細(xì)粒度級(jí)聯(lián)信息壓縮和內(nèi)容敏感的動(dòng)態(tài)過(guò)濾,實(shí)現(xiàn)長(zhǎng)視頻的高比例壓縮,10分鐘視頻可以壓縮到 16K tokens,仍然保留關(guān)鍵語(yǔ)義。
真正像人一樣交互,「SenseNova V6 Omni」發(fā)布即實(shí)現(xiàn)多行業(yè)落地
伴隨日日新SenseNova V6的發(fā)布,商湯日日新實(shí)時(shí)交互融合大模型升級(jí)至「SenseNova V6 Omni」,在角色扮演、翻譯點(diǎn)讀、文旅導(dǎo)游、講解繪本、數(shù)學(xué)講解等場(chǎng)景下進(jìn)行了深度優(yōu)化。
以翻譯點(diǎn)讀場(chǎng)景為例,「SenseNova V6 Omni」讓用戶通過(guò)手指就能實(shí)現(xiàn)精準(zhǔn)位置的空間交互,并精準(zhǔn)理解局部信息與全局信息的關(guān)系,帶來(lái)更符合人類(lèi)自然直觀的指讀交互體驗(yàn)。
「SenseNova V6 Omni」擁有更像人的感知和表達(dá)能力、情感理解能力,并已在具身智能等領(lǐng)域?qū)崿F(xiàn)多行業(yè)、多場(chǎng)景落地,成為國(guó)內(nèi)首個(gè)商業(yè)化的全模態(tài)實(shí)時(shí)交互模型。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.