衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
全球AI大模型智能涌現,現在正在進入“多模態時間”。
一方面,全球業內各式各樣的技術進展,都圍繞多模態如火如荼展開。
另一方面,AI應用和落地的需求中,多模態也是最重要的能力。沒有多模態技術,何談應用和落地?
實際上,多模態的先鋒共識和趨勢,把代表性玩家的進展連點成線,也能看出來……
看看行業公認的多模態卷王,階躍星辰——
剛剛過去的一個月,陸續上新的3款模型,全是多模態,有圖生視頻開源模型,有多模態推理模型,還有圖像編輯開源模型。
模態豐富,上新頻繁,性能出色。
之所以把階躍的這些發布連點成線解讀,也是因為階躍從一開始的強落地和強應用屬性。
目前,階躍已發布的模型里,七成都是多模態。鑒于多模態是Agent的必備要素,今年階躍化身「落地型玩家」的態勢愈發明顯:發力智能終端Agent。
過去一個月,卷王卷出了些啥?
據量子位整理回顧,過去一個月,階躍星辰接連上新了3款模型:
- Step1X-Edit:圖像編輯模型
- Step-R1-V-Mini:多模態推理模型
- Step-Video-TI2V:圖生視頻模型
它們覆蓋了當前多模態模型的幾大剛需方向,并且其中Step1X-Edit和Step-Video-TI2V已面向開發者開源。
怎么說呢,這很階躍,也很符合技術流和行業玩家們對“多模態時間”的追逐趨勢。
而這三款模型的具體情況,咱們掰開了來看——
Step1X-Edit圖像編輯模型,開源SOTA
第一個,來看最新鮮的圖像編輯模型,階躍于昨日剛剛發布并開源。
名為Step1X-Edit,總參數量19B。
值得注意的是,此處的“19B”,由7B MLLM和12B DiT構成——沒錯,Step1X-Edit首次在開源體系中實現MLLM(多模態大模型)與DiT的解耦式架構。
其中,7B參數MLLM負責語義解析,12B參數DiT負責圖像生成。
這一結構打破了傳統pipeline模型中“理解”和“生成”各自為營的問題,使模型在執行復雜編輯指令時具備更高的準確性與控制力。
什么概念?直接讓Step1X-Edit的性能達到開源SOTA:
在最新發布的圖像編輯基準GEdit-Bench中,Step1X-Edit 在語義一致性、圖像質量與綜合得分三項指標上全面領先現有開源模型,比肩GPT-4o與Gemini 2.0 Flash等閉源模型。
而階躍對Step1X-Edit的能力定位很具體。
首先是能“改圖”。
其次,也是這個模型更出色的一點,是不僅能“改圖”,更能“聽得懂、改得準、保得住”。
Be like:
但是,官方口徑如此,上手實測真的有如此言出法隨的效果嗎?
我們設置了三道關卡,并分別在階躍AI官網、階躍App和抱抱臉上進行了測試。
第一關,考驗其語義解析能力是否精準。
具體而言,我們想要考察的是Step1X-Edit是否能夠靈活執行prompt,是否需要復雜的prompt才能實現任務(畢竟一般玩家和咱一樣,都不是專業prompt大師)。
丟過去一張大象正面照和一句非常簡單的提示詞:
- 讓大象轉個身背對鏡頭。
不到30秒,大象就已經轉過身去不看鏡頭了(doge)。
而且大象掉頭轉身的同時,背景絲毫沒變,也看不出啥p圖痕跡。
第二關,考驗在面對人物or動物時,能否做到身份一致性保持。
此處隨用隨請的馬斯克,并“施咒”讓他變成禿頭。
Step1X-Edit不負眾望——
第三關,考驗Step1X-Edit是否具備高精度區域級控制。
喂給它一張相冊里的照片,prompt為“把珠海的海水p藍一點”,然后就得到如下效果圖:
它展示了自己精準的控制能力,定向分辨出“海”在圖片中占據哪些部分,也如提示詞要求的那樣讓海水變藍。
最后的附加題,感受一下Step1X-Edit修改圖片上文字的能力。
輸入一張有兩行字的圖片,并指定讓其中的“GREEN”修改為“階躍AI”字樣。
水靈靈的圖片就出現了:
有意思的是,生成過程中,除了進度條實時更新,界面還會出現一些玩法推薦,用來啟發用戶開發更多姿勢。
Step-R1-V-Mini多模態推理模型,輕量亦強大
多模態推理被視為AI模型理解這個世界的下一步重要落子,通過整合文本、圖像、音頻、視頻等多種模態數據,實現跨模態信息的深度融合與邏輯分析。
4月,階躍發布了Step-R1-V-Mini。它已上線階躍AI網頁端,并在階躍星辰開放平臺提供API接口。
這款模型支持圖文輸入、文字輸出,有良好的指令遵循和通用能力,能夠高精度感知圖像并完成復雜推理任務。在視覺推理榜單MathVision中,Step-R1-V-Mini位列國內第一。
可以看到,視覺推理、數學邏輯和代碼等方面,它的表現都十分優異。
整個模型的訓練過程中,階躍團隊做了兩項重要嘗試:
一個是多模態聯合強化學習。
Step-R1-V-Mini的訓練路徑基于PPO強化學習策略,在圖像空間引入verifiable reward來解決圖片空間推理鏈路復雜、容易產生混淆的相關和因果推理錯誤的問題。
相較DPO等,這一訓練方法在處理圖像空間的復雜鏈路時更具泛化性與魯棒性。
另一個是充分利用多模態合成數據。
目前的常用訓練過程相對難以獲得多模態數據的反饋信號。針對于此,階躍團隊設計了大量基于環境反饋的多模態數據合成鏈路,合成了可規模化訓練的多模態推理數據,并通過基于 PPO 的強化學習訓練同步提升模型文本和視覺的推理能力。
如此一來,有效避免了訓練蹺蹺板問題。
我們嘗試丟給它一張在北京道路上拍攝的圖片,但沒有告訴它地點,直接問:“這是哪兒?”
它頭頭是道,從建筑特征、道路與路燈、環境線索、交通標識等多個方面來分析。
推理分析過程中還注意到了拍攝者本人都沒留意的路燈上懸掛的紅燈籠……
最后得出了正確的結論:
- 綜上,照片拍攝于北京長安街西行方向,背景為CBD核心區,標志性建筑為中國尊。
甚至不只是定位到城市,還精確定位到了拍攝地點是哪條街,就說牛不牛吧。
除了看圖識別地點,Step-R1-V-Mini別的推理能力,我們也淺試了一番。
獻上一份香噴噴、辣滋滋的川香藤椒雞,詢問烹飪方法。
它一上來就根據大量的辣椒和花椒,把菜系縮小到了“川菜或湘菜”之中。而后一眼就看出了主要食材是雞肉,最后綜合判斷,鎖定了整個流程的主要步驟:煮雞→冷卻→切塊→拌入調料。
講真,它說出這道菜“看起來是經典的青花椒雞(或藤椒雞)”,還在最后說“冰鎮后更開胃”的時候,是有點驚到我的。
更驚喜的是階躍在官方公眾號里表示,Step-R1-V-Mini是多模態推理方向的「階段性成果」。
聽起來,還有大招在后面~
Step-Video-TI2V開源圖生視頻模型,動漫效果尤佳
從去年Sora出世至今,圖生視頻一直都很卷,是模型玩家們的兵家必爭之地。不過主要玩家還是集中在閉源賽道上。
階躍倒是一開始就抬腳邁入了開源領域,并且再接再厲——月前上新的Step-Video-TI2V,正是一款開源圖生視頻模型。
它訓練脫胎于30B參數的Step-Video-T2V,經由“引入圖像條件,提高一致性”和“引入運動幅度控制,賦予用戶更高自由度”兩大關鍵優化,目前支持生成102幀、5秒、540P分辨率的視頻。
此外,它還具備運動幅度可控和鏡頭運動可控兩大核心特點。
看看下圖從其生成視頻中截取的動圖展示。從左至右,畫面中的運動幅度依次為2 / 5 / 10 / 20(數值越大,動態性越強)。
感興趣的朋友們可以到階躍AI網頁端或者階躍AI app體驗
21款模型,打開終端Agent想象力
算上過去一個月里上新的上述3款模型,截至目前,階躍Step系列基座模型共推出21款。
這些模型大致可分為語言模型、多模態模型、推理模型三大類,其中多模態模型占比超七成。
量子位整理了這21款模型,用一張表格呈現:
而完成這21款模型研發與上架對外,階躍只用了2年時間,就成為了國內基座模型種類最全的公司之一,無論是數量還是模型性能都穩居第一梯隊。
2025年之前,階躍各種模型“年紀雖輕”,但已經廣受市場歡迎,陸續被大量一線品牌和AI開發者們接入。
今年2月,量子位曾對階躍星辰的外部合作伙伴們進行過梳理。消費品牌,如茶飲品牌茶百道、咖啡品牌瑞幸;AI應用如貍譜、胃之書、林間聊愈室、歌詞爆改機等,都接入應用了階躍多模態模型的能力。
2025年開始,階躍模型又開始在智能終端Agent上合作與發力。
并且是多點開花那種,覆蓋車 、手機、具身智能、IoT四大關鍵場景。自今年2月在生態日上官宣以來,時隔2個月已經有一系列業務進展,合作圖譜已經初步形成——
智能汽車場景上,階躍與吉利汽車集團、千里科技緊密合作,共同推動“AI+車”的深度融合。
今年的上海2025車展,吉利就展示了基于階躍端到端語音模型打造的智能座艙。通過方言對話、擬人化交互、音樂生成等功能,展示了階躍多模態技術的成熟度。
手機終端場景上,階躍的多模態模型已經在OPPO多款年度旗艦機型中落地應用。
「一鍵問屏」和「一鍵全能搜」兩大創新性AI手機功能均由階躍提供多模態技術支持。用戶使用小布助手App,可以通過多模態視覺跟AI交互;喚醒小布助手后,可以根據用戶指令自動完成一系列的搜索操作任務,跨App執行命令毫無障礙。
具身智能場景上,階躍先與稚暉君創業的智元機器人牽手,后又與曠視三劍客創業的原力靈機合作。
據官方介紹,階躍與前者的重點落在“圍繞世界模型技術探索、具身智能領域數據合作、新零售等應用場景開展深度合作”,而同后者的合作重點則是“圍繞多模態大模型技術、智能終端 Agent 與具身智能場景展開深度協同,共同推動AGI在物理世界的應用落地”。
IoT終端場景上,階躍通過生態開放的方式,與包括TCL在內的一系列IoT平臺和設備廠商緊密協作,推動設備間的智能化升級和體驗的無縫連接。
以上四大場景中,階躍均采取了與行業第一梯隊選手深度合作的方式,實現從技術研發到場景落地的全價值鏈閉環。
不可否認,與單一技術授權相比,這種深度綁定模式更具競爭壁壘,也更適合一個模型起家的創業公司在垂直領域扎根和深挖,進一步打開終端Agent的想象力。
AI大模型已經進入多模態時間
如果說1個月內上新3款模型,彰顯的是階躍一貫的作風:在多模態領域的投入大、迭代快。
那么拉通細數階躍所有模型矩陣——已形成覆蓋語言、語音、圖像、視頻、推理五大方向的完整能力版圖,縱觀階躍與各個垂直領域頭部玩家的牽手——實現終端Agent在速度與廣度的戰略升維,從單點突破到系統作戰的轉變,一切都能看出這家公司的「布局廣」和「落地先」。
值得回味的是,階躍是國內大模型創業公司中,最后一名浮出水面的。但展現的是謀定而后動,以終為始的戰略思考和執行。
作為大模型領域的超級新星,階躍是大模型賽道不容忽視的重要組成力量,殺出了其多模態矩陣全面的口碑,技術也始終保持領先。
它僅用兩年時間便后來居上,以「多模態技術奇襲+終端Agent破局」的雙輪驅動模式,以「數據-場景-模型」的三角閉環,在智能終端領域,重構交互范式與產業價值鏈。
并且在已經錨定的領域,即智能終端相關商業世界,重構終端交互范式與產業價值鏈。
技術縱深決定天花板高度、開源開放加速生態裂變、場景深耕打通商業化命脈。
這恰恰印證了當前最大的行業趨勢:
AI大模型正在進入多模態時間,AI從“文字處理器”進化為“世界解讀者”。
從OpenAI的GPT-4o到谷歌的Gemini 1.5 Pro,再到最新的階躍Step1X-Edit,全球科技巨頭正以多模態能力突破為核心展開新一輪競賽。
在這個新舊范式交替的臨界點,拒絕多模態進化的AI模型與應用,或將就此成為數字達爾文主義淘汰賽中的失落者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.