機器之心報道
機器之心編輯部
Q-Insight不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,促使模型深度思考圖像質(zhì)量的本質(zhì)原因。有了會思考的“大腦”,視頻云技術(shù)棧不僅得以重塑也讓用戶體驗有了躍遷。
從 GPT-4o 吉卜力風、即夢的 3D 動畫、再到蘋果 Vision Pro,AI 視覺創(chuàng)作正迎來生產(chǎn)力大爆炸。一個重要問題隨之浮現(xiàn):如何評估機器生成的畫質(zhì)符合人眼審美?人眼能瞬間辨別圖像優(yōu)劣,但教會機器理解「好看」卻充滿挑戰(zhàn)。
視覺革命,呼喚新的畫質(zhì)「評估師」
作為人們?nèi)粘?nèi)容消費的核心載體,音視頻在過去幾十年間經(jīng)歷了從低分辨率、有限色彩到超高清沉浸體驗的技術(shù)躍遷。這場視覺革命的背后,音視頻相關(guān)技術(shù)始終是其中的技術(shù)支柱,支撐著內(nèi)容從生產(chǎn)、處理、編碼、傳輸?shù)较M的全鏈路運作。
隨著生成式人工智能與多模態(tài)大模型的發(fā)展,用戶視頻體驗有了深刻變革。
首先,內(nèi)容生產(chǎn)將從 UGC/PGC 發(fā)展到 AIGC,伴隨視頻生成模型與智能工具的普及,極大的降低了視頻生產(chǎn)的門檻。同時,AIGC 也推動「音視頻」成為新的「通用」語言,為用戶提供了更多元、更生動的交流方式。
其次,得益于 AI 的深度學習能力及其自我進化的特性,交互方式正從以往的人機交互、人人交互,邁向人與 AI 融合交互的新時代。
最后,用戶的交互空間也在從 2D、3D、VR,逐步拓展到虛實融合的全新空間,這帶來了更沉浸的交互體驗,讓實時互動更加「身臨其境」。
面對多模態(tài)大模型對視頻生態(tài)以及技術(shù)架構(gòu)影響,視頻云作為底層基礎(chǔ)設(shè)施正面臨機遇和挑戰(zhàn)。
Q-Insight:深度思考,「看懂」畫質(zhì)
在音視頻鏈路中,采集、壓縮、處理、傳輸、播放等環(huán)節(jié)大多都基于一個核心問題展開,即人眼的畫質(zhì)感知。多模態(tài)大模型的快速發(fā)展為新時代的音視頻技術(shù)帶來了新的機遇,面對人眼感知的畫質(zhì)理解提供了一種全新的解決方案。
以往的畫質(zhì)理解的方法主要分為兩類:(1)評分型方法,這類方法通常只能提供單一的數(shù)值評分,缺乏明確的解釋性,難以深入理解圖像質(zhì)量背后的原因;(2)描述型方法,這類方法嚴重依賴于大規(guī)模文本描述數(shù)據(jù)進行監(jiān)督微調(diào),對標注數(shù)據(jù)的需求巨大,泛化能力和靈活性不足。
針對上述問題,北京大學與火山引擎多媒體實驗室的研究人員聯(lián)合提出了基于強化學習訓練的多模態(tài)大模型圖像畫質(zhì)理解方案 Q-Insight。
論文鏈接:https://arxiv.org/pdf/2503.22679
與以往方法不同的是,Q-Insight 不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,促使模型深度思考圖像質(zhì)量的本質(zhì)原因。通過這種創(chuàng)新思路,Q-Insight 在質(zhì)量評分、退化感知、多圖比較、原因解釋等多個任務(wù)上均達到業(yè)界領(lǐng)先水平,具備出色的準確性和泛化推理能力,并且不依賴大量高成本的文本數(shù)據(jù)標注。
Q-Insight 首次將強化學習引入圖像質(zhì)量評估任務(wù),創(chuàng)造性地運用了「群組相對策略優(yōu)化」(GRPO)算法,不再依賴大量的文本監(jiān)督標注,而是挖掘大模型自身的推理潛力,實現(xiàn)對圖像質(zhì)量的深度理解。如圖所示,Q-Insight 不僅輸出單純的得分、退化類型或者比較結(jié)果,而是提供了從多個角度綜合評估畫質(zhì)的詳細推理過程。
實驗結(jié)果充分驗證了 Q-Insight 在圖像質(zhì)量評分、退化檢測和零樣本推理任務(wù)中的卓越表現(xiàn):在圖像質(zhì)量評分任務(wù)上,Q-Insight 在多個公開數(shù)據(jù)集上的表現(xiàn)均超過當前最先進的方法,特別是在域外數(shù)據(jù)上的泛化能力突出,并能夠提供完整詳細的推理過程。
在退化感知任務(wù)上,Q-Insight 的表現(xiàn)顯著優(yōu)于現(xiàn)有的退化感知模型,尤其是在噪聲和 JPEG 壓縮退化類型識別的準確性上。
在零樣本圖像比較推理任務(wù)上,Q-Insight 無需額外監(jiān)督微調(diào),即可準確、細致地分析和比較圖像質(zhì)量,展示出強大的泛化推理能力。
大腦升級,重塑視頻云技術(shù)棧
以多模態(tài)畫質(zhì)理解大模型 Q-insight 作為基石之一,火山引擎視頻云已經(jīng)圍繞多媒體鏈路搭建起基于大模型的解決方案。
大模型算法能力包含有生成式畫質(zhì)增強大模型、沉浸音頻大模型、生成式視頻編碼大模型、多模態(tài)內(nèi)容理解大模型等。此外,已有的傳統(tǒng)媒體處理能力也與大模型能力方案形成有機結(jié)合與互補,其中包括軟件編解碼 BVC 系列、硬件編碼器、處理增強能力、分析和理解能力等。
通過基于 MLLM 實現(xiàn)的多媒體智能體,可以面向不同復雜的業(yè)務(wù)場景與用戶需求,做到感知理解、智能決策規(guī)劃和輸出算法能力方案。相比傳統(tǒng)依據(jù)經(jīng)驗調(diào)控的方案,多媒體智能體具有鏈路更智能、算法效果上限更高,并且更貼近實際業(yè)務(wù)和人眼感知等優(yōu)勢。
此外,結(jié)合視頻云自研多媒體處理框架 BMF 以及大規(guī)模多媒體實驗仿真平臺 VLAB 等工程支持,進一步提高了大模型媒體服務(wù)的穩(wěn)定性和效率,有效降低了部署成本。
超越技術(shù),體驗躍遷
火山視頻云產(chǎn)品正在把用戶從流暢、實時、高清的數(shù)字視頻世界帶入更智能、更交互、更沉浸的 AI 視頻世界。這不僅意味著技術(shù)的飛躍,更代表著體驗方式的一場變革。
在大模型和生成式 AI 技術(shù)的強勁推動下,音視頻處理的底層技術(shù)正經(jīng)歷著深刻的變革。
首先對算力層的要求尤為顯著。生成式 AI 技術(shù)大幅降低了視頻生成的門檻,導致視頻數(shù)據(jù)以驚人速度增長。所以也對計算成本和處理效率提出了嚴峻的挑戰(zhàn)。
在算法層,編解碼、處理、分析等音視頻處理的核心技術(shù),正在與大模型不斷的深度融合。這種融合不僅提升了編解碼效率以及畫質(zhì)表現(xiàn),更為用戶帶來了更加優(yōu)質(zhì)的視頻體驗。
在框架層,隨著視頻生成大模型和預處理所需的計算需求日益增長,我們需要構(gòu)建更強大、更靈活的多媒體處理框架,不僅要能夠支持大模型的高效運行,還要能夠滿足日益復雜的音視頻處理需求,以應(yīng)對生成式 AI 帶來的挑戰(zhàn)。
火山引擎多媒體實驗室是字節(jié)跳動旗下的研究團隊,致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標準化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎視頻云的企業(yè)級客戶提供技術(shù)服務(wù)。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數(shù)項國際級技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎及最佳論文獎。
火山引擎視頻云,以「體驗」為核心,基于字節(jié)跳動億級 DAU 打磨的音視頻技術(shù)融合 AI / 大模型技術(shù),打造集視頻直播、企業(yè)直播、視頻點播、智能處理、實時音視頻、云游戲、云手機、veImageX 等于一體的一站式音視頻服務(wù),幫助企業(yè)端到端提升視頻能力,實現(xiàn)播放體驗、畫質(zhì)體驗、交互體驗、性能體驗的全面提升與創(chuàng)新。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.