靠著吉卜力,OpenAI 又大出了一把風頭。但實際在過去的一周里,有不少模型發布了版本更新,包括 DeepSeek,Gemini,Qwen。個個都是在推理上有所增強,以及多模態的支持。
每次有新的推理模型升級或者出現,怎么領略它們的能力很棘手。說白了,老讓它們做題也沒什么意思。
周末打游戲的時候,我忽然意識到:游戲不就是最好的試驗場景嗎?
版本齊齊更新,推理能力再上一層
Qwen 在周五的凌晨發布了全新自家視覺推理模型的全新版本 QvQ-Max。不僅能夠「看懂」圖片和視頻里的內容,還能結合這些信息進行分析、推理,甚至給出解決方案。
Gemini 這邊,則是三月 25 日推出的 2.5 Pro Experimental,推理、寫代碼以及多模態理解都有全面提高。在數學和科學基準測試(如 GPQA 和 AIME 2025)中排名超越 OpenAI 的 03 mini。
帶有 100 萬個標記上下文窗口,能夠理解龐大的數據集并處理來自不同信息源的復雜問題,包括文本、音頻、圖像、視頻甚至整個代碼存儲庫。
再說一遍:推理能力對于模型而言,不只是解解數學題而已。更重要的是, 讓推理作為底層能力,惠及模型在所有形態的任務上的處理,包括跨模態的理解。
這也是為什么各家都很重視推理能力,理論上它是 AGI 真正的基石。
怎么,打游戲很難嗎?
游戲是一個「 既不復雜又挺復雜」的考核場景。不復雜的原因很簡單:現階段模型動不了手,所有的操控還得是玩家自己來。
「挺復雜」又在于,它是多模態素材,文字、圖像、視覺效果應有盡有。
一種潛在的使用場景是,讓模型 能通過讀取游戲記錄,根據相對應的關卡,制定作戰計劃。 這意味著不僅要搞懂所有的素材,還要有分析和計算的能力。
一下子讓模型出攻略,步子邁得有點太大了。還是先從看懂游戲錄屏,并且整理數字開始吧,不算太難。
我給 Gemini 和 Qwen 都上傳了相同的游戲錄屏,然后讓它們整理所有出現的傷害數值。
這里出現了一些不同:Gemini 對模糊指令的理解更好一點,我只需要寫到「整理成表格」就好,但 Qwen 需要更明確一點,否則它最終出具的表格,什么樣式的都有。
游戲樣本選擇了來自 b 站 up 主@司馬玄清在《重返未來:1999》的一段錄屏。 主要原因是, 這是一款卡牌游戲,形式簡單。 且在這個視頻里背景清晰,數值能夠完全展示出來,同時對用到的技能也有文字展示。
上傳開始,Qwen 不花多少時間就成功接收,并開始處理。Gemini 的上傳很是花了一些時間,整體上在兩三分鐘左右,傳上去之后還要花個半分鐘左右分析。
兩邊都提供了思維鏈,Qwen 給的是中文,Gemini 的思維鏈默認是英文,而且長非常非常多。
思維鏈的不同也反映在了最后給出的表格上,從第一眼看兩邊的數值就不一樣了。
核查了一下發現,Qwen 是 每五秒統計一次,收錄讀秒時的畫面顯示的內容,老實說這個思路準確度是會有點問題。
Gemini 給出了很長的表格,雖然沒有明確的時間戳,但是對傷害數值的統計準確率高出了不少,粗略地看,基本沒有瞎編的數字。
仔細核查一下,Gemini 的抓取數值的準確度確實是超出預期的,首先它能連續「觀看」視頻內容并進行分析。
同時還能兼顧多個行動主體,比如我方受到攻擊時還能區分是哪個角色被攻擊、傷害多少。隨機抽查幾個數字,正確率挺高。
當然也不是百分百準確:比如對連擊的抓取不行,玩家打出一連串攻擊時,只能抓到第一次的記錄。
在試圖合計多段攻擊的總值時,也不準——總結得很好,下次不要總結了。
整體來看,Gemini 的準確度能有 65 分,Qwen 大概是 55 分。后面還讓它們分別總結了所涉及到的特殊技能:
兩邊總結起來的思路不一樣,Qwen 是按照技能類型劃分,主要參考了卡面的文字展示。
Gemini 則是以視頻為主,計算作戰中的出現方式來統計,結合了角色。
不得不說,視頻材料消耗 token 跟玩似的,五分鐘的視頻光是傳上去就已經 9 萬 token 了。幸好 Gemini 還算大方,每個會話的起始量都是一百萬,經得起花。
前置工作鋪墊好了,理論上對游戲應該有所了解,那么「如果我想用更短的時間就勝利,出擊方式和技能卡牌使用應該怎么調整?」
技能和角色的名稱由于翻譯的原因比較混亂,暫且拋開不談,兩邊都給出了像模像樣的「攻略」,尤其是 Qwen。
Gemini 也可以出攻略,相對沒有那么詳細。
綜合能力可能,強操控游戲仍是挑戰
有一說一,卡牌游戲總歸是比較簡單的,不管是對于玩家還是對于 AI。就這準確度就已經堪憂了,涉及操控的話,還能跑得動嗎?
于是下面我找來了一段王者榮耀的視頻,看看這回兩個模型的表現。
這次兩個模型都開始摸不著頭腦了。Qwen 給出了一個整理,但光看著就 bug 滿滿,而且沒有了時間戳甚至很難核對。
Gemini 還是按照之前的方式,給出了詳細的表格。但是按照時間戳一對比,數字也是很亂,它在備注里也寫到自己對一些傷害難以區分。
甚至當很多數字接連冒出來的時候,干脆就直接摸魚,寫了一個「較小數字」就蒙混過關了。
如果不能準確提取現有的數據,后面的推理分析就很不樂觀了。但我還是淺問了一下「按照現有的戰況,分析本局的勝率和敗率」。
Qwen 比較中規中矩,可以綜合讀取視頻里所有相關的信息,比如等級、金幣數等等。
意外的是 Gemini, 它不僅讀取了視頻里的信息,還讀了音頻:這段錄像是同事現打的一段人機,錄制時環境嘈雜,竟然能被 Gemini 識別出來。它認為人機對戰中,只要不出錯,就是穩贏。
有點東西。
王者的難度屬實有點大,這個表現也不算意外。但整體上,兩個模型的表現都比想象中的好很多。
盡管兩邊的主打不一樣,Gemini 強調推理,Qwen 強調視覺,但都反映出了一開始所說的: 以推理能力為基石,全面惠及不同維度的能力。
這也能在 Qwen QvQ-Max 的發布報告中看到,團隊談到了為什么要投入視覺在推理中:傳統的 AI 模型大多依賴文字輸入,比如回答問題、寫文章或者生成代碼。但現實生活中,很多信息并不是用文字表達的。
圖片、圖表甚至視頻等多種形式,都包含著信息。一張圖片可能包含豐富的細節,比如顏色、形狀、位置關系等,而這些信息往往比文字更直觀、也更復雜。
而僅僅 只是「看到」這些信息,還遠遠不夠。只有調動推理能力,「看懂」所有的信息,還能做出進一步分析,一切才有更豐富的應用層面的意義。
Gemini 和 Qwen 的表現為「模型即產品」又多添了一枚砝碼,當推理能力再上一個臺階的時候,泛用性進一步提高,「通用型智能」初具形態,只是時間問題。
我們正在招募伙伴
簡歷投遞郵箱
hr@ifanr.com
?? 郵件標題
「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.