99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

我讓最強 AI 推理模型陪我打《王者榮耀》,我這個青銅直接起飛

0
分享至

靠著吉卜力,OpenAI 又大出了一把風頭。但實際在過去的一周里,有不少模型發布了版本更新,包括 DeepSeek,Gemini,Qwen。個個都是在推理上有所增強,以及多模態的支持。


每次有新的推理模型升級或者出現,怎么領略它們的能力很棘手。說白了,老讓它們做題也沒什么意思。

周末打游戲的時候,我忽然意識到:游戲不就是最好的試驗場景嗎?

版本齊齊更新,推理能力再上一層

Qwen 在周五的凌晨發布了全新自家視覺推理模型的全新版本 QvQ-Max。不僅能夠「看懂」圖片和視頻里的內容,還能結合這些信息進行分析、推理,甚至給出解決方案。


Gemini 這邊,則是三月 25 日推出的 2.5 Pro Experimental,推理、寫代碼以及多模態理解都有全面提高。在數學和科學基準測試(如 GPQA 和 AIME 2025)中排名超越 OpenAI 的 03 mini。


帶有 100 萬個標記上下文窗口,能夠理解龐大的數據集并處理來自不同信息源的復雜問題,包括文本、音頻、圖像、視頻甚至整個代碼存儲庫。

再說一遍:推理能力對于模型而言,不只是解解數學題而已。更重要的是, 讓推理作為底層能力,惠及模型在所有形態的任務上的處理,包括跨模態的理解

這也是為什么各家都很重視推理能力,理論上它是 AGI 真正的基石。

怎么,打游戲很難嗎?

游戲是一個「 既不復雜又挺復雜」的考核場景。不復雜的原因很簡單:現階段模型動不了手,所有的操控還得是玩家自己來。

「挺復雜」又在于,它是多模態素材,文字、圖像、視覺效果應有盡有。


一種潛在的使用場景是,讓模型 能通過讀取游戲記錄,根據相對應的關卡,制定作戰計劃。 這意味著不僅要搞懂所有的素材,還要有分析和計算的能力。

一下子讓模型出攻略,步子邁得有點太大了。還是先從看懂游戲錄屏,并且整理數字開始吧,不算太難。

我給 Gemini 和 Qwen 都上傳了相同的游戲錄屏,然后讓它們整理所有出現的傷害數值。


這里出現了一些不同:Gemini 對模糊指令的理解更好一點,我只需要寫到「整理成表格」就好,但 Qwen 需要更明確一點,否則它最終出具的表格,什么樣式的都有。

游戲樣本選擇了來自 b 站 up 主@司馬玄清在《重返未來:1999》的一段錄屏。 主要原因是, 這是一款卡牌游戲,形式簡單。 且在這個視頻里背景清晰,數值能夠完全展示出來,同時對用到的技能也有文字展示。


上傳開始,Qwen 不花多少時間就成功接收,并開始處理。Gemini 的上傳很是花了一些時間,整體上在兩三分鐘左右,傳上去之后還要花個半分鐘左右分析。

兩邊都提供了思維鏈,Qwen 給的是中文,Gemini 的思維鏈默認是英文,而且長非常非常多。


思維鏈的不同也反映在了最后給出的表格上,從第一眼看兩邊的數值就不一樣了。

核查了一下發現,Qwen 是 每五秒統計一次,收錄讀秒時的畫面顯示的內容,老實說這個思路準確度是會有點問題。


Gemini 給出了很長的表格,雖然沒有明確的時間戳,但是對傷害數值的統計準確率高出了不少,粗略地看,基本沒有瞎編的數字。


仔細核查一下,Gemini 的抓取數值的準確度確實是超出預期的,首先它能連續「觀看」視頻內容并進行分析。

同時還能兼顧多個行動主體,比如我方受到攻擊時還能區分是哪個角色被攻擊、傷害多少。隨機抽查幾個數字,正確率挺高。



當然也不是百分百準確:比如對連擊的抓取不行,玩家打出一連串攻擊時,只能抓到第一次的記錄。


在試圖合計多段攻擊的總值時,也不準——總結得很好,下次不要總結了。


整體來看,Gemini 的準確度能有 65 分,Qwen 大概是 55 分。后面還讓它們分別總結了所涉及到的特殊技能:


兩邊總結起來的思路不一樣,Qwen 是按照技能類型劃分,主要參考了卡面的文字展示。


Gemini 則是以視頻為主,計算作戰中的出現方式來統計,結合了角色。


不得不說,視頻材料消耗 token 跟玩似的,五分鐘的視頻光是傳上去就已經 9 萬 token 了。幸好 Gemini 還算大方,每個會話的起始量都是一百萬,經得起花。

前置工作鋪墊好了,理論上對游戲應該有所了解,那么「如果我想用更短的時間就勝利,出擊方式和技能卡牌使用應該怎么調整?」

技能和角色的名稱由于翻譯的原因比較混亂,暫且拋開不談,兩邊都給出了像模像樣的「攻略」,尤其是 Qwen。


Gemini 也可以出攻略,相對沒有那么詳細。


綜合能力可能,強操控游戲仍是挑戰

有一說一,卡牌游戲總歸是比較簡單的,不管是對于玩家還是對于 AI。就這準確度就已經堪憂了,涉及操控的話,還能跑得動嗎?

于是下面我找來了一段王者榮耀的視頻,看看這回兩個模型的表現。


這次兩個模型都開始摸不著頭腦了。Qwen 給出了一個整理,但光看著就 bug 滿滿,而且沒有了時間戳甚至很難核對。


Gemini 還是按照之前的方式,給出了詳細的表格。但是按照時間戳一對比,數字也是很亂,它在備注里也寫到自己對一些傷害難以區分。


甚至當很多數字接連冒出來的時候,干脆就直接摸魚,寫了一個「較小數字」就蒙混過關了。


如果不能準確提取現有的數據,后面的推理分析就很不樂觀了。但我還是淺問了一下「按照現有的戰況,分析本局的勝率和敗率」。

Qwen 比較中規中矩,可以綜合讀取視頻里所有相關的信息,比如等級、金幣數等等。

意外的是 Gemini, 它不僅讀取了視頻里的信息,還讀了音頻:這段錄像是同事現打的一段人機,錄制時環境嘈雜,竟然能被 Gemini 識別出來。它認為人機對戰中,只要不出錯,就是穩贏。

有點東西。

王者的難度屬實有點大,這個表現也不算意外。但整體上,兩個模型的表現都比想象中的好很多。

盡管兩邊的主打不一樣,Gemini 強調推理,Qwen 強調視覺,但都反映出了一開始所說的: 以推理能力為基石,全面惠及不同維度的能力。

這也能在 Qwen QvQ-Max 的發布報告中看到,團隊談到了為什么要投入視覺在推理中:傳統的 AI 模型大多依賴文字輸入,比如回答問題、寫文章或者生成代碼。但現實生活中,很多信息并不是用文字表達的。

圖片、圖表甚至視頻等多種形式,都包含著信息。一張圖片可能包含豐富的細節,比如顏色、形狀、位置關系等,而這些信息往往比文字更直觀、也更復雜。

而僅僅 只是「看到」這些信息,還遠遠不夠。只有調動推理能力,「看懂」所有的信息,還能做出進一步分析,一切才有更豐富的應用層面的意義。

Gemini 和 Qwen 的表現為「模型即產品」又多添了一枚砝碼,當推理能力再上一個臺階的時候,泛用性進一步提高,「通用型智能」初具形態,只是時間問題。

我們正在招募伙伴

簡歷投遞郵箱
hr@ifanr.com

?? 郵件標題
「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
朱西產:3年內蔚小理一家不剩,存活率為0

朱西產:3年內蔚小理一家不剩,存活率為0

創作者_1470992743975
2025-04-15 17:11:20
記者曬選票:最佳防陣一陣阿門莫布里多特杰威戴森追夢祖巴茨二陣

記者曬選票:最佳防陣一陣阿門莫布里多特杰威戴森追夢祖巴茨二陣

直播吧
2025-04-16 11:04:32
美軍高層:若中國在臺海劃設禁飛區,美軍將摧毀解放軍艦艇

美軍高層:若中國在臺海劃設禁飛區,美軍將摧毀解放軍艦艇

書中自有顏如玉
2025-04-16 13:13:05
烏克蘭徹夜瘋狂報復俄羅斯,蘇梅州被炸后一夜回擊115架無人機!

烏克蘭徹夜瘋狂報復俄羅斯,蘇梅州被炸后一夜回擊115架無人機!

凱撒談兵
2025-04-16 16:55:13
你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

熱鬧的河馬
2025-01-02 17:35:17
巴特勒18罰+庫里13罰!勇士vs灰熊罰球數對比:34-23

巴特勒18罰+庫里13罰!勇士vs灰熊罰球數對比:34-23

直播吧
2025-04-16 13:12:08
中方拒買波音,特朗祭出英偉達,白宮:中方想賺錢的話,上門來談

中方拒買波音,特朗祭出英偉達,白宮:中方想賺錢的話,上門來談

阿紿聊社會
2025-04-16 10:03:50
國乒大冷門!林詩棟首局8平后連輸3分,16歲小將領先世界第1!

國乒大冷門!林詩棟首局8平后連輸3分,16歲小將領先世界第1!

劉姚堯的文字城堡
2025-04-16 12:48:29
2016年“薩德導彈入韓”,我們曾舉國抗議,為何現在卻鮮有人提?

2016年“薩德導彈入韓”,我們曾舉國抗議,為何現在卻鮮有人提?

凱撒談兵
2025-04-15 10:10:45
G2廣東101-116山西,賽后迎來1喜3憂,徐杰+鋒線+內線太糟糕了!

G2廣東101-116山西,賽后迎來1喜3憂,徐杰+鋒線+內線太糟糕了!

籃球資訊達人
2025-04-16 22:07:26
津門虎離譜一戰!半場連丟3球,謝維軍解圍變烏龍,于根偉太尷尬

津門虎離譜一戰!半場連丟3球,謝維軍解圍變烏龍,于根偉太尷尬

奧拜爾
2025-04-16 18:53:02
五一旅行熱度或達近3年峰值,12306崩了沖上熱搜

五一旅行熱度或達近3年峰值,12306崩了沖上熱搜

南方都市報
2025-04-16 11:49:51
600375,停牌,退市風險解除!

600375,停牌,退市風險解除!

證券時報e公司
2025-04-16 20:10:06
信任崩塌?理想汽車輪胎靜音棉脫落惹眾怒

信任崩塌?理想汽車輪胎靜音棉脫落惹眾怒

車馳神往
2025-04-15 19:17:56
具俊曄現狀讓S媽揪心,因思念大S天天往墓地跑,和汪小菲則沒聯系

具俊曄現狀讓S媽揪心,因思念大S天天往墓地跑,和汪小菲則沒聯系

新語愛八卦
2025-04-16 14:59:51
福耀玻璃董事長曹德旺:美國隨便增關稅,只要不賺錢我就不賣!

福耀玻璃董事長曹德旺:美國隨便增關稅,只要不賺錢我就不賣!

娛樂看阿敞
2025-04-16 10:11:39
中方不買波音飛機后,特朗普對70多國施壓,不許幫中國逃避關稅

中方不買波音飛機后,特朗普對70多國施壓,不許幫中國逃避關稅

阿離家居
2025-04-16 15:44:24
溫情時刻!28歲浙江外援布彭扎離世,申花球迷在第28分鐘亮燈悼念

溫情時刻!28歲浙江外援布彭扎離世,申花球迷在第28分鐘亮燈悼念

直播吧
2025-04-16 22:05:45
笑死!川普加到245%!美國人民卻把中國購物APP頂上第一

笑死!川普加到245%!美國人民卻把中國購物APP頂上第一

說財貓
2025-04-16 20:40:37
舊社會的家妓有多慘?被當做“肉屏風”,吞痰液,連娼妓都不如

舊社會的家妓有多慘?被當做“肉屏風”,吞痰液,連娼妓都不如

午夜故事會
2025-04-11 14:51:35
2025-04-16 22:44:49
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
5271文章數 26565關注度
往期回顧 全部

科技要聞

華為問界M8售價公布:36.98萬元起

頭條要聞

3歲男童被虐致死 生母:孩子搶救時聽到媽媽來了流下淚

頭條要聞

3歲男童被虐致死 生母:孩子搶救時聽到媽媽來了流下淚

體育要聞

諾坎普奇跡的兩位當事人,差點靈魂互換

娛樂要聞

娛樂圈的“現實”在岳云鵬身上應驗了

財經要聞

增長5.4% 一季度GDP增速為何超預期?

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

手機
健康
本地
藝術
公開課

手機要聞

iPhone 6s被列入過時產品名單,折疊iPhone再曝

在中國,到底哪些人在吃“偉哥”?

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 清水河县| 翁牛特旗| 武隆县| 启东市| 阳新县| 五常市| 怀仁县| 乐都县| 枣强县| 襄城县| 鹤山市| 德阳市| 奎屯市| 天津市| 茌平县| 广水市| 宣恩县| 罗源县| 无为县| 金门县| 庆云县| 团风县| 太和县| 太原市| 盐山县| 永靖县| 惠水县| 驻马店市| 五大连池市| 潮安县| 库尔勒市| 出国| 正安县| 兴仁县| 胶南市| 察哈| 崇礼县| 罗江县| 拜城县| 四川省| 嘉荫县|