網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

GPT-4o能拼好樂高嗎？首個多步空間推理評測基準(zhǔn)：閉源模型領(lǐng)跑

2025-04-23 11:08:26　來源: 量子位

北京舉報

分享至

上海AI Lab 投稿
量子位 | 公眾號 QbitAI

GPT-4o會畫吉卜力、會「自拍」，但是能拼好樂高嗎？

你有沒有想過這樣的問題：

多模態(tài)大語言模型真的具備理解和推理空間結(jié)構(gòu)的能力嗎？
在多步空間推理任務(wù)上，現(xiàn)有 MLLMs 究竟表現(xiàn)得如何？

近年來，隨著多模態(tài)大語言模型的迅速發(fā)展，視覺理解、圖文對齊、語言生成等能力不斷突破，仿佛人類助手已觸手可及。

但在需要多步驟空間感知與邏輯推理的復(fù)雜場景中。

例如機(jī)器人裝配、自動駕駛決策、3D物體理解等，多模態(tài)大模型的真實“空間智商”究竟如何？

為此，上海人工智能實驗室聯(lián)合同濟(jì)大學(xué)與清華大學(xué)，提出了全新基準(zhǔn)LEGO-Puzzles，以樂高拼搭為載體，首次系統(tǒng)評估現(xiàn)有多模態(tài)大模型（MLLMs）在多步空間推理（multi-step spatial reasoning）任務(wù)中的實際表現(xiàn)。

LEGO-Puzzles：全面覆蓋多步空間推理的基準(zhǔn)數(shù)據(jù)集

評估多模態(tài)大模型的多步空間推理能力，一個核心挑戰(zhàn)是：如何構(gòu)建既真實又結(jié)構(gòu)清晰的任務(wù)？

相比起現(xiàn)實世界視頻或圖像中的混亂背景和不確定性，LEGO 拼搭過程具備天然的評測優(yōu)勢。它不僅結(jié)構(gòu)規(guī)則、每一步明確、空間變化清晰，還擁有高度可控的任務(wù)序列。

不同于視頻幀之間可能存在的時間邏輯跳躍或視角漂移，LEGO 的每一組裝步驟都具有穩(wěn)定且嚴(yán)密的空間邏輯。此外，視覺多樣性也是 LEGO 的一大優(yōu)勢。

各種形狀、顏色、組合方式帶來了豐富的視覺表達(dá)，同時又避免了現(xiàn)實圖像中復(fù)雜紋理和背景的干擾。

更重要的是，團(tuán)隊基于公開LEGO積木源文件自動生成大規(guī)模、可擴(kuò)展的任務(wù)數(shù)據(jù)，既節(jié)省標(biāo)注成本，又保證高質(zhì)量與一致性。因此，無論從建模邏輯、可控性，還是數(shù)據(jù)效率來看，LEGO 都是多步空間推理的理想載體。

依托 LEGO 所具備的結(jié)構(gòu)規(guī)則性與空間變化可控性，團(tuán)隊構(gòu)建了一個專注于多模態(tài)大模型多步空間推理能力評估的基準(zhǔn)數(shù)據(jù)集：LEGO-Puzzles。

數(shù)據(jù)集基于從互聯(lián)網(wǎng)收集的開源 LEGO 項目源文件，通過 Bricklink 官方軟件 Studio 進(jìn)行渲染，并結(jié)合 POV-Ray 生成多視角高質(zhì)量圖像，配合任務(wù)模板自動生成問題與選項，最終構(gòu)建出 1100+ 精心設(shè)計的任務(wù)樣本。

這些樣本覆蓋 11 種任務(wù)類型，按功能劃分為三大類，支持兩種任務(wù)形式：視覺問答（VQA）與圖像生成（Image Generation）。

LEGO-Puzzles 的任務(wù)設(shè)計遵循人類在 LEGO 拼搭中的自然認(rèn)知流程，從觀察結(jié)構(gòu)、執(zhí)行操作到整體還原，逐步提升任務(wù)難度，具體包括：

空間理解（Spatial Understanding）:判斷樂高組件的高矮關(guān)系、鄰接關(guān)系和旋轉(zhuǎn)角度；根據(jù)不同視角理解樂高結(jié)構(gòu)。
單步推理（Single-Step Reasoning）：評估下一個組件的旋轉(zhuǎn)狀態(tài)、裝配位置，以及裝配后的下一步狀態(tài)和所需組件。
多步推理（Multi-Step Reasoning）：推理裝配過程中的中間狀態(tài)、整體裝配順序，以及識別不符合順序的異常狀態(tài)。

整體任務(wù)設(shè)置覆蓋從基礎(chǔ)感知到多步?jīng)Q策，具有高度結(jié)構(gòu)性、序列依賴性與空間多樣性。

同時，圖像生成版本進(jìn)一步拓展了評測維度，使得 LEGO-Puzzles 不僅能檢驗?zāi)Ｐ汀翱磮D做題”的理解力，也能測試“看題畫圖”的構(gòu)建能力。

模型表現(xiàn)如何？閉源領(lǐng)跑，但仍遠(yuǎn)不及人類

團(tuán)隊在 LEGO-Puzzles 基準(zhǔn)上系統(tǒng)評測了 20 個多模態(tài)大模型（MLLMs），包括GPT-4o、Gemini系列、Claude 3.5，以及Qwen2.5-VL、InternVL等開源模型。涵蓋視覺問答（VQA）與圖像生成兩大類任務(wù)。

開源 vs 閉源：能力鴻溝仍明顯

整體來看，閉源模型在所有任務(wù)上普遍優(yōu)于開源模型。GPT-4o 以 57.7% 的平均準(zhǔn)確率位居榜首，Gemini-2.0-Flash 緊隨其后（54.0%），而最佳開源模型 Qwen2.5-VL-72B 僅為 46.6%，其余開源模型大多落在 30%～40% 區(qū)間，接近甚至低于隨機(jī)基線（27.5%）。

在部分關(guān)鍵子任務(wù)上，開源模型的表現(xiàn)不僅不穩(wěn)定，甚至存在系統(tǒng)性失效。例如在“Ordering”任務(wù)中，多達(dá) 4 個開源模型準(zhǔn)確率為 0，而在“Height”任務(wù)中，有一半模型準(zhǔn)確率低于隨機(jī)水平。這表明當(dāng)前多數(shù)開源 MLLMs 還無法建立起有效的空間構(gòu)型表示或推理路徑，特別是在三維結(jié)構(gòu)感知和多步狀態(tài)理解方面存在根本短板。

MLLMs vs 人類：距離真實智能還有多遠(yuǎn)？

為了更直觀地比較 MLLMs 與人類在空間任務(wù)上的表現(xiàn)，團(tuán)隊構(gòu)建了LEGO-Puzzles-Lite 子集，從完整數(shù)據(jù)集中每類任務(wù)中隨機(jī)抽取 20 題，總計 220 個樣本，邀請 30 位具備相關(guān)專業(yè)背景的專家參與答題。

實驗結(jié)果顯示：人類在所有任務(wù)上的平均準(zhǔn)確率為 93.6%，幾乎在所有任務(wù)中都表現(xiàn)穩(wěn)定。而 GPT-4o 雖然是最強(qiáng)模型，在該子集上僅達(dá)到 59.1%。其他模型表現(xiàn)更為遜色，Gemini-2.0-Flash 為 55.5%，Qwen2.5-VL-72B 為 48.2% 。

特別是在多步推理任務(wù)中，模型與人類之間的差距進(jìn)一步被放大。以“Backwards”和“Ordering”為例，GPT-4o 的得分落在 55% 和 60%，而人類均為 95%。這充分說明，當(dāng)前模型在處理多步空間推理能力上，與人類之間仍有顯著認(rèn)知鴻溝。

圖像生成：看得見的空間推理“災(zāi)難現(xiàn)場”

除了視覺問答外，LEGO-Puzzles 還包含了一個專門用于評估視覺生成能力的子集，設(shè)計了 5 類圖像生成任務(wù)，分別對應(yīng)于主任務(wù)中的 Rotation、Multiview、Next-Step、Position與 Dependency。

每個樣本要求模型在給定拼搭狀態(tài)和操作指令的前提下，生成目標(biāo)結(jié)構(gòu)圖像。團(tuán)隊從主數(shù)據(jù)集中為這五類任務(wù)擴(kuò)展構(gòu)建圖像生成輸入輸出，并邀請人工專家對生成結(jié)果進(jìn)行雙重維度評分：

Appearance（App）：圖像是否在整體結(jié)構(gòu)上保留了目標(biāo)狀態(tài)的特征；
Instruction Following（IF）：圖像是否準(zhǔn)確反映了指定的拼搭操作。
評測模型包含 GPT-4o、Gemini-2.0-Flash，以及開源的 Emu2、GILL、Anole 等具備圖像生成能力的模型。

結(jié)果表明，僅有 Gemini-2.0-Flash 在兩項指標(biāo)上均達(dá)到中等及以上水平（App: 2.15 / IF: 1.17），在結(jié)構(gòu)保真度和指令執(zhí)行力之間保持了較好的平衡。

相比之下，GPT-4o 的生成過程更像是基于指令語義進(jìn)行場景重構(gòu)，而非逐步編輯輸入圖像。這種策略使得它在指令理解方面表現(xiàn)尚可，但在結(jié)構(gòu)還原方面存在明顯不足，生成圖像在細(xì)節(jié)與整體結(jié)構(gòu)上常常偏離原始圖像，導(dǎo)致其 appearance 得分顯著低于 Gemini-2.0-Flash。

需要說明的是，本次評測使用的是 2025 年 3 月 6 日前的 GPT-4o 版本，團(tuán)隊也正在測試新版 GPT-4o 的圖像生成能力，后續(xù)評測中將及時更新。

Emu2 的圖像生成與原圖外觀相似度較高，但幾乎無法體現(xiàn)任何操作變化，呈現(xiàn)出典型的“圖像重建”行為，缺乏對任務(wù)指令的響應(yīng)。

而 GILL 和 Anole 在所有子任務(wù)中基本失效，生成結(jié)果與目標(biāo)結(jié)構(gòu)無關(guān)，IF 得分接近于 0，說明它們在空間理解與執(zhí)行方面均不具備有效能力。

一步能答對，五步就亂了？多步推理讓模型“斷片”

為了更深入評估 MLLMs 在復(fù)雜空間序列任務(wù)中的推理能力，團(tuán)隊引入了一個針對多步構(gòu)建鏈條的擴(kuò)展實驗：Next-k-Step。該實驗建立在原有的單步任務(wù)“Next-Step”之上，進(jìn)一步要求模型在連續(xù)執(zhí)行多個拼搭操作后，識別正確的最終拼搭狀態(tài)，模擬更貼近真實場景中的多步空間構(gòu)建推理。

實驗設(shè)置中，團(tuán)隊控制拼搭操作步數(shù) k 從 1 增加到 5，逐步加深推理鏈長度，對模型的連貫性建模與狀態(tài)記憶能力提出更高要求。輸入包括當(dāng)前 LEGO 狀態(tài)、接下來的 k 個組件圖，以及對應(yīng)的目標(biāo)圖像和候選選項；模型需從中判斷哪一張是合理的拼搭結(jié)果。團(tuán)隊還引入 Chain-of-Thought（CoT）提示詞，探索“逐步思考”是否能在視覺場景中帶來推理性能提升。

結(jié)果顯示，大多數(shù)模型在 k=1 時仍有一定推理能力，如 GPT-4o 可達(dá) 75%（使用 CoT），Gemini-2.0-Flash 高達(dá) 85%。

但隨著 k 增大，準(zhǔn)確率顯著下滑，GPT-4o 在 k=4 和 k=5 情況下幾乎完全失效，準(zhǔn)確率降至 0–5%。

即使引入 CoT 提示，大部分模型在 k > 2 后仍無法維持有效推理路徑，說明語言模型中常見的 CoT 技術(shù)對視覺多步空間任務(wù)的幫助極為有限。

值得注意的是，Qwen2.5-VL-72B 在不同步數(shù)下表現(xiàn)相對穩(wěn)定，準(zhǔn)確率始終維持在 65%左右，展現(xiàn)出一定的結(jié)構(gòu)記憶能力；而 InternVL-2.5-78B 則在多數(shù)情境下準(zhǔn)確率接近隨機(jī)水平。

這一系列實驗揭示出：當(dāng)前主流 MLLMs 在處理多步驟空間邏輯時，存在明顯的“推理衰減”問題。

總結(jié)

LEGO-Puzzles是一個專為評估多模態(tài)大模型在復(fù)雜空間推理任務(wù)中的能力而設(shè)計的全新基準(zhǔn)，涵蓋 1100+ 任務(wù)實例，覆蓋從靜態(tài)結(jié)構(gòu)識別到多步時序重建在內(nèi)的 11 類子任務(wù)。數(shù)據(jù)集同時支持 VQA 與圖像生成，為模型提供了多模態(tài)輸入、多樣化輸出的完整測評路徑。

團(tuán)隊對當(dāng)前主流的 20+ 多模態(tài)大模型進(jìn)行了系統(tǒng)性評估，全面揭示了它們在三維空間理解、多步驟空間推理、指令驅(qū)動圖像生成等關(guān)鍵能力上的表現(xiàn)瓶頸。實驗還進(jìn)一步引入了 Next-k-Step 和 CoT 推理等機(jī)制，深入探查了模型在推理鏈條加深時的穩(wěn)定性與泛化能力。

LEGO-Puzzles 現(xiàn)已集成至 VLMEvalKit，支持一鍵評測，快速定位模型的空間推理能力短板。

Paper：https://arxiv.org/abs/2503.19990
Github：https://github.com/Tangkexian/LEGO-Puzzles
HomePage：https://tangkexian.github.io/LEGO-Puzzles

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.