上海AI Lab 投稿
量子位 | 公眾號 QbitAI
GPT-4o會畫吉卜力、會「自拍」,但是能拼好樂高嗎?
你有沒有想過這樣的問題:
多模態(tài)大語言模型真的具備理解和推理空間結(jié)構(gòu)的能力嗎?
在多步空間推理任務(wù)上,現(xiàn)有 MLLMs 究竟表現(xiàn)得如何?
近年來,隨著多模態(tài)大語言模型的迅速發(fā)展,視覺理解、圖文對齊、語言生成等能力不斷突破,仿佛人類助手已觸手可及。
但在需要多步驟空間感知與邏輯推理的復(fù)雜場景中。
例如機(jī)器人裝配、自動駕駛決策、3D物體理解等,多模態(tài)大模型的真實“空間智商”究竟如何?
為此,上海人工智能實驗室聯(lián)合同濟(jì)大學(xué)與清華大學(xué),提出了全新基準(zhǔn)LEGO-Puzzles,以樂高拼搭為載體,首次系統(tǒng)評估現(xiàn)有多模態(tài)大模型(MLLMs)在多步空間推理(multi-step spatial reasoning)任務(wù)中的實際表現(xiàn)。
LEGO-Puzzles:全面覆蓋多步空間推理的基準(zhǔn)數(shù)據(jù)集
評估多模態(tài)大模型的多步空間推理能力,一個核心挑戰(zhàn)是:如何構(gòu)建既真實又結(jié)構(gòu)清晰的任務(wù)?
相比起現(xiàn)實世界視頻或圖像中的混亂背景和不確定性,LEGO 拼搭過程具備天然的評測優(yōu)勢。它不僅結(jié)構(gòu)規(guī)則、每一步明確、空間變化清晰,還擁有高度可控的任務(wù)序列。
不同于視頻幀之間可能存在的時間邏輯跳躍或視角漂移,LEGO 的每一組裝步驟都具有穩(wěn)定且嚴(yán)密的空間邏輯。此外,視覺多樣性也是 LEGO 的一大優(yōu)勢。
各種形狀、顏色、組合方式帶來了豐富的視覺表達(dá),同時又避免了現(xiàn)實圖像中復(fù)雜紋理和背景的干擾。
更重要的是,團(tuán)隊基于公開LEGO積木源文件自動生成大規(guī)模、可擴(kuò)展的任務(wù)數(shù)據(jù),既節(jié)省標(biāo)注成本,又保證高質(zhì)量與一致性。因此,無論從建模邏輯、可控性,還是數(shù)據(jù)效率來看,LEGO 都是多步空間推理的理想載體。
依托 LEGO 所具備的結(jié)構(gòu)規(guī)則性與空間變化可控性,團(tuán)隊構(gòu)建了一個專注于多模態(tài)大模型多步空間推理能力評估的基準(zhǔn)數(shù)據(jù)集:LEGO-Puzzles。
數(shù)據(jù)集基于從互聯(lián)網(wǎng)收集的開源 LEGO 項目源文件,通過 Bricklink 官方軟件 Studio 進(jìn)行渲染,并結(jié)合 POV-Ray 生成多視角高質(zhì)量圖像,配合任務(wù)模板自動生成問題與選項,最終構(gòu)建出 1100+ 精心設(shè)計的任務(wù)樣本。
這些樣本覆蓋 11 種任務(wù)類型,按功能劃分為三大類,支持兩種任務(wù)形式:視覺問答(VQA)與圖像生成(Image Generation)。
LEGO-Puzzles 的任務(wù)設(shè)計遵循人類在 LEGO 拼搭中的自然認(rèn)知流程,從觀察結(jié)構(gòu)、執(zhí)行操作到整體還原,逐步提升任務(wù)難度,具體包括:
- 空間理解(Spatial Understanding):判斷樂高組件的高矮關(guān)系、鄰接關(guān)系和旋轉(zhuǎn)角度;根據(jù)不同視角理解樂高結(jié)構(gòu)。
- 單步推理(Single-Step Reasoning):評估下一個組件的旋轉(zhuǎn)狀態(tài)、裝配位置,以及裝配后的下一步狀態(tài)和所需組件。
- 多步推理(Multi-Step Reasoning):推理裝配過程中的中間狀態(tài)、整體裝配順序,以及識別不符合順序的異常狀態(tài)。
整體任務(wù)設(shè)置覆蓋從基礎(chǔ)感知到多步?jīng)Q策,具有高度結(jié)構(gòu)性、序列依賴性與空間多樣性。
同時,圖像生成版本進(jìn)一步拓展了評測維度,使得 LEGO-Puzzles 不僅能檢驗?zāi)P汀翱磮D做題”的理解力,也能測試“看題畫圖”的構(gòu)建能力。
模型表現(xiàn)如何?閉源領(lǐng)跑,但仍遠(yuǎn)不及人類
團(tuán)隊在 LEGO-Puzzles 基準(zhǔn)上系統(tǒng)評測了 20 個多模態(tài)大模型(MLLMs),包括GPT-4o、Gemini系列、Claude 3.5,以及Qwen2.5-VL、InternVL等開源模型。涵蓋視覺問答(VQA)與圖像生成兩大類任務(wù)。
開源 vs 閉源:能力鴻溝仍明顯
整體來看,閉源模型在所有任務(wù)上普遍優(yōu)于開源模型。GPT-4o 以 57.7% 的平均準(zhǔn)確率位居榜首,Gemini-2.0-Flash 緊隨其后(54.0%),而最佳開源模型 Qwen2.5-VL-72B 僅為 46.6%,其余開源模型大多落在 30%~40% 區(qū)間,接近甚至低于隨機(jī)基線(27.5%) 。
在部分關(guān)鍵子任務(wù)上,開源模型的表現(xiàn)不僅不穩(wěn)定,甚至存在系統(tǒng)性失效。例如在“Ordering”任務(wù)中,多達(dá) 4 個開源模型準(zhǔn)確率為 0,而在“Height”任務(wù)中,有一半模型準(zhǔn)確率低于隨機(jī)水平。這表明當(dāng)前多數(shù)開源 MLLMs 還無法建立起有效的空間構(gòu)型表示或推理路徑,特別是在三維結(jié)構(gòu)感知和多步狀態(tài)理解方面存在根本短板。
MLLMs vs 人類:距離真實智能還有多遠(yuǎn)?
為了更直觀地比較 MLLMs 與人類在空間任務(wù)上的表現(xiàn),團(tuán)隊構(gòu)建了LEGO-Puzzles-Lite 子集,從完整數(shù)據(jù)集中每類任務(wù)中隨機(jī)抽取 20 題,總計 220 個樣本,邀請 30 位具備相關(guān)專業(yè)背景的專家參與答題。
實驗結(jié)果顯示:人類在所有任務(wù)上的平均準(zhǔn)確率為 93.6%,幾乎在所有任務(wù)中都表現(xiàn)穩(wěn)定。而 GPT-4o 雖然是最強(qiáng)模型,在該子集上僅達(dá)到 59.1%。其他模型表現(xiàn)更為遜色,Gemini-2.0-Flash 為 55.5%,Qwen2.5-VL-72B 為 48.2% 。
特別是在多步推理任務(wù)中,模型與人類之間的差距進(jìn)一步被放大。以“Backwards”和“Ordering”為例,GPT-4o 的得分落在 55% 和 60%,而人類均為 95%。這充分說明,當(dāng)前模型在處理多步空間推理能力上,與人類之間仍有顯著認(rèn)知鴻溝。
圖像生成:看得見的空間推理“災(zāi)難現(xiàn)場”
除了視覺問答外,LEGO-Puzzles 還包含了一個專門用于評估視覺生成能力的子集,設(shè)計了 5 類圖像生成任務(wù),分別對應(yīng)于主任務(wù)中的 Rotation、Multiview、Next-Step、Position與 Dependency。
每個樣本要求模型在給定拼搭狀態(tài)和操作指令的前提下,生成目標(biāo)結(jié)構(gòu)圖像。團(tuán)隊從主數(shù)據(jù)集中為這五類任務(wù)擴(kuò)展構(gòu)建圖像生成輸入輸出,并邀請人工專家對生成結(jié)果進(jìn)行雙重維度評分:
- Appearance(App):圖像是否在整體結(jié)構(gòu)上保留了目標(biāo)狀態(tài)的特征;
- Instruction Following(IF):圖像是否準(zhǔn)確反映了指定的拼搭操作。
評測模型包含 GPT-4o、Gemini-2.0-Flash,以及開源的 Emu2、GILL、Anole 等具備圖像生成能力的模型。
結(jié)果表明,僅有 Gemini-2.0-Flash 在兩項指標(biāo)上均達(dá)到中等及以上水平(App: 2.15 / IF: 1.17),在結(jié)構(gòu)保真度和指令執(zhí)行力之間保持了較好的平衡。
相比之下,GPT-4o 的生成過程更像是基于指令語義進(jìn)行場景重構(gòu),而非逐步編輯輸入圖像。這種策略使得它在指令理解方面表現(xiàn)尚可,但在結(jié)構(gòu)還原方面存在明顯不足,生成圖像在細(xì)節(jié)與整體結(jié)構(gòu)上常常偏離原始圖像,導(dǎo)致其 appearance 得分顯著低于 Gemini-2.0-Flash。
需要說明的是,本次評測使用的是 2025 年 3 月 6 日前的 GPT-4o 版本,團(tuán)隊也正在測試新版 GPT-4o 的圖像生成能力,后續(xù)評測中將及時更新。
Emu2 的圖像生成與原圖外觀相似度較高,但幾乎無法體現(xiàn)任何操作變化,呈現(xiàn)出典型的“圖像重建”行為,缺乏對任務(wù)指令的響應(yīng)。
而 GILL 和 Anole 在所有子任務(wù)中基本失效,生成結(jié)果與目標(biāo)結(jié)構(gòu)無關(guān),IF 得分接近于 0,說明它們在空間理解與執(zhí)行方面均不具備有效能力。
一步能答對,五步就亂了?多步推理讓模型“斷片”
為了更深入評估 MLLMs 在復(fù)雜空間序列任務(wù)中的推理能力,團(tuán)隊引入了一個針對多步構(gòu)建鏈條的擴(kuò)展實驗:Next-k-Step。該實驗建立在原有的單步任務(wù)“Next-Step”之上,進(jìn)一步要求模型在連續(xù)執(zhí)行多個拼搭操作后,識別正確的最終拼搭狀態(tài),模擬更貼近真實場景中的多步空間構(gòu)建推理。
實驗設(shè)置中,團(tuán)隊控制拼搭操作步數(shù) k 從 1 增加到 5,逐步加深推理鏈長度,對模型的連貫性建模與狀態(tài)記憶能力提出更高要求。輸入包括當(dāng)前 LEGO 狀態(tài)、接下來的 k 個組件圖,以及對應(yīng)的目標(biāo)圖像和候選選項;模型需從中判斷哪一張是合理的拼搭結(jié)果。團(tuán)隊還引入 Chain-of-Thought(CoT)提示詞,探索“逐步思考”是否能在視覺場景中帶來推理性能提升 。
結(jié)果顯示,大多數(shù)模型在 k=1 時仍有一定推理能力,如 GPT-4o 可達(dá) 75%(使用 CoT),Gemini-2.0-Flash 高達(dá) 85%。
但隨著 k 增大,準(zhǔn)確率顯著下滑,GPT-4o 在 k=4 和 k=5 情況下幾乎完全失效,準(zhǔn)確率降至 0–5%。
即使引入 CoT 提示,大部分模型在 k > 2 后仍無法維持有效推理路徑,說明語言模型中常見的 CoT 技術(shù)對視覺多步空間任務(wù)的幫助極為有限。
值得注意的是,Qwen2.5-VL-72B 在不同步數(shù)下表現(xiàn)相對穩(wěn)定,準(zhǔn)確率始終維持在 65%左右,展現(xiàn)出一定的結(jié)構(gòu)記憶能力;而 InternVL-2.5-78B 則在多數(shù)情境下準(zhǔn)確率接近隨機(jī)水平。
這一系列實驗揭示出:當(dāng)前主流 MLLMs 在處理多步驟空間邏輯時,存在明顯的“推理衰減”問題。
總結(jié)
LEGO-Puzzles是一個專為評估多模態(tài)大模型在復(fù)雜空間推理任務(wù)中的能力而設(shè)計的全新基準(zhǔn),涵蓋 1100+ 任務(wù)實例,覆蓋從靜態(tài)結(jié)構(gòu)識別到多步時序重建在內(nèi)的 11 類子任務(wù)。數(shù)據(jù)集同時支持 VQA 與圖像生成,為模型提供了多模態(tài)輸入、多樣化輸出的完整測評路徑。
團(tuán)隊對當(dāng)前主流的 20+ 多模態(tài)大模型進(jìn)行了系統(tǒng)性評估,全面揭示了它們在三維空間理解、多步驟空間推理、指令驅(qū)動圖像生成等關(guān)鍵能力上的表現(xiàn)瓶頸。實驗還進(jìn)一步引入了 Next-k-Step 和 CoT 推理等機(jī)制,深入探查了模型在推理鏈條加深時的穩(wěn)定性與泛化能力。
LEGO-Puzzles 現(xiàn)已集成至 VLMEvalKit,支持一鍵評測,快速定位模型的空間推理能力短板。
Paper:https://arxiv.org/abs/2503.19990
Github:https://github.com/Tangkexian/LEGO-Puzzles
HomePage:https://tangkexian.github.io/LEGO-Puzzles
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.