Nature：生成式AI模型如何用于輔助人類創(chuàng)意設計

2025-04-02 22:01:47　來源: 集智俱樂部

北京舉報

分享至

導語

生成式人工智能目前已經(jīng)火遍全球，無論是文本、圖像還是視頻，都已經(jīng)達到了以假亂真的地步。然而，逼真性并不是我們追求的唯一目標，我們更希望的是AI強大的生成能力能夠輔助我們?nèi)祟惖膭?chuàng)意工作。游戲被稱為第九種藝術(shù)，它可以通過提供包括視頻、音樂、文本等多方位的交互式體驗而展現(xiàn)出其豐富的復雜特征。那么，生成式AI能夠輔助游戲設計師進行游戲設計嗎？以前的研究雖然已有大量的探索，但是在AI與人類設計師的創(chuàng)意結(jié)合過程中仍然面臨許多不足與挑戰(zhàn)。在近期發(fā)表于《自然》（Nature）期刊上的研究則指出若想讓生成式AI能夠真正輔助人類的創(chuàng)意設計，就需要讓生成式AI模型具備三大特性，即一致性、多樣性和用戶修改的保持特性。這三種特性不僅對游戲設計具備啟發(fā)作用，它同樣為我們探索如何將生成式AI用于輔助人類的創(chuàng)造力方面起到了積極作用。

——張江

研究領域：生成式人工智能、創(chuàng)意設計、游戲開發(fā)、人機協(xié)作、WHAM模型、設計迭代、創(chuàng)意計算、用戶體驗設計

Anssi Kanervisto等 | 作者

jk | 譯者

摘要

生成式人工智能技術(shù)有可能導致未來創(chuàng)意產(chǎn)業(yè)的巨大變革——即通過支持人類的創(chuàng)意構(gòu)想（新想法的生成[1,2,3,4,5]）而顛覆整個產(chǎn)業(yè)。然而，如今的模型能力不足有可能提出了新的挑戰(zhàn)，使得這些技術(shù)更全面地融入創(chuàng)意實踐仍很困難。迭代調(diào)整 (Iterative tweaking) 和發(fā)散式思維 (divergent thinking) 仍然是通過技術(shù)支持創(chuàng)意實現(xiàn)的關鍵[6,7]，而這些實踐尚未得到現(xiàn)有最先進生成式人工智能模型的充分支持。以游戲開發(fā)為例，我們證明了通過理解用戶需求來驅(qū)動生成式人工智能模型的開發(fā)和評估，我們可以讓這些模型與創(chuàng)意實踐保持對齊。具體而言，我們引入了最先進的生成式模型——世界與人類動作模型（WHAM），并展示了它能夠生成一致且多樣化的游戲玩法序列，同時可以持續(xù)保持用戶的修改調(diào)整——我們確定這三項功能對于實現(xiàn)這一模型與創(chuàng)意實踐的對齊至關重要。與之前需要手動定義或提取結(jié)構(gòu)以支持創(chuàng)意工具的方法相比，生成式人工智能模型可以從可用數(shù)據(jù)中學習相關結(jié)構(gòu)，從而開辟了更廣泛的應用潛力。

生成式人工智能可以通過使用機器學習模型來生成文本[8,9]、圖像[10,11]，音頻[12,13]，音樂[14]，視頻[15,16]或電子游戲的游戲玩法序列（gameplay sequences）[17,18,19]，這些技術(shù)都已經(jīng)在創(chuàng)意產(chǎn)業(yè)中得到了快速的應用[1,2,3,5]。例如，生成的圖像可用于促進具有不同技能的團隊成員之間的溝通，或者當藝術(shù)家不能參與時，系統(tǒng)能自動執(zhí)行視覺生成任務[4]。然而，研究表明，生成式人工智能的能力往往無法達到創(chuàng)意從業(yè)者的期望，這給這些技術(shù)更全面地應用于創(chuàng)意實踐帶來了關鍵性的挑戰(zhàn)[1,4,5,20,21]。

通過游戲行業(yè)之一獨特視角，我們探索了人工智能技術(shù)如何變革以支持人類創(chuàng)造力的實現(xiàn)[22]。3D游戲開發(fā)的需要多樣化的創(chuàng)作技能[23]，這種復雜性為構(gòu)建生成式人工智能以實現(xiàn)所有創(chuàng)意職業(yè)提供了多個視角。此外，游戲玩法數(shù)據(jù)的豐富性和多樣性也為創(chuàng)新提供了重要機遇。這種時間相關的多模態(tài)數(shù)據(jù)使得我們可以探索從生成3D世界及其機制到與非玩家角色（即NPC）互動等各種復雜的任務。最后，游戲業(yè)是全球最大的娛樂行業(yè)，目前已覆蓋超過30億人[24]。因此，游戲工作室正在探索人工智能如何幫助他們滿足日益增長的內(nèi)容創(chuàng)作的需要[21]。

本文展示了我們?nèi)绾瓮ㄟ^理解用戶需求來設計和評估生成式人工智能模型的方法，并促進了與這些創(chuàng)意實踐相一致的生成式人工智能模型的開發(fā)。我們從總結(jié)27名游戲開發(fā)領域的創(chuàng)意從業(yè)者的用戶研究結(jié)果開始，闡述了發(fā)散式思維和迭代式實踐[6,7]在如何利用生成式人工智能實現(xiàn)有意義的新穎性創(chuàng)造方面的重要作用?；谶@些見解，我們確定了一組生成模型的能力，即一致性、多樣性和持續(xù)性（見圖1a–c），這些能力對實現(xiàn)創(chuàng)意構(gòu)思可能至關重要。我們引入了一種新型的生成模型WHAM，并使用人類游戲游玩數(shù)據(jù)進行訓練以實現(xiàn)這些能力。我們展示了WHAM能夠生成一致且多樣的游戲玩法序列，并在適當提示下保持用戶修改。最后，我們描述了一種名為WHAM演示器的概念原型（圖1d），以支持創(chuàng)意用途的探索和對支持創(chuàng)意實踐所需模型能力的進一步研究。我們在https://huggingface.co/microsoft/wham上發(fā)布了WHAM的模型權(quán)重、評估數(shù)據(jù)集和WHAM演示器，以供進一步的研究和探索。

圖1：模型能力的辨識

通過與游戲開發(fā)創(chuàng)意人員進行的用戶研究（“用戶需求”部分），我們確定了三項關鍵的模型能力，這些能力可以通過WHAM生成的游戲玩法序列來體現(xiàn)（“WHAM”節(jié)），并在WHAM演示器（“WHAM演示器”部分）中展示。a.一致性（Consistency）能力：生成的序列應在時間上保持一致，并符合游戲機制。圖中展示的為玩家角色按照游戲世界已建立的物理規(guī)律爬上了樓梯。b.多樣性(Diversity)能力：模型應生成大量多樣化的序列，以反映不同的潛在結(jié)果，從而支持發(fā)散式思維。圖中所示的模型生成了三種合理的序列，這些序列展示了角色可能遵循的不同路徑。c.持續(xù)性(Persistency) 能力：模型應保留用戶對游戲視覺效果和控制器所做的修改，并將其整合到生成的游戲玩法序列中。在這張圖中，右側(cè)圖中由用戶添加的角色（修改）已被納入到左側(cè)所展示的生成圖像中。d, WHAM演示器的截圖。這是一個概念原型，提供了一個可視化的界面，以便與WHAM模型進行交互，包括多種促進模型的方法。請參閱補充視頻1以獲取視頻案例研究。

視頻1

我們的工作建立在有關計算創(chuàng)造力 (Computational Creativity) [7,25,26]和程序化內(nèi)容生成(procedural content generation）的豐富研究基礎上的[27,28,29,30,31,32]（譯者注：計算創(chuàng)造力也被稱為人工創(chuàng)造力、機械創(chuàng)造力、創(chuàng)造性計算或創(chuàng)造性計算等，這是一個跨學科的研究領域，位于人工智能、認知心理學、哲學和藝術(shù)等領域的交叉點https://en.wikipedia.org/wiki/Computational_creativity，程序化生成是一種通過算法創(chuàng)建數(shù)據(jù)的方法，而非手動操作，通常通過結(jié)合人生成內(nèi)容和算法，并結(jié)合計算機生成的隨機性和處理能力來實現(xiàn)。https://en.wikipedia.org/wiki/Procedural_generation）。如今，生成式人工智能方法由于其廣泛的適用性有可能彌補先前研究成果的不足：它們可以從適當?shù)挠柧殧?shù)據(jù)中學習復雜領域（如3D視頻游戲）的豐富結(jié)構(gòu)，從而避免人們手動地精心打造這些結(jié)構(gòu)。同時，我們的研究表明，在使用生成式人工智能模型進行構(gòu)思的背景下，迭代實踐和發(fā)散性思維仍然至關重要。通過針對這些提議的能力進行模型優(yōu)化，我們將機器學習研究引向支持人工智能與人類合作的創(chuàng)意之中，使人類的創(chuàng)造力和主動性得到提升。

用戶需求

訪談研究

為了更好地了解游戲開發(fā)領域的創(chuàng)意人員的需求，我們與來自不同工作室的多學科創(chuàng)意團隊進行了半結(jié)構(gòu)化式的訪談。在每次訪談會議中，同一工作室的三到四位創(chuàng)意人員都會與一個“設計探針” (Design probe) [33]（見“方法”部分的“設計探針”和擴展數(shù)據(jù)圖1a中的詳細內(nèi)容）進行互動，該探針提供了一組虛構(gòu)但具體的生成式人工智能潛在能力，用于激發(fā)思考。參與者描述了生成式人工智能可以在哪幾個方面對游戲創(chuàng)意或前期制作（見“方法”部分中的“游戲開發(fā)流程”）提供支持，同時參與者的創(chuàng)作主動權(quán)還能得到保護。

針對參與者關于人工智能與創(chuàng)意實踐的討論，我們利用主題分析方法（thematic analysis）[34]（見“方法”部分的“數(shù)據(jù)分析”和擴展數(shù)據(jù)圖1b）對討論記錄進行了分析（譯者注：主題分析是一種定性研究方法，通常被用于識別、分析和解釋給定數(shù)據(jù)集中的共享主體或意義的模式。）。我們確定了兩個對人工智能模型開發(fā)有意義的主題：（1）創(chuàng)意人員需要將他們的發(fā)散性思維（“發(fā)散性思維”部分）在特定情境下融入一個一致的游戲世界中，以實現(xiàn)有意義的新體驗；（2）為了體驗創(chuàng)作主動性，創(chuàng)意人員需要對迭代過程（迭代實踐）擁有控制能力，例如，他們的直接修改會被采納，并可以指導模型不斷地朝這些修改的方向演化（“迭代實踐”部分）。

發(fā)散思維

研究中的創(chuàng)意人員已利用生成式人工智能模型來尋找靈感，驅(qū)動發(fā)散性思維以產(chǎn)生新想法，就像其他文獻中所示的那樣[21]。然而，創(chuàng)意人員提到，新穎性需要在專業(yè)實踐的一致性中被框定。這仍然是當前生成式人工智能模型所面臨的挑戰(zhàn)。例如，在游戲開發(fā)中，一致性包括：維護游戲世界的物理規(guī)律；遵循游戲和工作室的風格；保持游戲關卡的特定氛圍和情感；以及確保與游戲更大敘事的一致性。而多樣性可能適用于玩家采取的路徑。如果沒有情境的一致性，生成輸出的多樣性可能會缺乏重要意義。正如一位參與者所分享的：

生成式人工智能在上下文理解方面仍然存在局限性。這意味著，人工智能很難考慮整體體驗，并在此基礎上進行迭代生成。此外，由于其不一致性，人工智能在遵循特定規(guī)則和機制方面仍然表現(xiàn)不佳。 ——某獨立工作室的用戶體驗副總裁

換言之，支持創(chuàng)意不僅僅是關于新穎性的，而是將這種新穎性融入到互動式體驗或游戲的連貫性中。因此，生成式人工智能模型需要將多樣性與一致性相結(jié)合，以確保輸出既新穎又有實用價值的內(nèi)容。

迭代實踐

理念形成過程中迭代的重要性在“創(chuàng)造力支持”（creativity support）的文獻中已有詳細描述[37,38]。我們研究中的參與者頻繁強調(diào)了迭代實踐的重要性，這凸顯了這一主題在生成式人工智能賦能的創(chuàng)意應用背景下依然至關重要。

特別是，參與者談到要創(chuàng)造出感覺“合適”的東西，這強調(diào)了游戲創(chuàng)作者對于構(gòu)成每個設計決策的眾多細微元素的直覺。無論是角色的動作節(jié)奏，還是抓鉤的弧線設計，創(chuàng)作者都會投入大量時間對這些看似微小的細節(jié)進行微調(diào)。正如一位參與者所說：“細節(jié)才是真正微妙的游戲體驗所在?！比欢?，這種“合適”的感覺往往在創(chuàng)作伊始并不清晰，隨著過程的推進才逐漸明朗：

直到看到結(jié)果之前，我們很難知道什么是正確的輸出，因此還需要反復打磨和嘗試。這需要經(jīng)歷很多試錯。作為游戲設計師，我們甚至不會意識到那些需要做出數(shù)以千計小決策的細節(jié)。但我們只是知道有些地方不對勁兒，然后進行調(diào)整。 ——某獨立游戲工作室的首席運營官

此描述說明了創(chuàng)意人員通常如何在視覺媒介上工作，他們通過多次小規(guī)模的迭代直接操控所創(chuàng)造的內(nèi)容。迭代的過程超越了單一的輸出：許多參與者指出，他們會在不同的迭代之間進行動態(tài)的來回探索，以從中汲取靈感并嘗試將多樣化元素融合的可能性。為了通過迭代調(diào)整來促進創(chuàng)意，生成式人工智能模型應該突破基于文本的提示局限，從而支持對生成內(nèi)容的直接操控，具備采納用戶意見的能力，并支持不同迭代之間的融合。

評估模型能力

對發(fā)散式思維的支持和迭代實踐的方法在相關豐富的文獻和實踐中已有多種探討[7,26,37]，但就生成式人工智能而言，我們發(fā)現(xiàn)了這個重要的空白區(qū)域?；谟脩粞芯康慕Y(jié)果，并結(jié)合已有文獻的洞見，我們提煉出一套評估標準，即“模型能力”，以評估生成式人工智能模型在支持創(chuàng)意實踐方面的多樣性、一致性和持續(xù)性能力。

為了以具體的例子說明所確定的評價標準的含義及其實現(xiàn)方式，我們假設了生成式人工智能在最一般的視頻游戲“人機接口”上運作，它能生成游戲畫面序列（玩家在屏幕上看到的畫面，此處稱為“幀”）以及玩家控制器的操作動作。但這些評價標準卻具有更廣泛的通用性，可在不同模態(tài)如語言、音樂等中實現(xiàn)。

為了支持迭代實踐，首要重要的標準是模型在用戶迭代過程中要保持一致性。這意味著生成的幀流必須在自身之間保持一致（例如幀與幀之間），同時在游戲機制方面也要一致，例如固體物體不能穿過墻壁。在這種一致性中，發(fā)散式思維的創(chuàng)意實踐需要多樣的生成結(jié)果。例如，如果生成了三個可能的延續(xù)方式，它們應該以有意義的方式存在差異：例如這種差異可以體現(xiàn)在生成的玩家動作中，或是在隊友或?qū)κ纸巧珜@些動作的反應方式上。最后，用戶應該能夠修改生成的序列，且任何修改都應是持久的。如果創(chuàng)作者希望通過調(diào)整某一幀來影響模型的輸出，那么這種調(diào)整應是生成的焦點，且在接下來的幾幀后不會消失。

WHAM

既然我們已經(jīng)建立了實現(xiàn)賦能創(chuàng)作者的AI系統(tǒng)所需關鍵能力的認識，我們建立了一個初始模型，以展示了現(xiàn)代人工智能方法如何朝實現(xiàn)這些能力的目標上前進。

我們開發(fā)的WHAM模型模擬了現(xiàn)代視頻游戲的時序動態(tài)。WHAM通過人類游戲數(shù)據(jù)的訓練，學習預測游戲畫面（“幀”）和玩家控制器操作（詳見“模型架構(gòu)和數(shù)據(jù)”部分）。經(jīng)過訓練的模型精確捕捉到了游戲環(huán)境的三維結(jié)構(gòu)（“模型評估”部分），控制器操作的影響以及游戲的時間結(jié)構(gòu)。模型能夠生成連貫的游戲情境，展現(xiàn)出其一致性和多樣性，同時具有持續(xù)保留部分用戶修改的能力。

在我們的模型開發(fā)和評估中，我們專注于以游戲畫面和玩家操作的形式生成游戲玩法序列，因為這是視頻游戲一種非常通用且廣泛可訪問的表示形式。我們建立在豐富的世界模型研究基礎之上[39]，該研究展示了循環(huán)神經(jīng)網(wǎng)絡[40]、循環(huán)狀態(tài)空間模型[41]以及Transformer模型[42]在捕捉環(huán)境動力學方面的潛力，適用的場景包括2D視頻游戲和道路交通[43]。在這些和相關研究[18,19,44,45,46,47]的基礎上，我們深入探討了這些模型在創(chuàng)意應用中的具體要求和能力，并展示了在復雜的3D視頻游戲中，模型在時間上的穩(wěn)定建模進展。

模型架構(gòu)和數(shù)據(jù)

我們的建模選擇反映了所識別的模型能力，如下所示。一致性需要一個序列模型，能夠準確捕捉游戲畫面與控制器操作之間的依賴關系。多樣性需要一個能夠生成數(shù)據(jù)的模型，這些數(shù)據(jù)能夠保持視覺與控制器操作的序列的條件分布能夠與訓練集保持一致。最后，通過一個可以對（修改后的）圖像和/或控制器操作進行條件預測的模型，實現(xiàn)了持久性。就這三個能力而言，我們選擇了在大規(guī)模訓練數(shù)據(jù)和計算資源上能夠帶來模型提升的組件，即具有擴展性。

我們開發(fā)的WHAM模型模擬了現(xiàn)代視頻游戲的動態(tài)過程。通過對人類游戲數(shù)據(jù)進行訓練，WHAM學習預測游戲畫面（"幀"）和玩家控制器的操作（詳見"模型架構(gòu)和數(shù)據(jù)"部分）。經(jīng)過訓練的模型精確捕捉到了游戲環(huán)境的三維結(jié)構(gòu)（"模型評估"部分），控制器操作的影響以及游戲的時間結(jié)構(gòu)。模型能夠生成連貫的游戲情境，展現(xiàn)出其一致性和多樣性，同時具有持續(xù)保留部分用戶修改的能力。

圖2, WHAM概覽

我們將人類游戲過程表示為交替的圖像觀察和控制器操作的離散Token序列。我們使用z_t表示所有編碼觀察o_t在時間步t的Token，并使用a_t表示控制器操作。 hat變量表示模型的預測。首先，我們使用VQGAN模型[51]將來自觀察空間的圖像標記化到一個緊湊的離散潛在空間：o_t∈R^{H×W×3}（其中H、W和3分別表示視頻幀的高度、寬度和通道數(shù)），并將其映射到潛在空間z_t∈{1,2,…,V_O}^{d_z}，其中V_O是詞匯表大小，d_z是瓶頸大小。然后訓練一個因果Transformer[53]來預測潛在觀察和離散化的操作Token。 VQGAN編碼器/解碼器可以通過重建損失和感知損失[61]來進行訓練。沒有明確的分隔符用于區(qū)分下一個應該預測觀察Token還是操作Token——模型必須從學習的位置嵌入中推斷出來。

我們方法的一個關鍵之處在于將數(shù)據(jù)視為一系列離散的Token。為了將圖像編碼為Token序列，我們利用了一種VQGAN圖像編碼器[51]。每張圖像編碼所用的Token數(shù)量是一個關鍵的超參數(shù)，它在預測圖像的質(zhì)量、生成速度以及上下文長度之間進行權(quán)衡。對于Xbox控制器的操作，盡管按鈕本身是離散的，但我們?nèi)匀粚⒆髶u桿和右搖桿的x和y坐標劃分為11個區(qū)間[52]。隨后，我們訓練了一個僅包含解碼器的Transformer[49,53]，用于預測交替的圖像和控制器操作序列中的下一個Token。

生成的模型可以通過自回歸的方式采樣下一個Token來創(chuàng)建新序列。我們還可以在生成過程中修改Token，從而實現(xiàn)對圖像和/或操作的修改。這解鎖了通過控制器操作或直接編輯圖像本身來控制（或提示）生成的能力，這是持久性評估的先決條件。

為了展示該框架在捕捉現(xiàn)代視頻游戲動力學方面的潛力，我們使用了一個包含大量真實人類游戲數(shù)據(jù)的數(shù)據(jù)集來訓練WHAM模型。我們與游戲工作室Ninja Theory合作，聚焦在他們開發(fā)的游戲《Bleeding Edge》上，該游戲是一個3D的4v4的多人戰(zhàn)斗視頻游戲，我們從中獲取并生成了人類如何游戲的視頻數(shù)據(jù)?？偣?，我們從大約500,000個匿名化的游戲會話（相當于7年的連續(xù)游戲時間）中提取了數(shù)據(jù)，這些數(shù)據(jù)涵蓋了《Bleeding Edge》所有七張地圖。我們將這個數(shù)據(jù)集稱為“7 Maps數(shù)據(jù)集”。我們還將該數(shù)據(jù)集進行過濾，使其僅包含Skygarden地圖上一年的匿名化游戲數(shù)據(jù)，并將其稱為Skygarden數(shù)據(jù)集。有關這些數(shù)據(jù)集的數(shù)據(jù)收集細節(jié)，請參見“方法”部分的“數(shù)據(jù)”節(jié)。

最大的WHAM模型采用了一個16億參數(shù)的Transformer模型，具有1秒的上下文長度，并使用7 Maps數(shù)據(jù)集進行訓練。在這種變體中，每張圖像在其原生分辨率（300×180）下被編碼為540個Token。我們還訓練了一系列規(guī)模較小的WHAM模型：從1.5億參數(shù)到89.4億參數(shù)的Transformer，具有1秒的上下文長度不等，并使用Skygarden過濾數(shù)據(jù)集進行訓練，在這些模型中，128×128的圖像被編碼為256個Token。有關建模選擇和超參數(shù)的更多細節(jié)，請參見“建模選擇和超參數(shù)”部分，而模型的可擴展性分析則可在“模型規(guī)?！辈糠终业剑@兩部分均位于“方法”章節(jié)。

模型評估

我們提出了一個評估模型的方法，即從我們在用戶研究中識別的三項能力（“評估模型能力”部分）：一致性、多樣性和持久性出發(fā)，以支持創(chuàng)意構(gòu)思。我們使用這種方法來評估WHAM模型?！耙恢滦浴辈糠衷u估生成的游戲過程與游戲機制的一致性。“多樣性”部分評估生成的游戲過程的多樣性。最后，“持久性”部分探討了用戶的修改在生成結(jié)果中被保持的程度。

一致性

一致性確保了創(chuàng)意工作者能夠有效地迭代并在生成序列的基礎上進一步開發(fā)，因此對于迭代實踐而言至關重要。在游戲語境中，這意味著生成的序列應與既定的游戲動力學保持一致，并始終連貫性地呈現(xiàn)，而不會出現(xiàn)角色或物體的突兀變化。例如，角色不應穿過墻壁，物體不應無故消失。

Fréchet 視頻距離（FVD）是一種在機器學習領域中用于衡量生成視頻一致性的成熟方法。FVD 旨在捕捉視頻的時間動態(tài)和視覺質(zhì)量，并且已被證明與人類對視頻質(zhì)量的判斷具有相關性。在本研究中，我們將 FVD 應用于評估生成游戲的一致性，使用人類真實游戲數(shù)據(jù)作為基準。具體而言，我們使用 WHAM 模型生成視覺游戲，以包含視頻和控制器操作的 1 秒真實游戲數(shù)據(jù)，以及人類玩家在接下來的 10 秒游戲過程中采取的控制器操作作為條件。生成的游戲序列與基準數(shù)據(jù)的接近程度由 FVD 分數(shù)衡量，分數(shù)越低，表明生成內(nèi)容越接近真實數(shù)據(jù)。這種方法證明了模型準確捕捉了潛在游戲結(jié)構(gòu)的能力。通過初步分析，我們驗證了 FVD 分數(shù)與人類感知一致性的相關性。例如，研究表明 FVD 分數(shù)較低的情況下，人類對使用 8.94 億參數(shù)的 WHAM 模型生成的內(nèi)容的一致性評價更高。這些結(jié)果在《方法》一章中“一致性”部分及擴展數(shù)據(jù)圖 3 中有詳細說明。這種方法有效地評估了生成游戲的一致性，為評估 WHAM 模型的性能提供了重要依據(jù)。

圖3a展示了FVD隨計算能力（以浮點運算次數(shù)/FLOPS表示）在不同模型規(guī)模下的改進情況（詳見擴展數(shù)據(jù)圖2c），表明對于適當規(guī)模的模型，計算能力越大，F(xiàn)VD評分越高（見“方法”部分“模型規(guī)?！闭鹿?jié)的討論及其在擴展數(shù)據(jù)圖2a,b中的對比結(jié)果）。此外，我們還觀察到1.6B參數(shù)的WHAM模型在FVD評分上的提升，這得益于其采用了更高分辨率的圖像。這是因為更高的分辨率顯著提高了重構(gòu)性能的上限，從而使得生成的圖像能夠更貼近真實數(shù)據(jù)。

圖3. 一致性結(jié)果。a, 不同規(guī)模的WHAM模型在訓練計算預算（以浮點運算次數(shù)/FLOPS表示）下的FVD評分趨勢。隨著模型規(guī)模和計算預算的增加，F(xiàn)VD評分逐步提升（越小越好）。b, 展示了1.6B WHAM生成的兩組示例（每行一個示例，每個示例時長2分鐘），關鍵幀顯示該模型具備生成長期一致游戲過程的能力。

圖3b展示了定性結(jié)果，表明1.6B的WHAM模型能夠生成長達2分鐘的高度一致的游戲序列。更多示例可以在擴展數(shù)據(jù)圖4和補充視頻1中找到。

多樣性

為創(chuàng)意工作者提供多樣化的選項被證明可以激發(fā)新想法，從而支持人類的創(chuàng)造性構(gòu)思[21,55]，而用戶研究的參與者也強調(diào)了多樣性的必要性（“發(fā)散思維”部分）。因此，支持人類創(chuàng)造力的生成式人工智能模型應能夠生成可以反映不同潛在結(jié)果的范圍更廣的素材。由于可能性空間十分廣闊[36]（這其中涵蓋了游戲機制、其他玩家，以及游戲中的隨機性等），我們將評估的重點放在了模型能夠捕捉人類玩家在行動多樣性的能力上。如果模型在保持一致性的同時（如上所述，通過FVD單獨衡量）能夠生成這種多樣性，那么生成的游戲序列將反映出人類合理游戲過程的完整多樣性。

我們采用Wasserstein距離來評估多樣性，這是一種用來衡量模型的行動是否捕捉到人類行動完整分布的指標[56]。我們比較了真實人類行動與模型生成行動的邊際分布。Wasserstein距離越低，表示模型生成的結(jié)果越接近我們數(shù)據(jù)集中人類玩家的行動（更多細節(jié)請參見“多樣性”部分）。

圖4a展示了我們量化的結(jié)果。隨著訓練的進行，所有模型的Wasserstein距離均有所下降，逐漸接近人類間基線（計算方法為從人類行動序列中隨機選取兩個子集的平均距離）。盡管使用了更多的計算資源，但1.6B模型的表現(xiàn)略遜于894M模型。對此的一種假設是，1.6B模型使用了更多的圖像標記（540個相比256個）以及更大的詞匯表規(guī)模（16,384個相比4,096個），這兩者都在一定程度上弱化了行動標記上的損失重量。為了驗證這一假設，我們訓練了另一個1.6B模型，僅對行動損失的權(quán)重增加了十倍（‘1.6B上加權(quán)’）。這種上加權(quán)的策略相較于標準的1.6B模型，改善了Wasserstein距離的表現(xiàn)。

圖4 多樣性結(jié)果，a, 三個WHAM變體的多樣性（以Wasserstein距離衡量），即與人類行動的差異。在102,400個總行動數(shù)（1,024條軌跡，每條軌跡包含100個行動）中，我們采樣了10,000個人類和模型行動，并計算它們之間的距離。這一過程重復了十次，并繪制了均值±1的標準差。越接近人類間基線越好。均勻隨機行動的距離為5.3。所有模型在訓練中均有所改善，并且通過增加行動損失的權(quán)重可以進一步提升性能。b, 從相同初始上下文中生成的1.6B WHAM的三個示例。我們可以看到行為上的多樣性（玩家角色繞著刷新點打轉(zhuǎn) vs. 直接朝著加速板移動）和視覺上的多樣性（玩家角色駕駛的懸浮板擁有不同的外觀）。

持久性

持久性旨在賦予創(chuàng)意工作者對生成輸出的控制權(quán)，從而實現(xiàn)迭代優(yōu)化（“迭代實踐”部分）。模型應足夠靈活，以允許創(chuàng)意用戶對游戲狀態(tài)進行修改，并將這些更改融入生成的環(huán)境中。

為了評估WHAM的持久性，我們通過在游戲圖像中手動插入三個不同元素之一來編輯游戲圖像：（1）游戲內(nèi)物體（一個“能量單元”）；（2）另一名玩家（盟友或?qū)κ纸巧灰约埃?）地圖元素（一個“垂直加速板”）。我們將每個元素插入到八個合理但新建的游戲位置（如擴展數(shù)據(jù)圖7a所示）。對于每個元素和位置，我們使用1.6B WHAM生成十張圖像，即一段1秒的視頻，條件設置為依賴于一個或五個已修改的圖像。為了考慮模型輸出的多樣性，我們對每個修改后的圖像重復生成步驟十次。隨后，我們手動檢查和標記每個元素是否在生成的視頻中得以保持。圖5展示了編輯過程和生成視頻的示例。擴展數(shù)據(jù)圖6展示了人類標記的成功和失敗持久性示例。

圖5：編輯過程及定性的持久性評估結(jié)果。成功的持久性的示例：能量單元、角色和垂直加速板。對于我們的持久性評估，WHAM的所有生成都基于無操作動作，因此玩家角色和相機不應該有移動。這些示例顯示，插入的能量單元在整個1秒的生成過程中保持穩(wěn)定，而插入的對手角色開始攻擊玩家角色并造成了傷害。盡管垂直加速板被插入到現(xiàn)實游戲和我們的數(shù)據(jù)中從未出現(xiàn)的某個地圖區(qū)域，但它在WHAM的所有生成中得以保持。

表1展示了成功持久的生成內(nèi)容所占的比例。當WHAM模型的生成條件基于五張編輯后的圖像時，其持久性顯著提高，所有元素類型的成功持久率均達到85%及以上。更多詳細分析和持久性示例可以在方法中的“持久性”部分找到。擴展數(shù)據(jù)圖7b的左欄展示了按元素類型和起始位置的持久性的詳細分析結(jié)果，而右欄則展示了起始位置的誤差分析，其中持久性元素的延續(xù)性更具挑戰(zhàn)性。補充視頻1顯示了包含與插入元素交互的生成游戲序列。

表1：定量的持久性分析結(jié)果。當WHAM基于一張用戶編輯后的圖像進行條件設置時，每個元素的持久性低于60%。然而，當基于五張用戶編輯的圖像進行條件設置時，每個元素的持久性顯著提升至85%或以上（經(jīng)過Bonferroni校正的二項檢驗，顯著性水平為0.008）。

我們的實驗結(jié)果表明，1.6B的WHAM能夠在合理但全新的起始位置中持久顯示插入的常見游戲元素。我們相信，這些示例展示了未來WHAM版本在創(chuàng)意應用中的潛力，可以將更多富有想象力的元素融入生成的序列中

WHAM展示器

為了說明WHAM在本研究中如何支持迭代實踐和發(fā)散性思考，我們構(gòu)建了一個概念原型[57]，名為“WHAM演示器”。需要注意的是，概念原型并非完整的用戶體驗，而是對特定設計模式的探索。WHAM演示器提供了一個可視化界面，供用戶與WHAM實例交互，包括多種與模型對話的方式。這種設計便于探索WHAM的能力，以及這些能力所支持的交互模式。為了促進創(chuàng)意探索和后續(xù)研究，我們公開提供了以下內(nèi)容：訓練好的模型（兩種WHAM尺寸）、WHAM演示器，以及一個樣本評估數(shù)據(jù)集（有關詳細信息，請參閱“數(shù)據(jù)可用性”和“代碼可用性”）。

補充視頻1展示了關鍵功能。首先，視頻展示了模型的各項功能。在一段訓練過程中的案例研究中，我們展示了模型生成的一致性，即生成的游戲序列在時間上保持一致，并且能夠涵蓋廣泛的游戲機制，這些能力隨著訓練的進展而提升（00:50–02:10）。多樣性則體現(xiàn)在一組從相同初始出生點開始的游戲序列中，展示了角色在三個可用跳躍板之間的移動例子（02:11–02:50）。最后，持久性通過案例研究展示了角色和能量單元的持久性，這些結(jié)果與表1中的匯總數(shù)據(jù)相對應（02:51–03:42）。

我們在圖1d和補充視頻1（從03:43開始）中展示了WHAM演示器的功能。用戶可以選擇一組初始幀來“提示”模型[58]，實現(xiàn)視覺而非語言的提示方式。WHAM隨后會生成大量分支，展示了游戲可能的演變路徑，這些多樣化的選項支持發(fā)散性思考（“發(fā)散性思考”部分）。用戶可以選擇任何分支或幀重新開始生成下一幀，包括返回并修改之前的選擇，以支持參與者提到的融合迭代（“迭代實踐”部分）。為了實現(xiàn)迭代，用戶可以修改任何生成的幀，例如通過添加對手角色（使用持久性）或提供控制器輸入數(shù)據(jù)來影響后續(xù)生成的序列。用戶可以不斷調(diào)整和迭代，直到得到他們想要的“感覺”，同時保持對創(chuàng)作過程的控制。

結(jié)論

隨著我們不斷探索對生成式人工智能在創(chuàng)意產(chǎn)業(yè)中的角色拓展，確保人工智能的開發(fā)朝著能夠保障人類對創(chuàng)作過程主導地位的方向前進是至關重要的。通過與多元化的游戲創(chuàng)作人員進行的用戶研究，我們識別出了三個關鍵的模型能力，這些能力包括：一致性、多樣性和持久性，它們在通過迭代實踐和發(fā)散性思考支持創(chuàng)意構(gòu)思的人工智能系統(tǒng)開發(fā)中應優(yōu)先考慮。我們還展示了當人工智能模型在適當?shù)臄?shù)據(jù)集上進行訓練時，具備這些能力的可行性。

我們的研究為機器學習研究人員指明了不同于傳統(tǒng)模型的創(chuàng)新路徑，這些傳統(tǒng)模型并非支持創(chuàng)造性思維而設計。首先，模型的評估不僅可以而且應該有目的地受到人類創(chuàng)意需求的指導，以確保創(chuàng)新朝著正確的方向發(fā)展。這與機器學習領域主要關注任務完成的有效性和效率形成了鮮明的對比，這種對有效性和效率的關注在支持流程效率的傳統(tǒng)場景中通常是有用的。其次，旨在支持創(chuàng)造性的機器學習模型不太可能是獨立的目標，而更應該是全面創(chuàng)造性工作流程中的重要組成部分。模型的開發(fā)必須融入這些工作流程中，用戶修改內(nèi)容并需要多次迭代的需求就是一個明顯的例子。隨著模型創(chuàng)新逐漸更全面地與創(chuàng)意工作者的需求相連接，有關計算創(chuàng)造力（computational creativity）和創(chuàng)造力支持（creativity support）的文獻為這一領域提供了豐富的指導[7,25,26]。

WHAM展示的能力表明，現(xiàn)代生成式人工智能模型能夠在無需先前領域知識的情況下，從相關數(shù)據(jù)中學習日益復雜的結(jié)構(gòu)。我們證明，這類模型能夠生成與3D世界中合適的游戲機制和物理一致的游戲游玩序列。鑒于WHAM完全從游戲游玩數(shù)據(jù)中學習了這些結(jié)構(gòu)，而無需任何先驗的領域知識，我們預計這些結(jié)果可以在廣泛的現(xiàn)有游戲中得到復制，并最終推廣到新的游戲和類型之中[18,32]。類似WHAM的生成式人工智能模型的關鍵創(chuàng)新在于，它們消除了對個體領域的手工制作或?qū)W習特定領域模型的需求，使得這類模型創(chuàng)新很可能將創(chuàng)造力支持拓展到音樂[59]或視頻[60]等其他領域。通過對一個單一3D視頻游戲的使用案例的推斷，我們也可以對未來模型的強大潛力有一個初步的認識，這些模型將使人類創(chuàng)作者團隊能夠打造復雜的全新體驗。

「AI時代的學習：共探學習的復雜性」主題讀書會

在技術(shù)浪潮的沖擊下，智能時代對人才培養(yǎng)的需求正發(fā)生根本性轉(zhuǎn)變——學習已不再局限于簡單的知識傳遞與記憶，當機器能夠替代程式化技能，人類的創(chuàng)造力、批判性思維與跨界協(xié)作能力將成為核心競爭力；當知識更新周期以月甚至天為單位迭代，教育的使命不再是填鴨式灌輸，而是培養(yǎng)終身學習者的自適應能力。

在此背景下，集智俱樂部聯(lián)合江南大學教授王志軍，北京師范大學教授崔光佐，翼鷗教育創(chuàng)始人宋軍波，TalkingBrain 聯(lián)合創(chuàng)始人林思恩，清華大學講師方可，北京師范大學博士后郭玉娟，共同發(fā)起。希望通過匯聚教育學、系統(tǒng)科學、腦科學、計算機科學、社會學等多領域交叉視角，突破單一學科的局限，對人類社會未來學習發(fā)展形成更加全面深入的認識。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.