新智元報道
編輯:定慧 英智
【新智元導讀】研究發現,LLM在創作梗圖時表現出驚人的幽默感與創造力,甚至超越了人類創作者!AI創作的梗圖評分更高,但最具靈魂的作品仍來自人類。
AI似乎比人類更懂得「如何幽默」,模因(Meme)圖靈測試已經被LLM通過!
來自慕尼黑和瑞典的研究者發現:LLM能夠生成「被人類評判為」比普通人創作的模因更搞笑的作品!
論文鏈接:https://arxiv.org/abs/2501.11433
研究者在圖中展示了「模因(Meme)梗圖」的效果,從幽默性(Humor)、創意性(Creativity)和分享性(Shareability)三個方面進行比賽。
有趣的是,完全由AI創作的梗圖在所有領域的平均表現都優于僅由人類或人類-AI協作創作的梗。
這似乎表明AI已經通過了模因圖靈測試。
幽默的復雜性:AI真的可以理解人類的幽默嗎?
「模因Meme」一詞最早可以追溯到Richard Dawkin在1976年出版的《自私的基因》,隨之演化成為媒介傳播過程中網絡梗圖、搞笑段落和幽默視頻的代名詞。
模因的獨特特征,包括其視覺和文本性質、對文化背景的依賴以及通常簡潔而有力的幽默表達,給生成式AI帶來了與「純文本笑話」生成不同的獨特挑戰。
這項研究的核心目的,是探究LLM和人類在創作梗圖時的協同創造力。
為啥選梗圖呢?因為梗圖把視覺和文字巧妙融合,既依賴文化背景,又充滿創意和幽默,特別適合用來研究人類和AI在創作上的互動。
Gemini根據論文生成的梗圖
網絡流行的德雷克拒絕/接受梗被AI理解
人類之間的合作,一直被認為能激發創造力。大家一起頭腦風暴,不同的觀點相互碰撞,往往能誕生出更棒的創意。
對于如何評估梗圖這種創意作品,一般會從創造力、幽默感和分享度這幾個方面入手。
梗圖創作大PK
研究團隊精心設計了一項用戶研究,把參與者分成了三組。
第一組是純人類組,他們在沒有任何AI幫助的情況下創作梗圖;第二組是人類-AI協作組,參與者可以和LLM互動,借助它的力量來生成想法;第三組是AI組,梗圖完全由模型自主生成。
具體的創作任務分為三個步驟。
首先是創意生成,研究人員會給他們展示一張流行梗圖的背景圖片,然后讓他們圍繞工作、食物、運動這三個主題里的一個,在五分鐘內盡可能多地想出梗圖的文字說明。
對于人類-AI協作組,參與者還能通過聊天界面向LLM尋求幫助。
接著是收藏選擇,參與者要從自己想出的所有想法里,挑出最喜歡的三個。
最后是圖片創作階段,他們把選好的想法添加到梗圖模板上,還能對文字的位置、大小進行調整。
創作的時候,每位參與者要根據不同的圖片和主題組合,完成三個梗圖的創作,整個過程大概40分鐘,完成后還能得到15美元的報酬。
之后,研究人員從人類組和協作組生成的梗圖里,分別隨機挑選150張,再讓LLM針對同樣的圖片和主題,生成150張AI創作的梗圖。
然后,找了另一組新的參與者,讓他們從幽默、創意、分享度這三個方面,對這些梗圖進行打分評估。
為了讓LLM在研究里發揮作用,研究人員給它設定了不同的任務。
在人類-AI協作組的創意生成階段,LLM就像個「創意助手」,參與者可以自由地向它提問。
為了讓LLM給出更符合要求的回答,研究人員給它設置了系統提示,告訴它要幫助用戶生成梗圖創意,交互語氣要友好禮貌,一次最多給出三個想法。
在生成純AI梗圖的時候,研究人員會把圖片信息發給LLM,讓它針對每個圖片-主題組合生成20個梗圖文字說明。
研究的用戶界面是用React搭建的,數據收集和與OpenAI的GPT-4o API的交互通過NodeJS服務器,保證了數據的準確性和完整性。
梗圖創作和評估都是在線上完成的,創作階段用專門搭建的梗圖創作界面,評估階段則借助商業調查平臺。
梗圖創作階段,研究人員通過線上平臺Prolific招募了124人,其中26人沒完成任務。
最后的參與者來自30個不同的國家,英語水平都不錯,而且之前至少用過一次LLM的界面。其中63人是男性,35人是女性,平均年齡28.8歲。
在梗圖評估階段,又招募了100人,同樣要求英語好,但不要求有使用LLM的經驗。最后有98人完成了任務,這組人男女比例差不多,平均年齡32.6歲,來自29個不同國家。
研究結果
現在,激動人心的研究結果來啦!
先看看梗圖創作階段,在創意生成方面,使用LLM的參與者明顯比純人類組想出了更多的創意。純人類組平均每人想出6.1個創意,而有LLM幫助的參與者在這方面優勢明顯。
在LLM的幫助下,參與者生成了更多創意,而且他們并不覺得創作過程更累。
從NASA-TLX的評估數據可以看到,兩組在整體工作量上沒有太大差別,只是在「努力程度」這一項上,AI協作組的參與者打分更低。
LLM確實能提高創作效率,讓人們在創作梗圖時更輕松地產生更多創意,但它可能會讓創作者對作品的「主人翁」 感覺變弱。
LLM主要在創意生成階段發揮作用,而后續的篩選和圖片制作環節還是靠參與者自己完成。
梗圖評分
從梗圖的評分結果來看,人機協作組雖然在創意數量上占優,但在質量上并沒有比純人類創作的梗圖更好。
在幽默程度、創造力和分享度這三個維度上,兩組的評分沒有顯著差異。這說明在梗圖創作中,單純增加數量,并不一定能提升作品的質量。
讓人意外的是,純AI生成的梗圖在幽默、創意和分享度這三個方面的整體評分都比人類組和人類-AI協作組要高。
這是因為LLM在訓練過程中,接觸了大量的素材,能夠精準地把握大眾的喜好。
但當我們把目光聚焦在那些表現最出色的梗圖時,在最有趣的梗圖中,大部分是由人類創作的;而在創造力和分享度方面表現突出的梗圖里,人機協作的成果占了不少。
這充分體現了人類的創造力在某些方面是無可替代的。人類能夠將個人獨特的經歷、豐富的文化內涵融入作品。
LLM在梗圖創作中的優勢顯而易見。它就像一個不知疲倦的創意助手,能在短時間內提供大量的創意,幫助創作者突破思維局限,提高創作效率。
而且,憑借其對海量數據的學習能力,它能精準地抓住大眾的幽默喜好,創作出有吸引力的內容。
但它也并非完美無缺。LLM生成的內容往往缺乏獨特的個性和深度,可能無法真正理解某些特定文化背景下的微妙幽默。
人類的創造力是梗圖創作中不可或缺的關鍵因素。
例如,在創作一個關于職場的梗圖時,人類創作者可以結合自己在職場中的真實故事和感受,對LLM生成的創意進行調整,讓梗圖更具感染力和真實感。
參考資料:
https://x.com/emollick/status/1901431681279475808
https://arxiv.org/abs/2501.11433
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.