從前都以為修圖是很復雜的事,從平平無奇的白底 logo,比如這樣:
變成精致漂亮還帶 3D 立體效果的場景圖,比如這樣:
需要怎么做?
不是在 Adobe 軟件里埋頭苦干大半天,也不用跟設計師來回 battle 一下午——只需要去最新的 ChatGPT,輸入一句話,結束。
網址都給你找好了:https://chatgpt.com/
在今天凌晨 OpenAI 發布新一代文生圖功能的時候,大家還不是很清楚它的實力,還以為是跟在 Gemini 后頭,帶來一些遲到的升級。
GPT 不語,只是一昧地讓用戶案例震驚全場。
在最新的迭代中,OpenAI 帶來了文生圖功能上,突破性的指令遵循和一致性表現。只需最簡單的文字 prompt,就可以實現高精度的圖片細部微調—— 一切修改只需要在會話當中進行,無需任何按鈕、筆刷等額外操作。
魔法不用筆刷,只用咒語
和 Gemini 類似,這次 OpenAI 的更新,重點不在于能做多寫實、多復雜的圖片,而在于指令遵循和一致性,并且是在只使用自然語言指令的前提下。
先來看一組比較入門級的食物照片,prompt 也非常簡單:generate an image of coffee and bread。
隨后,在原圖的基礎上要求改成冰咖啡、涂果醬。
除了杯柄之外,該加的加,該留的留,指令遵循非常出色。
涉及到人像的圖片,也有穩定的表現。
仔細看的話,還是有一些小地方是在變動的,但最關鍵的人體動作、衣服皺褶、表情,都沒有瑕疵。
在這組圖的時候,碰到了內容風控,報錯稱不符合政策要求。不過,它理解到了原指令的意圖,提出了修改方案。
這最后一張,也是生成效果最好最自然的一張。
畫面內容簡單的任務自然是手拿把掐,那么復雜一點的呢?
之前在 Gemini 的生圖測試中,我們出過一張城市街頭景象,效果非常驚人,再看一遍:
同樣的 prompt,給 ChatGPT 執行,在畫面效果上稍微差了一點,尤其是到夜晚這張,幾乎已經看不到人群細節了。
當然這個問題比較偏向于是審美不同,在對關鍵元素的識別上是沒問題的,甚至能捕捉到「蔦屋書店」這樣小的細節,字體生成也挺穩的。
除了直接用文字生成,還可以上傳圖片進行修改——此刻,最震撼的一集來了。
在上傳了 png 格式的 APPSO 標志之后,第一步簡單的變個 3D 立體。
效果還可以,陰影方向不一致,但符合光線本身即可。接下來再做點調整。
震撼! 這兩次調整的 prompt,不過是二十來個字而已。
(甚至默認數碼產品都是 Apple 的,一些沒有說的屬性真是偷偷藏不住呀。)
隨后的小角度微調也很準確。
Prompt:調整角度,使紅色logo變成正面,其余保持不動
細節微調是這次更新非常大的亮點,能夠準確將指令與相對應的細部關聯起來,從而完成精確的局部修改。
Prompt:調整角度,鏡頭從右前方拍攝,整體光線變暗,一束強光從右側打亮機器的一部分,旁邊搭配咖啡豆
指令中包含了光效、鏡頭角度、元素增補等關鍵內容,模型能夠準確識別,而且整體性地進行調整。指哪改哪四個字,都已經說倦了。
這次的更新中,最意外的應該是 在同一個會話中,生圖和生文迅速切換的能力。
比如在下面這張圖中,最早的指令是生成一個禮物包裝指南。
首先給出來的是一個圖文版——不算是錯,我沒有指明是要做圖文版,還是文字版, 指令是很模糊的。
在生成文字版之后,ChatGPT 主動詢問是不是要做圖文版,在收到確認的答復之后,給出了圖文并茂的版本。
這意味著模型的準確反應, 不僅體現在理解單一指令上,也體現在領悟用戶潛在意圖上,比用戶「多想一步」。
實際上,這也是此前 Deep Research 發布時就展現出來的能力。OpenAI 的深度檢索,是少數會主動向用戶詢問、明確任務執行細節的深度檢索產品。
類似的能力,這次遷移到了生圖當中,從使用感受而言,比在 Deep Research 上的更直觀可感。
例如可以用來制作日常的告示說明,圖文一鍋都「端」了。
中文字符的處理還是差點意思,在可接受范圍內吧。
整體來看,這次最驚人的肯定要屬一致性和指令遵循的同步到位。
按照慣例,每次測評都應該有一些「使用指南」——這次真的沒有發現什么注意事項, 一切只要按照自己的想法,敲擊鍵盤,輸入文字,就行了。沒有什么「技巧」或者「竅門」。
通過 prompt 生圖及改圖的一致性,是文生圖非常關鍵的問題,它既跟模型能力相關,又和工程能力相關。
在指令遵循和一致性有這么大的進步之前,主要是通過 prompting 來解決的, 壓力是在用戶這一邊。
所以會有各種各樣的 prompt 模版、攻略,教大家怎么「跟模型打交道」。但那不是自然語言交互應該有的狀態, 讓人先學一通怎么寫 prompt,著實很勸退——模型在面對人的時候,接受的就是用戶最直接的指令。
Gemini 和 OpenAI 近期的更新,讓熱度有所降低的生圖賽道又重新熱鬧了起來。它們也展示出了同一個共同點:一些修圖改圖產品,通過增加按鈕、入口,來 增加生圖的可操控性,以此來對抗模型幻覺的日子,快要到頭了。
一致性的問題解決的并不僅僅只是圖片生成的問題,更加是「使用圖片生成功能」過程中的小麻煩。某種意義上,也是一種工程層面的優化。
修改、生成都是可以用模型對文字指令的準確理解來實現——在這個層面上,「模型即產品」仍然成立。
我們正在招募伙伴
簡歷投遞郵箱
hr@ifanr.com
?? 郵件標題
「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.