4o 剛剛更新多模態的新功能,圖像生成有了全新的體驗。
簡單分享下圖像生成的效果先。
這是之前參加活動的一張照片:
這是 4o 生成的,換成另外兩個人的:
中間的文字明顯還有錯漏。這個先不管。照片里看不太出破綻。
換成女性的效果:
依然還有問題,左邊的人臉,胡子過于明顯了。不過其它的地方,還是足以以假亂真。
用宮崎駿的風格處理:
用 Jojo 的風格處理:
接下來,命題切換,試著讓兩個人進入西游記。(提示詞也只是簡單說,讓兩個人在西游記的場景里)
繼續卡通化:
同樣的,可以讓兩個人進入太空,有科幻感受:
可以進一步做成 3D 的效果:
你可能會說,這種 AI 圖,以前見得多了。4o 有什么不一樣呢?
最大的不一樣就是:多模態的理解能力大大加強。
舉個例子,Midjourney 的確能夠畫出非常有質感的圖。比如這是前幾天畫的:
可是,這都是碰運氣碰出來的。想讓這里面的某些元素發生變化,比如讓戰士不是拿劍,而是拿棍,比登天還難。
更不用說,直接跟 Midjourney 講,要有西游記的場景。Midjourney 甚至不知道什么是西游記。同樣畫出前面西游記場景的提示詞,在 Midjourney 里會是這樣:
多模態有多么強大的威力呢。
比如我直接把之前三五環遠程錄制的時候,讓嘉賓參考的說明書丟給 4o,就給我吐出來了這個:
中文顯示依然有問題。且不說這個,排版和圖示,已經到了能夠簡單修改就可用的程度。
我把半拿鐵的 logo 給它,讓它改成西游篇的 logo,它給我的是這樣的:
對于輸入的內容足夠理解,也就是,我們用自然語言就能控制 AI 幫助我們畫圖。這件事兒意義很大。
我前陣子試過用所有的 AI 繪圖工具,沒有一個能實現簡單的一句話:「讓哪吒和孫悟空用現代武器戰斗」。只有 4o 能呈現符合邏輯的圖像:
幾點感受分享。
第一,Prompt 的學習,徹底沒有意義了。過去都說,AI 不太好理解,因此 Prompt 的知識庫很重要,怎么學習用 Prompt 很重要。DeepSeek R1 等推理 AI 證明了,AI 對自然語言的理解還在不斷進步。文生圖如此。其它領域也都如此。Manus 也是如此()。
第二,所謂 AI 的工作流,也許就閉環在每個 AI 場景里了。
可以用前面的兩個人物形象,讓 4o 直接生成四格漫畫:
臺詞水平還需提升。但是這個漫畫開始有了「邏輯」。
過去我們用各種各樣的 AI 工具搭建的工作流,例如怎么畫漫畫,可能要一二三步怎么做,還要用什么手段保持一致性,用什么辦法畫場景等等()。最后會在 AI 產品里直接完成。
第三,底層技術成熟,應用場景越來越關鍵。能夠把工作流閉環在某個場景里,是真的能提供生產力的,真的能輸出價值的。AI 不再只是小部分人的玩具。2025 年真的會是場景之年。
最后一句話的感受是:所有過去我們覺得 AI 偶爾會奏效的場景,AI 遲早會穩定地、準確地輸出。
用這句話,4o 也給了我一張圖。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.