豆包升級(jí)上新,網(wǎng)友們?cè)俅瓮姣偅?/p>
更新的是豆包文生圖功能,官方直接用一張豆包AI生成的海報(bào)給劃了重點(diǎn):
沒(méi)錯(cuò),豆包可以在圖片中生成更準(zhǔn)確的文字了,尤其是中文。
做海報(bào),效果可以是醬嬸的:
給自己的旅游VLOG整點(diǎn)某音某書(shū)封面,風(fēng)格也是直接拿捏。
甚至還能直接拿來(lái)設(shè)計(jì)文旅周邊了…
另外,超長(zhǎng)復(fù)雜提示詞也能準(zhǔn)確get:
關(guān)鍵是,免費(fèi)!現(xiàn)在就能暢玩。
嗯,編輯部已經(jīng)被表情包by豆包刷屏了
實(shí)測(cè)豆包文生圖升級(jí)
豆包文生圖功能本次升級(jí)主要體現(xiàn)在四個(gè)方面:
- 標(biāo)題大字準(zhǔn)確度提升至94%,小字也能準(zhǔn)確生成
- 語(yǔ)義理解和影視質(zhì)感增強(qiáng),鏡頭更有敘事感
- 即使是超長(zhǎng)復(fù)雜提示詞,也能準(zhǔn)確遵循
- 繪畫(huà)風(fēng)格更多元,可生成頭像、梗圖、盲盒、貼紙、Logo
有一說(shuō)一,在文字生成能力方面,不少模型都是Demo美好而實(shí)際免不了亂碼。
豆包文生圖新模型究竟表現(xiàn)如何,咱們還是得實(shí)測(cè)才知道。
正值清明假期,那我們不妨讓它生成一張清明節(jié)海報(bào):
- Prompt:幫我生成一張清明節(jié)海報(bào),并配文“清明時(shí)節(jié)雨紛紛,路上行人欲斷魂”。
從生成的4張圖可以看到,它們都100%正確還原了“清明時(shí)節(jié)雨紛紛,路上行人欲斷魂”這句文字,而且整體氛圍感比較符合清明節(jié)主題。
然鵝,每張圖都或多或少在小字生成方面還是有一些小瑕疵。
那如果嘗試規(guī)避其弱點(diǎn),只是單純用來(lái)生成大字海報(bào)呢?
- Prompt:生成一張親子戶外風(fēng)圖像,僅配文“出發(fā)啦”,比例9:16
這次的結(jié)果就比較符合要求了,而且偷偷告訴大家一個(gè)小注意事項(xiàng):即使用來(lái)生成只有大標(biāo)題的海報(bào),在提示詞中也盡量避免提到“海報(bào)”二字,不然豆包AI就會(huì)“自作主張”加一些效果不佳的小字。
接下來(lái)我們考一下豆包AI的“鏡頭感”。
- Prompt:通過(guò)特寫(xiě)鏡頭來(lái)捕捉一個(gè)運(yùn)動(dòng)員在比賽關(guān)鍵時(shí)刻的緊張表情和汗水。
嗯,不僅高度還原了提示詞,而且看上去真有電影截圖內(nèi)味兒了
變換各種鏡頭語(yǔ)言,幾乎每張都堪比大片:
- 展現(xiàn)一個(gè)偵探在昏暗的巷子里追蹤嫌疑人,緊張的氣氛和快速的步伐。
而且即使是超長(zhǎng)復(fù)雜提示詞,豆包AI現(xiàn)在也能精準(zhǔn)還原了:
- 賽博朋克風(fēng)格的插畫(huà),一位身著高科技服裝的東方女性。她的服飾以深藍(lán)為主色調(diào),外觀颯爽,科技感配飾 。頭戴對(duì)講耳機(jī),AR眼鏡。背景是暗黑風(fēng)格,有藍(lán)綠色扭曲的樹(shù)枝,點(diǎn)綴粉色光斑,營(yíng)造神秘氛圍。背景中安排幾尊白色人形雕塑,賽博朋克風(fēng)格建筑,環(huán)境濕潤(rùn)。
Again,還能來(lái)一段更長(zhǎng)長(zhǎng)長(zhǎng)的提示詞:
在保證“壁畫(huà),水彩,地中海風(fēng)格”的整體基調(diào)下,豆包AI生動(dòng)勾勒了一幅海邊小鎮(zhèn)度假圖。
提示詞中的關(guān)鍵元素均在圖中有所展現(xiàn),整體非常夢(mèng)幻、chill~
最后當(dāng)然更吸引網(wǎng)友的是,豆包AI繪圖風(fēng)格更多元了。
喜歡換頭像的友友,即日起一天一個(gè)也不是不行(doge)。
此外,除了文藝復(fù)興一些經(jīng)典老梗,咱們現(xiàn)在也能分分鐘成為“造梗小能手”了:
還能自己動(dòng)手設(shè)計(jì)一些復(fù)古盲盒:
更多玩法歡迎大家自行解鎖~~
全新升級(jí)3.0模型
豆包升級(jí)版文生圖功能背后,是全新的3.0模型。
官方尚未透露相關(guān)細(xì)節(jié),不過(guò)就在不久前,豆包大模型團(tuán)隊(duì)首度公開(kāi)了去年12月上線的Seedream 2.0的技術(shù)細(xì)節(jié)——
這個(gè)版本的更新,開(kāi)啟了豆包文生圖的“識(shí)字”時(shí)代。
Seedream走的是擴(kuò)散模型路線。
豆包大模型團(tuán)隊(duì)透露,為了讓模型既看懂文本,又關(guān)注字體字形,他們?cè)跀?shù)據(jù)預(yù)處理階段和預(yù)訓(xùn)練階段都下了功夫。
Seedream 2.0在數(shù)據(jù)預(yù)處理階段,依靠智能標(biāo)注引擎實(shí)現(xiàn)了三級(jí)認(rèn)知進(jìn)化,提升了模型理解、識(shí)別能力,通過(guò)多維度、多層級(jí)精準(zhǔn)圖片描述,讓模型技能理解文字意思,也能捕捉和理解字形細(xì)節(jié)。
同時(shí)在預(yù)訓(xùn)練中,Seedream 2.0構(gòu)建了雙模態(tài)編碼融合系統(tǒng)。其中大語(yǔ)言模型負(fù)責(zé)解析“文本要表達(dá)什么”,字形模型ByT5專注于刻畫(huà)“文字應(yīng)該長(zhǎng)什么樣”。
細(xì)節(jié)是,通過(guò)MLP投影層,將ByT5的字形特征對(duì)齊到LLM語(yǔ)義空間,二者拼接后輸入擴(kuò)散模型。此種方法下,字體、顏色、大小、位置等渲染屬性不再依賴預(yù)設(shè)模板,而是通過(guò)LLM直接描述文本特征,進(jìn)行端到端訓(xùn)練。這樣,模型既能從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)文本渲染特征,也可以基于編碼后的渲染特征,高效學(xué)習(xí)渲染文本的字形特征。
BTW,這次Seedream新模型依然是在豆包和字節(jié)旗下AI創(chuàng)作平臺(tái)即夢(mèng)AI同步接入,不過(guò)即夢(mèng)還是灰度測(cè)試的狀態(tài)。
以及同樣的提示詞下,豆包和即夢(mèng)的風(fēng)格傾向似乎略有不同。
豆包:
即夢(mèng)AI:
目前,豆包免費(fèi),即夢(mèng)AI每天會(huì)贈(zèng)送免費(fèi)積分,感興趣的大家都可以自己上手玩一玩。
有什么好玩的創(chuàng)意,歡迎在評(píng)論區(qū)留圖分享啊~
* 本文表情包均由豆包AI生成
豆包:https://www.doubao.com/chat/
即夢(mèng):https://jimeng.jianying.com/ai-tool/image/generate
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.