昨天連更兩篇,今天想休息一下,結果。。。
真的快肝吐了,感覺自從DeepSeek開源統治地球之后。
開源的世界,迎來了究極繁榮。
上周DeepSeek連續5天開源硬核技術,阿里開源萬相2.1,Qwen的推理模型推出預覽版,但是肯定馬上也要開源。
而今天,智譜這個曾經的開源之光,在昨天官宣拿了杭州10億融資之后,在官宣文章里如此寫道:
我知道智譜今年會大力開源,但是沒想到,開源年的第一棒,來的如此之快,就在第二天。。。
我。。。不是,讓我歇會吧。。。
今天智譜和清華團隊直接開源了他們的AI繪圖模型,CogView4。
這下,真的快補上2025年開源屆的拼圖了。
模型鏈接在此:https://github.com/THUDM/CogView4
模型尺寸6B,在BF16和batchsize=4d的情況下,GPU需求如圖。
最低估計一張12G的顯卡就能跑起來。
我們也在第一時間,把模型下載下來,反手在AutoDL上開了一臺A800-80G的顯存,部署測試了一下。
我自己測試下來,一張1024*1024的圖大概70s左右,AutoDL的云機器會慢一些,本地應該會快不少。
當然如果你們想直接體驗,也可以用智譜官方自己搭好的在線服務:
https://modelscope.cn/studios/ZhipuAI/CogView4
在跑了一小時后,我覺得CogView4,有兩個比較有意思的點。
一個一個說。
第一個點就是,CogView4支持中英文字直接生成,跟我之前寫過的即夢2.1還挺像的,但是智譜的CogView4,是開源的。
這也是開源的AI繪圖模型里,第一個支持同時生成中英文字的。
我跑了些case,大家可以直接看看。
比如這些Promtp:
1. 一只布偶貓舉著牌子,牌子上寫著中文字體的“起來嗨’。
2. 一幅極簡主義風格的冬季插畫,以"小雪"節氣為主題。畫面采用清新的淺藍色調,上方用簡約的白色中文字體寫著"小雪"二字。構圖主要分為三個層次:天空、雪山和鐵路。背景是連綿起伏的雪山剪影,呈現出柔和的曲線;中間是一列橙紅色的火車,在茫茫雪原上形成鮮明的視覺對比;整個畫面點綴著飄落的雪花。
3. 電影宣傳海報,畫面中間是韋小寶,四周是宮女,標題文字“重生之我是韋小寶”。
4. 畫面頂部英文標題:“I NEED YOU”,復古美漫動漫,畫面中央是一個小孩在電視機前玩游戲的背影。
非常坦率的講,整體效果和審美,是沒有市面一些主流模型好的,中文字的錯誤率很高比英文大不少,審美和色彩,也有一點差距。
我測下來,感覺他們是沒有把文字拎出來單獨做處理,而是非常實誠的直接塞給模型直接處理了,所以中文錯別字比例會高一些。
但是優點也很突出。
那就是,這玩意開源啊!唯一一個能生文字的開源。
就智譜的Cogview4的效果來看,我覺得,他們技術肯定是沒問題,最大的問題,還是數據集這塊,審美確實差不少,但是如果你就把它當個底座,來重搞數據集,微調一個很牛逼的電影海報設計模型,那真的不是不可能。
第二個特點,就是它的語義理解,還是真的有點東西的。
比如這些Prompt:
1. 8K超寬幅畫卷,分四區域: 左側: 唐代城門,朱紅城墻,商隊駱駝穿行,匾額題“朱雀門”; 中左: 西市胡商集市,絲綢瓷器攤位,人群熙攘; 中右: 曲江池畔,仕女泛舟,柳樹垂岸; 右側: 大明宮殿群,飛檐斗栱,晨霧繚繞。 整體風格為工筆重彩,絹布質感。
2. 一幅橫向長卷,從左到右依次是遠古狩獵營地、古埃及金字塔群、中世紀市場、工業革命工廠、當代摩天樓、未來垂直花園城。
3. 一籠剛出籠的上海小籠包,皮薄餡嫩,湯汁豐富,擺放在精致的竹制蒸籠中。 旁邊是一碟香醋和一雙竹筷,背景是木質的餐桌和一壺綠茶,體現出江南的細膩和雅致風格。 江南風味,精致,雅致
4. 野徑云俱黑,江船火獨明。
5. 一張照片級真實感的奇幻毛茸茸汽車,車身完全覆蓋著厚實柔軟的白色絨毛,明亮靈動的車燈宛如一雙友善的大眼睛,輪胎隱藏在濃密蓬松的毛發之中,夜晚散發出溫暖柔和的光暈,呈現出魔法生物般的風格,細節精致,質感極度逼真,充滿夢幻氣息與溫馨感,電影級燈光效果
可以看到,美不美的另說,但是畫的,是真的準確。
這塊還是得益于,他們把T5換成了GLM4,這個還是爽多了。
目前他們在出圖的分辨率上,也沒限制特定比例,2048以下幾乎都可以無極調節,這一點還是比較爽的。
后續,他們也會支持ComfyUI和ControlNET套件,還有微調的腳本。這個還是比較重要的,用CogView4來當基座模型微調的話,應該能玩出不少的花活。
目前開源的這個模型支持Apache2.0協議,而給普通用戶用的版本,也會在3月13日上線在智譜清言上,到時候可以蹲一下。
最后,我想聊聊智譜這個公司。
國內我之前有一個非常主觀不客觀的評價,我把五家公司放在一起,并稱為開源五虎。
其實在DeepSeek還沒成立的時候,智譜就已經在kuku開源模型了。
如果是2023年就開始玩大模型玩AI的,應該見過這個風靡一時的基座模型,ChatGLM-6B。
4w的星標,在Github上意味著啥相信大家懂得都懂。
那個時候,我還在公司里面做項目,微調了好幾個不同的GLM6B,串成工作流來執行任務。
后續,他們又開源了非常非常非常多的模型,比如GLM-4、GLM-4-Voice、CogVideoX v1.5、CogAgent等等等等。
時光匆匆,一晃眼,兩年了。
這兩年,感覺到了智譜的糾結、智譜的掙扎,還有他們的搖擺。
雖然在2024年的后半程,他們靠著AutoGLM和智能體,在整個AI圈殺出了一條自己的血路,但是在開源世界的聲量,好像也被通義和DeepSeek壓了過去。
老驥伏櫪,志在千里。
在今天CogView4的倉庫里面有這么一張官方生成的Demo圖。
他們把2025年,定義為智譜AI自己的開源年。
不破不立,破而后立。
期待智譜拿下更多超級融資的同時,也能在開源路上越走越遠。
畢竟,對我們所有人而言,每一家廠商的進步,都是讓中國AI越發閃耀的燈火。
祝愿這片風云激蕩的江湖,燃得更盛吧。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.