大半夜的,大洋對岸不卷,國內(nèi)公司卷起來了。
我真的想睡覺,真的。
起因是我睡覺之前,在看Github的時候,無意間看到THUKEG這個號,更新了一個項目。
CogVideoX。
網(wǎng)址在此:https://github.com/THUDM/CogVideo
THUKEG算是智譜的官號,而CogVideoX,則是前兩周很火的智譜的第二世代AI視頻清影的基模型。
用最通俗的話理解就是,CogVideoX等于GPT4o,而清影等于ChatGPT,你就可以簡單的理解為,一個是模型,一個是基于模型做的產(chǎn)品,所以其實可以畫個等號。
前兩周,第二世代的AI視頻大戰(zhàn),在已有的三幻神Runway、可靈、Luma的基礎上,Pixverse上線了V2版本,Vidu的模型也千呼萬喚始出來。
而作為大模型領域最明星的AI公司,智譜,也加入了這場AI視頻的混戰(zhàn),發(fā)布了他們的DiT視頻產(chǎn)品,清影。
這個產(chǎn)品,在他們的AI助手智譜清言上,就能用。
但是非常坦率的講,我沒有寫它,是因為我覺得,在生成效果上,確實跟可靈、Runway,還是有一定的差距。
而在發(fā)布清影的兩周后的今天,他們決定,把CogVideoX,開源了。
那就值得,吹一波了。
CogVideoX模型下載地址:
https://huggingface.co/THUDM/CogVideoX-2b
現(xiàn)在主流的AI視頻,全都是閉源的,有一個開源的Open-Sora,但是說實話,效果也差強人意。
而清影,效果雖然跟主流的閉源模型尚有差距,但是在跑一些內(nèi)容上,至少是可用的狀態(tài)。
這一次開源的,我大概翻了下,開源的是一個CogVideoX-2B的小模型。
推理需要18G顯存,也就是說,在有單卡3090或者4090的時候,就可以直接本地跑視頻了,不需要再燒錢了,不過看峰值會到36G,大概率會爆顯存。
不過他們自己也說了,馬上就會優(yōu)化。
不過我只有一張小垃圾4060,顯存就8G,你優(yōu)化完我也跑不動。4090,說實話,也真的沒錢買= =
啥時候AI視頻模型,也跟SD1.5一樣,能普惠眾生人人皆可跑就好了。
這個2B的模型,視頻長度是6秒,幀率為8幀/秒,視頻分辨率為720*480。
這參數(shù),有一股子即夢初代的那感覺了。
我放幾個他們官方的case(其實你去清影上跑幾個是差不多的)
一艘精致的木制玩具船,桅桿和船帆上雕刻著復雜的圖案,在模擬海浪的藍色長毛絨地毯上平穩(wěn)地滑行。船身漆成濃郁的棕色,并帶有小窗戶。地毯柔軟而有質(zhì)感,提供了一個完美的背景,就像一片廣闊的海洋。船的周圍環(huán)繞著各種玩具和兒童用品,暗示著一個充滿童趣的環(huán)境。這個場景捕捉到了童年的天真和想象力,玩具船的旅程象征著在異想天開的室內(nèi)環(huán)境中的無盡冒險。
鏡頭跟在一輛白色復古越野車后面,車頂有黑色行李架,越野車在陡峭的山坡上沿著松樹環(huán)繞的陡峭土路快速行駛,輪胎上的塵土飛揚,陽光照在越野車上,越野車在土路上快速行駛,給整個場景投下了溫暖的光輝。土路緩緩彎向遠方,看不到其他車輛。道路兩旁的樹木都是紅杉,還有零星的綠色植物。從后方看,汽車輕松地沿著彎道行駛,仿佛在崎嶇的地形上行駛。土路本身被陡峭的丘陵和山脈環(huán)繞,頭頂是晴朗的藍天和飄渺的白云。
在一個飽受戰(zhàn)爭蹂躪的城市,廢墟和殘垣斷壁訴說著滿目瘡痍,在這個令人心碎的背景下,一個凄美的特寫鏡頭定格了一個年輕的女孩。她的臉上沾滿了灰燼,無聲地證明著周圍的混亂。她的眼睛里閃爍著悲傷和堅韌,捕捉到了這個因沖突而失去天真世界的原始情感。
推理大概是這樣,但是開源出來,我更期待的,其實是微調(diào)和插件的生態(tài)。
比如現(xiàn)在大家都在用的AI繪圖SD的1.5模型,基模其實做的就跟一坨屎一樣,但是畢竟是開源的,一堆大神基于SD1.5,做出了非常牛逼的模型,比如Majic、DreamShaper、Anything等等。
而CogVideoX,也是可以微調(diào)的。
想起了在WAIC上,階躍星辰跟上影做的AI視頻模型,他們用了200分鐘的葫蘆娃素材,就調(diào)了一個葫蘆娃大模型。
你出的所有的東西,都是葫蘆娃風格,你也不用費勁巴拉的去搞什么角色一致性了,我輸入大娃,那就出來的就是大娃,我寫爺爺和蛇精在一起哈啤酒,那就是他兩。
而現(xiàn)在,CogVideoX開源,我們可以微調(diào)的情況下,一些用AI做短劇和長劇集的,完全可以試著微調(diào)一個自己的視頻大模型,來個性化風格和角色。
因為我自己一直覺得,文生視頻的上限和表演動態(tài),是比圖生視頻要高很多的,但是兩個最大的坎是風格一致性和角色一致性,如果可以微調(diào),那也是有很多辦法可以去解決了。
CogVideoX-2B的微調(diào),需要的顯存是40G,普通的顯卡不行了,得上A6000這種渲染卡了。
不過畢竟是視頻模型,不說普惠到普通大眾,但是對于一些初創(chuàng)公司和小企業(yè),這門檻幾乎就是約等于0。
因為,這是開源的,他們不需要再從0開始花費無數(shù)資金去做一個自己的大模型,去趟這一趟坑,他們只需要,買點本地的卡,加起來也就幾萬十幾萬,然后,就可以本地微調(diào)了。
我也一直相信,開源的未來,一定比閉源強。
扎克伯格在前段時間發(fā)LLaMa3.1405B的那天晚上,在Facebook上發(fā)了一封萬字公開信。
其中有一段話讓我印象很深刻。
翻譯過來是:
我堅信開源是實現(xiàn)積極AI未來的必要條件。AI相比任何現(xiàn)代技術都有更大的潛力提升人類的生產(chǎn)力、創(chuàng)造力和生活質(zhì)量,并加速經(jīng)濟增長,同時推動醫(yī)療和科學研究的進步。開源將確保世界上更多的人能夠享受AI帶來的益處和機會,防止權力集中在少數(shù)公司手中,使得這項技術能夠更加均衡、安全地在全社會推廣。
防止權力集中在少數(shù)公司手中,使得這項技術能夠更加均衡、安全地在全社會推廣。
開源,就是最好的手段,閉源并不會帶來技術平權,但是開源會,因為AI不是一個娛樂工具,他是生產(chǎn)力工具,他的推動,主要都來自于公司、研究機構等等。
而每個公司,在使用AI時,都有三個很大的痛:
1. 他們需要訓練、微調(diào)和提煉他們自己的模型。
2. 他們需要保護他們的私有數(shù)據(jù)。
3. 他們希望把自己的AI變成長期標準的生態(tài)系統(tǒng)。
這一切,匯總起來,就一句話:
我們需要能控制自己的命運,而不是把命交給別人。
而在國內(nèi),智譜是我覺得很特別的公司,它很像OpenAI,又有著Meta的氣質(zhì)。
要知道Meta的商業(yè)模式,和一些大模型公司比如OpenAI的商業(yè)模式完全不一樣,他們不靠賣大模型的使用權收錢,所以開源其實對于Meta來說,并沒有多大的影響。
但是智譜不一樣,智譜是一家大模型公司。
但是在這樣的考量下,他們依然,毅然決然的開源了。
可能他們也像Meta一樣,為了那個很崇高的信仰:“使得這項技術能夠更加均衡、安全地在全社會推廣?!?/p>
除了CogVideoX外,他們還開源過N多東西。
去他們的Github上翻一下,你就會發(fā)現(xiàn)很多驚喜:
https://github.com/THUDM
我愛每一個愿意開源的公司。
我期待未來某一天,無數(shù)的開發(fā)者在CogVideoX的基礎上,開發(fā)出了各種各樣的插件和微調(diào)模型,每一個影視、短劇、廣告等等等各種跟視頻有關的行業(yè)的公司,也都有自己N多的模型和各種各樣的視頻生成工作流。
就像SD在各家企業(yè)里,繁榮昌盛。
我佩服智譜。
這不僅是一個技術的決定,更是一種信念的傳遞。
大洋對岸的燈光漸漸熄滅。
而我們這邊的黎明。
正在冉冉升起。