網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

國產(chǎn)視頻模型，何以風(fēng)靡美國社交媒體？

2024-10-31 10:13:52　來源: 遠川研究所

上海舉報

分享至

最近有一篇題為《2美元的H100：GPU泡沫是如何破滅的？》的文章異常火熱，甚至投資人都認為英偉達堅挺的股價就是被這一篇文章所摧毀。

這篇看似討論英偉達基本面的分析文實際上代表的是華爾街對于人工智能的兩種態(tài)度：

文章作者認為基建投資并非終端需求，而只是中間需求，如果沒有終端需求的承接，任何基建投資都是不可持續(xù)的。

而反對者則表示，即便當(dāng)下人工智能商業(yè)化模式尚未明確，但AI改變世界成為科技革命的趨勢不變，公司們注定會不斷加大資本開支，從而利好英偉達。

兩派觀點都各自擁有一批擁躉，可同時，這兩派又存在一種共識：即人工智能非常燒錢，且暫時看不到利潤。

而另一邊，海外媒體Financial Times以及The information在今年10月各發(fā)了一篇文章，標(biāo)題分別是《中國的人工智能初創(chuàng)企業(yè)競相打入美國市場》、《中國應(yīng)用在AI視頻領(lǐng)域取得早期勝利》。

對AI泡沫的擔(dān)憂和中國應(yīng)用在海外攻城略地的現(xiàn)狀形成了巨大的反差，在絕大多數(shù)公司還在焦慮如何獲得足夠的收入來支付高昂的模型訓(xùn)練計算成本的時候，國內(nèi)已經(jīng)有公司開始談?wù)撦^短時間內(nèi)實現(xiàn)自負盈虧甚至盈利了。

在公認AI尚未有成熟商業(yè)化模式的當(dāng)下，這些公司是怎么做到的？

給大模型算筆賬

對于OpenAI來說，去年的冬天著實是不堪回首。除去Ilya等科學(xué)家大戰(zhàn)Sam Altman這場舉世矚目的宮斗大戲之外，還有一個當(dāng)時外界很少關(guān)注的噩耗：

OpenAI背后最大的金主、Altman能夠官復(fù)原職的靠山，微軟，正在秘密打造一款OpenAI的替代品。

據(jù)海外媒體報道，微軟正嘗試將原本集成在Bing當(dāng)中的GPT模型逐步替換成自研版本，而背后的原因也不是因為GPT能力不足或是提前預(yù)見到如今的大規(guī)模高管離職動蕩，反倒是因為OpenAI的技術(shù)能力太強了。

大體來說使用大模型的成本分成兩部分，一者是模型訓(xùn)練和數(shù)據(jù)中心建設(shè)，這部分通常是一次性的資本開支尚且不足為懼；二者是日常運行所需的推理成本，絕大多數(shù)科技公司的虧損都來自于此。

用戶每一次調(diào)用都代表著一筆推理費用，而參數(shù)越大、能力越強的模型，單次調(diào)用成本也就越高，同時伴隨著用戶數(shù)量的提升，推理成本卻并不存在規(guī)模效應(yīng)。

與此同時，科技公司又無法讓詢問“今天天氣適合穿什么衣服”和“火箭發(fā)動機建造原理”的兩種用戶進行差異化定價，在輕度用戶為主的今天，使用頂級模型幾乎和用復(fù)興號拉煤無異。

在這種語境下，題為《How does OpenAI Survive》以及《AI's 600B$ Question》的分析文流傳甚廣。前者作者對于OpenAI這種盈利模式不清晰、但卻需要大量燒錢的模式產(chǎn)生了質(zhì)疑：

“OpenAI的營收在35億至45億美元之間，但其運營虧損可能高達50億美元，其收入遠遠無法覆蓋成本。而為了推出下一代的大模型GPT5，OpenAI需要更多的數(shù)據(jù)和算力，這又是一大筆花費。”“但在這些花費之下，我們暫時沒有看到一個具有清晰模式的商業(yè)產(chǎn)品。”

后者則更為直白：當(dāng)下AI公司6000億美元的成本和收入之間，還存在5000億美元的虧損。

半年過去，2000億變成6000億了

這兩篇文章其實都在闡述一個相同的觀點，即下游應(yīng)用端尚未發(fā)現(xiàn)使用AI帶來的收益能夠覆蓋其使用成本之前，大模型公司想要實現(xiàn)類似蘋果芯片那樣“技術(shù)領(lǐng)先-產(chǎn)品商業(yè)化-資金反哺技術(shù)”的商業(yè)化閉環(huán)極為困難。

相比于OpenAI們在技術(shù)領(lǐng)先的同時遇到的商業(yè)化困境，蘋果的Apple Intelligence和Adobe的AI工具Firefly卻呈現(xiàn)出另一種狀態(tài)：即完全不擔(dān)心用戶付費，卻由于技術(shù)問題導(dǎo)致AI并沒能帶來實質(zhì)上的溢價。

即便隆重推出Apple Intelligence，最新款的iPhone 16并未漲價的同時仍然銷量平平，分析師們異口同聲的表示這就是由于“創(chuàng)新不足”。而Adobe在幾乎壟斷設(shè)計創(chuàng)意市場的前提下，并且在去年四季度加入AI工具之后，其營收在今年三季度不過同比增長12%。

這兩家公司的共性在于，在AI浪潮出現(xiàn)之前，他們本就擁有龐大的信眾群體和付費基數(shù)，這種先發(fā)優(yōu)勢顯然不是創(chuàng)業(yè)公司所能夠復(fù)制的。

因此OpenAI們和蘋果們存在的問題，實際上是技術(shù)領(lǐng)先和應(yīng)用側(cè)提供充足需求之間的錯位。

兩條腿走路

過去一個月，名廚戈登·拉姆齊（Gordon Ramsay）在廚房里“煉丹”的段子視頻，在美國的TikTok、Instagram和X 上瘋傳。

這段由MiniMax旗下產(chǎn)品海螺AI制作的視頻爆火并不是個例，在OpenAI的Sora依舊是“內(nèi)部體驗”狀態(tài)的情況下，來自中國的可靈、PixVerse、Vido都在海外擁有海量用戶。

這種現(xiàn)象在海外精英媒體的嘴里，已經(jīng)被形容為“中國應(yīng)用在AI視頻領(lǐng)域取得早期勝利”，要知道在2022年末在ChatGPT引領(lǐng)文字大模型的時代，中國公司在全球市場幾乎沒有聲音。

今天，以MiniMax為例，它擁有來?全球近200個國家的6000萬用戶，每日與全球用戶進行30億次交互，包括日均處理超3萬億Token，日均生成2000萬張圖片，日均合成7萬小時語音，是國內(nèi)日處理量、交互時長最高的大模型公司。

在今年8月31日發(fā)布旗下首個視頻模型abab-video-1之后，海螺AI網(wǎng)頁版9月訪問量達497萬，同比增加867.41%，位列AI產(chǎn)品榜（web）9月全球增速榜、國內(nèi)增速榜雙榜單榜首。今年10月再次迭代，新增圖生視頻功能。

視頻模型在海外的火熱甚至帶動A股傳媒板塊，在同花順等股吧熱榜中都出現(xiàn)相關(guān)話題。

對于普通用戶來說，選擇使用一款大模型的理由其實很簡單：模型效果足夠好。

MiniMax視頻模型在VBench（視頻?成模型評測框架）的第三方獨立測試結(jié)果中綜合排名第一，在畫面質(zhì)量、連貫性、流暢性等多維度均處于領(lǐng)先地位。

衡量視頻生成模型的使用效果，主要是從畫面質(zhì)量、連貫性、流暢性、指令響應(yīng)這幾個用戶能夠感知到的維度，MiniMax視頻模型能夠準(zhǔn)確識別用戶上傳的圖片，并確保所生成視頻在形象保持上與原輸入圖像高度一致，且光影、色調(diào)完美嵌入新場景的設(shè)定，為創(chuàng)作者提供連貫、深度創(chuàng)作的空間。

指令響應(yīng)方面，MiniMax視頻模型可以理解超出圖片內(nèi)容之外的文本，解構(gòu)指令框架和深層語義并在視頻生成中整合，捕捉到創(chuàng)作者的每一個小心思，實現(xiàn)“所寫即所見”。在海螺AI超強的圖片信息控制能力加持下，每一位創(chuàng)作者都可以做最任性的導(dǎo)演。

對于絕大多數(shù)應(yīng)用產(chǎn)品來說，用戶缺乏付費意愿的本質(zhì)是缺乏黏性，以嘗鮮為目的的使用方式難以形成轉(zhuǎn)化，今天用戶獲取到的信息中，文字、圖片、視頻，三種形式基本是等比例共存，也就意味著使用AI生產(chǎn)內(nèi)容的用戶同樣會自發(fā)的涌入一個全能的產(chǎn)品。

而對MiniMax來說，他們認為提高用戶覆蓋度和使用深度的唯一辦法，就是輸出多模態(tài)內(nèi)容。在推出視頻模型后，MiniMax擁有了文本、圖像、語音、音樂、視頻五類模型布局。

在技術(shù)能力和應(yīng)用側(cè)的全方位布局下，MiniMax才能夠?qū)崿F(xiàn)兩條腿走路，從而完成商業(yè)閉環(huán)。

如何實現(xiàn)商業(yè)閉環(huán)？

在一次采訪中，MiniMax國際業(yè)務(wù)總經(jīng)理盛靜遠曾提及：“MiniMax現(xiàn)在是所有中國大模型公司里面，少數(shù)幾個能講商業(yè)化變現(xiàn)，能講產(chǎn)品跟模型驅(qū)動，甚至很有可能能在比較短的時間內(nèi)實現(xiàn)自負盈虧及盈利的公司”。

在融資不足的現(xiàn)狀下，創(chuàng)業(yè)公司必須想辦法創(chuàng)造收入，而在海外用戶付費習(xí)慣更好且產(chǎn)品夠好的情況下，相比競爭激烈且付費意愿不強的國內(nèi)市場明顯更有增收的空間。國內(nèi)消費者對訂閱制的低黏性有目共睹，最典型的就是中視頻平臺。

公開數(shù)據(jù)顯示，MiniMax旗下的Talkie全球月活躍用戶數(shù)已達1100萬。

盛靜遠認為，MiniMax現(xiàn)在處在半山腰的狀態(tài)，如果做得比較成功，很快就能達到一個正向的商業(yè)循環(huán)，希望通過技術(shù)突破，產(chǎn)品商業(yè)化，從而再反哺技術(shù)，而不是考慮還有哪些錢會來投。

在技術(shù)層面，MiniMax在尚未得到行業(yè)認可時就堅定要做MoE架構(gòu)，到了今天其實已經(jīng)很難找到說自己不用MoE的語言大模型了。

這種架構(gòu)最大的意義就在于處理任務(wù)時，模型只有特定部分會被激活。例如當(dāng)用戶需要生成一段摘要時，模型會自動激活最適合該工作的部分，不必每次都調(diào)動整個大模型，簡單來說，就是殺雞無需用牛刀，從而極大降低前文所述的推理成本。

MiniMax是國內(nèi)首個完成MoE算法技術(shù)路線突破，首個將Linear Attention架構(gòu)與MoE結(jié)合并應(yīng)用于模型研發(fā)的大模型企業(yè)。

如果說MoE架構(gòu)是一種有效調(diào)用和分配算力的方式，Linear Attention則是通過降低計算復(fù)雜度，從而將每一份算力最大化利用起來的技術(shù)，說人話就是，在殺雞的時候迅速找到角度從而精準(zhǔn)下刀。

相比于通用Transformer架構(gòu)，在128K的序列長度下，新架構(gòu)成本減少90%以上，且序列長度越長，優(yōu)勢越明顯，也就是我們常說的超長文本閱讀能力上表現(xiàn)更佳。

新架構(gòu)的原?線性計算復(fù)雜度?幅減少了?模型的訓(xùn)練和推理成本，利用國內(nèi)有限的算力，達到了一個真正可以比肩GPT-4o的效果。

在產(chǎn)品方面，AI產(chǎn)品活在新聞稿和爆料中著實不少見，隔壁OpenAI畫餅都成習(xí)慣性操作了，從Sora遲遲未上線，到SearchGPT的測試名額只有10000個，再到前兩天又透露說計劃12月前推出下一代模型“獵戶座（Orion）”，但又是計劃首先向與其密切合作的公司授予訪問權(quán)限...以至于網(wǎng)友都給OpenAI的產(chǎn)品發(fā)布做了個非常形象的流程圖。

為了讓用戶滿意，MiniMax堅持做到“可見即可用”，拒絕期貨產(chǎn)品。這種交付能力也為它贏得了海量用戶的青睞。聲網(wǎng)（旗下海外公司Agora是OpenAI的合作伙伴）與MiniMax正在合作國內(nèi)第一個Realtime API，將帶來更低延時、更自然、更沉浸的實時語音對話，為企業(yè)協(xié)作、社交、直播、游戲等多種場景提供新玩法、新機會。

除去海螺AI、星野、Talkie（海外）等多款直接面對用戶的APP產(chǎn)品外，MiniMax推出的開放平臺產(chǎn)品，接入的2B客戶企業(yè)和開發(fā)者已超3萬個。

尾聲

在算力、算法、數(shù)據(jù)三大核心要素的比拼上，美國巨頭擁有先天性的優(yōu)勢，國內(nèi)無論是互聯(lián)網(wǎng)大廠還是創(chuàng)業(yè)公司，這種客觀條件下的差距是無法回避的。

在客觀差距存在的前提下，借鑒互聯(lián)網(wǎng)行業(yè)得以領(lǐng)先的事實，MiniMax提出了第四大要素——

用戶。

我國最具備競爭力的要素，很可能就是用戶規(guī)模。用戶規(guī)模并不是單純意味著更大的商業(yè)化潛力或者市場規(guī)模可以用千億萬億來衡量的概念，更重要的是大量用戶帶來的“交互頻次”。

絕大多數(shù)AI產(chǎn)品是由技術(shù)極客開發(fā)的，但用戶卻以普通人為主，前者在MoE算法和Linear Attention架構(gòu)的世界里自由探索，但普通人很可能只關(guān)注語音交互是否卡頓。

在每天30億次的交互下，MiniMax更認為是這些用戶在幫助他們做更強大的、以解決問題為導(dǎo)向的應(yīng)用，甚至是底層技術(shù)的提升，用MiniMax CEO閆俊杰的話來說：

“每當(dāng)我們的模型有重大提升，處理速度有顯著提升的時候，就可以看到用戶使用的場景和用戶使用的深度顯著地變高。反過來，這里還有一個曾經(jīng)發(fā)生的真實案例：一個bug導(dǎo)致對話重復(fù)錯誤率變高，當(dāng)天對話量掉了40%。這也解釋了我們堅持技術(shù)創(chuàng)新的最底層原因。”

這最終也構(gòu)成了MiniMax所堅持的一個原則性的目標(biāo)——

Intelligence with Everyone。

這時我們不妨再回到文章開頭的那個問題：人工智能的錢是不是都被英偉達賺走了？

誠然，談起AI我們總會說國內(nèi)環(huán)境不好、融資情緒差、技術(shù)存在差距、商業(yè)化不盡人意零零總總，我們也不能否認與美國存在差距的事實。

可回過頭來看這一輪AGI革命，曾在電子產(chǎn)業(yè)領(lǐng)先的日韓杳無音訊、歐洲只余Mistral一家獨苗，還是從硅谷返鄉(xiāng)創(chuàng)業(yè)，中國的AI人才規(guī)模在全球卻已經(jīng)僅次于美國，在一些特定領(lǐng)域的模型甚至出現(xiàn)了反超，對于全球科技的追趕者來說，這已經(jīng)殊為不易。

如果只盯著英偉達的百億利潤，全球的AI公司都難免黯淡無光。

參考資料：

[1]Chinese Apps Notch Early Wins in AI Video，The information

[2]China’s AI start-ups race to crack US market，F(xiàn)inancial Times

[3]硅谷深思：GPT應(yīng)用遲未爆發(fā)，大模型泡沫根源初探，硅星人Pro

[4]閆俊杰對話黃明明：AGI，只有一條最難但唯一的道路，暗涌

作者：張澤一

編輯：戴老板

視覺設(shè)計：疏睿

責(zé)任編輯：張澤一

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.