2025年開年,國產(chǎn)的大模型頻頻“刷屏”。
DeepSeek用低成本和高性能震撼了世界,MiniMax一出手就是“王炸”,MiniMax-01憑借超長的長文本理解能力,被海外媒體、投資人和研究員認為是可以和OpenAI“掰手腕”的頂尖開源模型。
之前還有人說中國頂尖企業(yè)的大型語言模型大約落后美國同行6到9個月,這怎么突然間就領(lǐng)先了呢?
其實,如果我們仔細看看這些優(yōu)秀大模型的特點和最近的發(fā)展策略,就能從中找到答案。
01
底層技術(shù)創(chuàng)新是根本
MiniMax針對大模型最底層、最核心的Transformer架構(gòu)進行了重構(gòu),它第一次在一個超大規(guī)模商用模型上,引入了有別于傳統(tǒng)Transformer架構(gòu)的線性注意力機制,以極低的算力成本,為困擾著整個大模型行業(yè)的難題提供一個新的解題思路。
這種底層技術(shù)創(chuàng)新讓MiniMax-01大模型能夠高效處理高達400萬token的輸入,可輸入長度是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。
特別值得一提的是,最近包括DeepSeek在內(nèi)的多家公司的最新研究論文均聚焦于通過改進傳統(tǒng)稀疏注意力機制的架構(gòu)來提升大語言模型的長文本處理能力,而MiniMax早在1月中旬就把具備超長文本處理能力的模型發(fā)布并且開源了!
同樣,DeepSeek也是在大模型中采用了創(chuàng)新的架構(gòu),從而實現(xiàn)了極低的訓(xùn)練成本和很好的推理能力。
由于MiniMax-01大模型在底層技術(shù)層面做出了創(chuàng)新,所以一經(jīng)發(fā)布,立刻在海外引起了熱議浪潮。
除了開源模型,在文生視頻領(lǐng)域,MiniMax也做了重要更新。
基于MiniMax S2V-01視頻模型的“主體參考”功能,僅需上傳一張圖片即可識別并鎖定主體角色。文本框內(nèi)輸入Prompt提示詞,無需漫長等待,即可生成富有創(chuàng)意且主體保持一致的高質(zhì)量視頻。
主體參考+Prompt:A close-up of a young boy in a dimly lit room, his eyes fixed on the glowing screen of a gaming console. The camera is positioned slightly above eye level, focusing on his concentrated expression as his fingers nimbly manipulate the controller. A game character appears, breaking free from the screen's confines.
2024年12月,基于MiniMax大模型的海螺AI海外訪問量超2700萬,突破歷史新高并榮登12月全球AI視頻產(chǎn)品榜首位。
所以,對于一家大模型公司來說,堅持技術(shù)驅(qū)動,堅持底層架構(gòu)創(chuàng)新,不在產(chǎn)品上繡花,才是AI時代的正確打法。
DeepSeek、MiniMax等公司就是這么做的,所以它們可以在眾多大模型中脫穎而出。
02
前瞻性的戰(zhàn)略布局
MiniMax的CEO閆俊杰在接受采訪時說道:“中國大部分公司,不管創(chuàng)業(yè)公司還是大廠,都還在用做推薦系統(tǒng)的方法來做大模型產(chǎn)品。”
“推薦” 的邏輯是:用戶越多,反饋越多,推薦引擎越聰明。
而閆俊杰認為,AI 大模型和產(chǎn)品的真實關(guān)系是:“更好的模型可以導(dǎo)向更好的應(yīng)用,但更好的應(yīng)用和更多用戶并不會導(dǎo)向更好的模型。”
換句話說,一個大模型智能的提升,并不是靠上層的應(yīng)用和更多的用戶,而是靠模型自己的迭代創(chuàng)新。
用戶數(shù)并不是AI競爭的核心,所以MiniMax很早就轉(zhuǎn)換了自己的目標:加速模型的技術(shù)迭代。
MiniMax-01模型就是這種前瞻性戰(zhàn)略決策的成果之一,它首次在 4000 億以上參數(shù)的大模型中,使用了線性注意力機制新架構(gòu),能高效處理全球最長的 400 萬 token 上下文。
DeepSeek的爆火也證明了這一點,它不宣傳用戶數(shù)、API調(diào)用量這些數(shù)據(jù),就靠強悍的模型能力,便宜的價格,在7天內(nèi)狂攬1億用戶,增長速度非常夸張。
除此之外,MiniMax和DeepSeek一樣,都走上了和OpenAI相反的道路:開源。
這種策略立刻點燃了全球用戶的熱情,掀起了討論、部署、使用的狂潮,這種盛況是前所未有的,在封閉的ChatGPT時代是絕對不可能看到的。
當全世界的用戶都能接觸到最前沿的技術(shù),并且進行持續(xù)改進時,閉源是無論如何都打不過開源的。
全世界的開發(fā)者完全可以站在開源的MiniMax-01的肩膀上,構(gòu)建無數(shù)的應(yīng)用生態(tài),推動大模型加速向AGI方向發(fā)展。
開源形成巨大的影響力,占領(lǐng)了用戶的心智,無形中極大地提升了MiniMax和DeepSeek的全球技術(shù)品牌。
這就給閉源的大模型公司形成了巨大的壓力,最近,就連OpenAI CEO 山姆?阿爾特曼也承認:“我們過去在開源方面一直站在歷史錯誤的一邊...... OpenAI需要‘弄清楚另一種開源戰(zhàn)略’”
03
中國大模型很有希望
從DeepSeek、MiniMax等公司的成長軌跡和戰(zhàn)略布局中,我們可以清晰地看到,國產(chǎn)大模型不僅有能力迅速追趕國際領(lǐng)先水平,更具備超越的潛力。
它們選擇了一條艱難但正確的道路:深耕底層技術(shù),以創(chuàng)新為核心驅(qū)動力,同時通過開源大模型吸引全球開發(fā)者,構(gòu)建開放生態(tài)。
這種“技術(shù)深耕+生態(tài)開放”的雙輪驅(qū)動模式,釋放出了強大的創(chuàng)新勢能。在通往AGI(通用人工智能)的道路上,“顛覆”將成為常態(tài),而只有那些持續(xù)突破底層技術(shù)、并成功構(gòu)建繁榮生態(tài)的企業(yè),才能在激烈的競爭中脫穎而出,成為最后的贏家。
隨著更多類似MiniMax企業(yè)的涌現(xiàn),中國大模型的發(fā)展前景將不可限量,有望在全球AI舞臺上占據(jù)領(lǐng)先地位。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.