99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

首個自回歸視頻生成大模型 Swin Transformer作者團隊重磅開源

0
分享至

機器之心報道

機器之心編輯部

視頻生成領域,又出現一位重量級開源選手。

今天,馬爾獎、清華特獎得主曹越的創業公司 Sand AI 推出了自己的視頻生成大模型 ——MAGI-1。這是一個通過自回歸預測視頻塊序列來生成視頻的世界模型,生成效果自然流暢,還有多個版本可以下載。

以下是一些官方 demo:



提示詞(翻譯版):柔和的自然光:一個留著卷曲的紅棕色長發的年輕人站在盛開的白花中。花朵在主體周圍突出而豐富,創造了一個花卉背景。這個人似乎在花園或自然環境中,郁郁蔥蔥的綠葉在背景中模糊。孩子輕輕地彎下腰聞聞花香,然后慢慢睜開眼睛。她的臉上綻開了笑容,因為她很享受這一刻。相機一直聚焦在孩子身上,確保她始終站在鏡頭的中心。超高畫質,超高清,8K。



提示詞(翻譯版):特寫鏡頭:老船長目不轉睛地盯著鏡頭,嘴里叼著煙斗,縷縷青煙在他飽經風霜的臉上裊裊升起。 鏡頭開始緩慢地順時針旋轉,向后拉開,最后,鏡頭高高升起,露出整艘木帆船在海浪中穿行,船長無動于衷,凝視著遠方的地平線。

根據官方介紹,MAGI-1 生成的視頻具有以下特點:

1、流暢度高,不卡頓,可以無限續寫。它可以一鏡到底生成連續的長視頻場景,沒有尷尬的剪輯或奇怪的拼接,就像電影一樣流暢自然。



MAGI-1 生成的視頻。提示詞(翻譯版):地面鏡頭捕捉到茂密、生機勃勃的綠色草地,從上方射下的強光照亮了草地。草地搖曳著向地平線延伸,通向一個狹窄的峽谷,峽谷兩側是陡峭的暗色巖層。天空在畫面頂端清晰可見,與周圍懸崖投下的陰影形成光源對比。鏡頭緊貼地面,拍攝輕輕搖擺的草葉。突然,攝影機加速向前,在茂密的草叢中迅速飛馳,營造出一種動態的前進運動。當鏡頭保持低角度時,草叢模糊而過,突出了......

2、精準時間軸控制。MAGI-1 是唯一具有秒級時間軸控制的模型 —— 你可以按自己設想的那樣,精準地雕琢每一秒。



MAGI-1 生成的視頻。提示詞(翻譯版):畫面中央是一只巨大的眼睛,表面呈粉紅色,紋理清晰,瞳孔深黑色。眼睛似乎在眨動,周圍有皮膚褶皺。兩側是高聳、陰暗的未來派建筑,垂直延伸到背景中。環境光線昏暗,使眼睛在高樓大廈的襯托下更加突出。整體色調以灰色和黑色為主,與眼睛的粉紅色形成鮮明對比。這只巨大的眼睛緩緩眨動,眼瞼閉合,然后睜開,露出一個黑色的大瞳孔。眼睛完全睜開后,瞳孔開始左右移動,掃視四周。攝像機持續對準眼睛,確保眼睛始終保持在鏡頭中心。超高畫質,超高清,8K。



MAGI-1 生成的視頻。提示詞(翻譯版):一個黑發卷曲的年輕女孩正在拉小提琴。樂器靠近她的肩膀,她的手放在琴弓上,在琴弦上移動。背景是昏暗的燈光,強調她的身材和小提琴。她穿著一件深色毛衣。一個女孩拉著小提琴,在琴弦上前后拉著琴弓。相機緩慢而平穩地圍繞著她旋轉,將焦點集中在她使用樂器的動態動作上。超高畫質,超高清,8K。

效果究竟如何?機器之心做了一些簡單的測試。

首先,先來一張奧特曼的「OK 照」,并使用提示詞「圖中人物捶胸頓足大笑」。



可以看到,MAGI-1 首先會對用戶輸入的提示詞進行增強,得到更詳細的提示詞:



之后,MAGI-1 會使用這個新提示詞進行生成。我們等待了 4 分鐘,得到了結果,效果還算不錯。



接下來,我們又試了一下讓「走紅毯的馬斯克」與左邊的人握手,隨后跳舞,結果生成效果也不錯。



同時,Sand AI 也提供了視頻擴展功能,可以沿著之前生成視頻或用戶上傳視頻繼續生成新的視頻片段,并且無需用戶自己手動拼接 —— 會直接輸出經過擴展后的更長視頻。用戶只需設置每次擴展生成的持續時間為 1 秒,便可以實現「以一秒為單位做精細化控制」。



在測試過程中我們發現,MAGI-1 目前支持 1-10 秒長度的視頻生成,單個生成每秒耗費 10 點積分。初始注冊用戶可以免費獲得 500 積分。

當然,免費額度用完了,用戶也可以選擇繼續付費使用。Sand AI 提供了訂閱制和積分制兩種付費模式,其相應的價格如下。





此外,由于 Sand AI 開源了 MAGI-1 的幾個版本,我們也可以下載之后本地運行。



  • 技術報告:https://static.magi.world/static/files/MAGI_1.pdf
  • GitHub頁面:https://github.com/SandAI-org/Magi-1
  • HuggingFace頁面:https://huggingface.co/sand-ai/MAGI-1

MAGI-1 的發布在海外引起了一些轟動,開源大神 Simo Ryu 發帖提問,想要了解 Sand AI背后是怎樣一個團隊。OpenAI 研究員 Lucas beyer 則給出了自己收集到的資料,看來他也在關注 Sand AI。





MAGI-1 模型介紹

我們可以通過團隊披露的信息來了解這個模型的技術創新。

MAGI-1 是一種通過自回歸預測視頻塊序列生成視頻的世界模型,視頻塊被定義為連續幀的固定長度片段。MAGI-1 可對隨時間單調增加的每塊噪聲進行去噪訓練,從而實現因果時間建模,并自然支持流式生成。

它在以文本指令為條件的圖像到視頻(I2V)任務中表現出色,提供了高度的時間一致性和可擴展性,這得益于多項算法創新和專用的基礎架構棧。MAGI-1 還通過分塊提示進一步支持可控生成,實現了平滑的場景轉換、長視距合成和細粒度文本驅動控制。

Sand AI 團隊表示,MAGI-1 為統一高保真視頻生成、靈活指令控制和實時部署提供了一個很有前途的方向。

在項目主頁中,團隊提供了 MAGI-1 的預訓練權重,包括 24B 和 4.5B 模型,以及相應的 distill 和 distill+quant 模型。



模型細節如下(更多詳情可參閱技術報告):

基于 Transformer 的 VAE

  • 變分自編碼器 (VAE) + 基于 transformer 的架構,空間壓縮率為 8 倍,時間壓縮率為 4 倍。
  • 最快的平均解碼時間和極具競爭力的重建質量。

自回歸去噪算法

MAGI-1 逐塊生成視頻,而不是整體生成。每個片段(24 幀)都是整體去噪的,當前片段達到一定的去噪水平時,就開始生成下一個片段。這種流水線設計可同時處理多達四個片段,從而實現高效的視頻生成。



擴散模型架構

MAGI-1 建立在 DiT 的基礎上,融入了多項關鍵創新,以提高大規模訓練的效率和穩定性。相關技術包括因果注意力 block、并行注意力 block、QK-Norm 和 GQA、FFN 中的三明治層歸一化、SwiGLU 和 Softcap Modulation。



蒸餾算法

MAGI-1 采用了一種快捷的蒸餾方法,訓練了一個基于速度的模型,以支持不同的推理預算。通過強制執行自一致性約束,即將一個大步長等同于兩個小步長,模型學會了在多個步長范圍內逼近流匹配軌跡。

在訓練過程中,步長從 {64, 32, 16, 8} 中循環采樣,并采用無分類器引導蒸餾法來保持條件對齊。這樣就能以最小的保真度損失實現高效推理。

評估

內部人工評估。在開源模型中,MAGI-1 實現了最先進的性能(超過 Wan-2.1,明顯優于 Hailuo 和 HunyuanVideo),尤其是在指令遵循和運動質量方面表現出色,使其成為 Kling 等閉源商業模型的潛在有力競爭者。



物理評估。得益于自回歸架構的天然優勢,Magi 在通過視頻連續性預測物理行為方面實現了遠超常人的精度,明顯優于所有現有模型。



成立一年多,Sand AI拿出全球首個自回歸視頻生成大模型

Sand AI 創立于 2024 年 1 月,由曹越、張拯等人聯合創立。

創始人曹越是清華大學軟件工程博士。在讀博期間,曹越的研究方向就是機器學習和計算機視覺。2019 年獲博士學位后,他加入微軟亞洲研究院,在此期間的代表作包括 Swin Transformer(獲 ICCV 馬爾獎)、GCNet、VL-BERT 和 DAN 等。同時,曹越還是清華大學特等獎學金得主。目前,曹越的谷歌被引量已經接近 6 萬次。



聯合創始人張拯本碩均畢業于華中科技大學軟件工程專業,也是 Swin Transformer 作者之一。他也曾在微軟亞洲研究院工作,與曹越合作五年,并與曹越一起獲得 ICCV2021 最佳論文獎(馬爾獎)。根據 Google Scholar 統計數據,張拯的被引量接近 5 萬次。



截至目前,Sand AI 共融資近六千萬美金。連續三輪融資分別由源碼、今日、經緯領投,跟投方包含華業天成、創新工場、IDG、襄禾、商湯國香以及知名個人投資者。

Sand AI 這次發布的 MAGI-1 是全球首個自回歸視頻生成大模型,這是 2025 年備受關注的圖像、視頻生成技術路線。前段時間,OpenAI 在 GPT-4o 的報告中也提到,GPT-4o 圖像生成是原生嵌入在 ChatGPT 中的自回歸模型。

在公司官網上,我們看到他們的下一步計劃是實現視頻的實時、快速生成,讓他們的 AI 模型實現從「創作工具」到實時體驗的升級。

期待該公司的下一步進展。

參考鏈接:https://sand.ai/magi

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
炒股成功的人,如何一步步走出來的?我熬夜讀完了,讀完感悟頗深

炒股成功的人,如何一步步走出來的?我熬夜讀完了,讀完感悟頗深

一方聊市
2025-02-20 16:08:25
杭州首次發現!杭州男子爬山時,發現山下水桶淹死一只

杭州首次發現!杭州男子爬山時,發現山下水桶淹死一只

萬象硬核本尊
2025-04-21 23:17:42
一上去就是輸分!掘金讓他留在輪換陣容中好像并不是明智的選擇?

一上去就是輸分!掘金讓他留在輪換陣容中好像并不是明智的選擇?

稻谷與小麥
2025-04-22 23:19:49
哪吒汽車死透了,又一家新能源汽車品牌倒下了?

哪吒汽車死透了,又一家新能源汽車品牌倒下了?

二的十次方
2025-04-21 23:55:03
隨著G2快船3分險勝掘金,大比分扳為1:1,不得不提的四點感受!

隨著G2快船3分險勝掘金,大比分扳為1:1,不得不提的四點感受!

田先生籃球
2025-04-22 13:43:26
全身潰爛生不如死,喪失生育功能,武漢首批新冠患者如今結局如何

全身潰爛生不如死,喪失生育功能,武漢首批新冠患者如今結局如何

林子說事
2025-04-22 00:31:32
酒駕規定調整后,這3種行為不算酒駕?交警建議車主們必看

酒駕規定調整后,這3種行為不算酒駕?交警建議車主們必看

阿傖說事
2025-04-22 15:08:18
該發力了!系列賽G2:詹姆斯場均28.3+8+7 東契奇33.6+7.8+8.6

該發力了!系列賽G2:詹姆斯場均28.3+8+7 東契奇33.6+7.8+8.6

直播吧
2025-04-22 23:27:07
59:25,老杜女兒成功翻盤,中國送上助攻,馬科斯的時間不多了

59:25,老杜女兒成功翻盤,中國送上助攻,馬科斯的時間不多了

武事匯
2025-04-21 19:31:55
梅西:沒有里杰卡爾德,我可能被巴薩租借出去!

梅西:沒有里杰卡爾德,我可能被巴薩租借出去!

氧氣是個地鐵
2025-04-22 18:29:49
發表辱華言論、移居美國,“公知女神”柴靜,如今下場咎由自取

發表辱華言論、移居美國,“公知女神”柴靜,如今下場咎由自取

附允歷史觀
2024-08-22 11:15:44
關曉彤沉默24小時:八年卡點慶生終結,鹿晗官宣博已成愛情遺址?

關曉彤沉默24小時:八年卡點慶生終結,鹿晗官宣博已成愛情遺址?

可樂談情感
2025-04-22 08:32:41
英國戰機48小時兩次攔截俄軍飛機!歐洲改變軍援方式

英國戰機48小時兩次攔截俄軍飛機!歐洲改變軍援方式

項鵬飛
2025-04-21 21:19:00
“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

吃魚思故淵
2024-05-16 21:48:21
深夜,暴跌1000點!特朗普再施壓:降息!

深夜,暴跌1000點!特朗普再施壓:降息!

證券時報
2025-04-22 00:14:08
爆料CBA重決定,季后賽變動,遼寧漁翁得利,總冠軍又反轉

爆料CBA重決定,季后賽變動,遼寧漁翁得利,總冠軍又反轉

宗介說體育
2025-04-22 15:22:37
離岸人民幣兌美元跌逾70個基點,失守7.3關口

離岸人民幣兌美元跌逾70個基點,失守7.3關口

每日經濟新聞
2025-04-22 09:25:18
重磅:送中國266億訂單和20%海岸線,特朗普又要大發雷霆了!

重磅:送中國266億訂單和20%海岸線,特朗普又要大發雷霆了!

華山穹劍
2025-04-22 21:07:19
“在鄉鎮學校上班,就別穿這么高貴”,女老師曬穿搭被苦心勸告

“在鄉鎮學校上班,就別穿這么高貴”,女老師曬穿搭被苦心勸告

熙熙說教
2025-04-22 20:39:37
大量商場關門,為什么我們都不愿意逛商場了?真相扎心了!

大量商場關門,為什么我們都不愿意逛商場了?真相扎心了!

訪史
2025-04-20 10:01:02
2025-04-22 23:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10390文章數 142296關注度
往期回顧 全部

科技要聞

美團騎手親述:京東外賣單子傭金高卻難搶

頭條要聞

越南總理定調與美關稅談判后 越南股市一度閃崩后反轉

頭條要聞

越南總理定調與美關稅談判后 越南股市一度閃崩后反轉

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

大s兒女回京!張蘭氣場全開汪小菲談養老

財經要聞

宜賓銀行與五糧液集團頻繁關聯交易

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態度原創

數碼
教育
親子
旅游
公開課

數碼要聞

繪王推出 Kamvas Slate 11/13 平板電腦:全貼合屏,4096 級壓感

教育要聞

這一題是小學選拔尖子生的拔高題,據說某中學學生基本全軍覆沒

親子要聞

氣質這塊拿捏得死死的

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 四川省| 虞城县| 石景山区| 阳朔县| 德保县| 临潭县| 大安市| 来凤县| 荆州市| 邹平县| 砀山县| 宣城市| 昆明市| 房产| 临洮县| 牟定县| 靖西县| 瑞安市| 溧阳市| 天津市| 四会市| 淮南市| 承德县| 泾源县| 灵武市| 内黄县| 峨山| 苍溪县| 山东省| 九台市| 隆德县| 安溪县| 图木舒克市| 汶上县| 睢宁县| 万源市| 克山县| 措美县| 潜山县| 韶关市| 隆化县|