挑戰 Sora?Luojian 科技開源 Open-Sora 2.0 視訊生成模型 — 更便宜、更快、更強!

開頭 — Sora 太貴?Open-Sora 2.0 來了!

你知道嗎?OpenAI 的 Sora,一款令人驚艷的視訊生成模型,訓練成本動輒上百萬美元,被譽為視訊生成界的「勞斯萊斯」。但現在,Luojian 科技帶來了平價又強悍的挑戰者 —— Open-Sora 2.0

只花了 20 萬美元(約等同於 224 張 GPU 的計算力),就成功訓練了一個擁有 110 億參數 的商業級視訊生成模型。這不只是讓人跌破眼鏡,更像是用平價家用車的成本打造了一輛賽車!


實力派對決:與 OpenAI Sora 的差距縮到不到 1%!

別以為便宜就代表妥協。Open-Sora 2.0 的實力可不是說說而已。

在權威視訊評測指標 VBench 和使用者偏好測試中,它的表現穩穩咬住業界標竿,包括 OpenAI 的 Sora,以及騰訊的 混元視頻(HunyuanVideo)與擁有 300 億參數Step-Video

最讓人驚艷的是:

  • VBench 測試 中,Open-Sora 2.0 與 OpenAI Sora 的差距已從 4.52% 縮小到僅 0.69%!幾乎已經達到性能平價。
  • 它甚至超越了騰訊的 HunyuanVideo,在低成本下展現更高的生成品質。
  • 在使用者偏好測試裡,Open-Sora 2.0 在 視覺呈現、文本一致性動作表現 等至少兩項指標上,擊敗了開源的 HunyuanVideo 和商業模型 Runway Gen-3Alpha。

這是一場真正的平價革命 — 花更少的錢,達到接近甚至超越頂級模型的效果。


憑什麼便宜還這麼強?Open-Sora 2.0 的秘密

你可能會問:這麼便宜,效果還這麼好,怎麼做到的?

Open-Sora 2.0 的成功關鍵,來自幾個核心策略:

🎬 技術突破:優化視訊生成品質

  1. 延續 Open-Sora 1.2 架構:繼續採用 3D 自動編碼器(3D autoencoder)與 Flow Matching 訓練框架,強化視訊時序一致性與畫質細節。
  2. 3D 全注意力機制(3D full attention):提升對視訊動作與場景變化的捕捉能力,讓畫面更流暢自然。

📉 降低訓練成本:把錢花在刀口上

  1. 嚴格資料過濾:確保訓練資料的高品質,從源頭提升效率,避免無謂的計算浪費。
  2. 優先低解析度訓練:先學會影片動作細節,再逐步提升解析度,因為高解析度訓練的成本往往是低解析度的數十倍!
  3. 影像到視訊(I2V)優先訓練:加速模型收斂,同時在推理階段可透過 文本到影像到視訊(T2I2V) 微調畫面質感。
  4. 高效平行訓練方案:結合 ColossalAI 與系統層優化技術,如序列平行化、ZeroDP、梯度檢查點(Gradient Checkpointing),大幅提升計算資源利用率。

推理速度大幅提升:10 倍速影片生成!

為了解決影片生成耗時過長的痛點,Open-Sora 團隊還訓練了一個 高壓縮影片自動編碼器(4×32×32),把生成 768px、5 秒影片的推理時間,從 30 分鐘縮短到不到 3 分鐘

這表示,不用再等半個小時才能看到成果,未來我們可能在幾分鐘內,就能生成高品質影片內容!


開源精神:讓更多人參與視訊生成技術革命

真正讓人感動的是,Open-Sora 2.0 不只開源模型權重和程式碼,連完整的訓練流程都公開了

很多技術團隊選擇開源模型但保留細節,然而 Open-Sora 的透明度讓全球研究者與開發者,都有機會參與並推動視訊生成技術的發展。

事實上,根據第三方統計:

  • Open-Sora 的學術論文引用數在半年內已突破 100 次,穩坐全球開源影響力排行榜的前段班。
  • 目前已成為全球最具影響力的開源視訊生成專案之一。

這不只是技術上的突破,更是一場開源文化的勝利。


結語:Open-Sora 2.0 是視訊生成界的平價革命

Luojian 科技推出的 Open-Sora 2.0,不僅成本低、效能強,還真正秉持開源精神,讓更多人有機會參與 AI 視訊生成的前線研究。

它讓視訊生成技術,不再是巨頭獨享的高牆花園,而是一個開放共創的實驗室。

也許,有一天,你我都能用自己的電腦,創作出媲美好萊塢的 AI 動畫短片。

想親自體驗或參與這場開源革命嗎?以下是資源連結:

🔗 GitHub 開源庫Open-Sora 專案

📄 技術報告Open-Sora 2.0 技術報告

準備好了嗎?讓我們一起站在巨人的肩膀上,改變未來的視訊生成世界!

Share on:
Previous: Google Gemini 全新升級:更強的 AI 理解力、更貼心的個人化體驗
Next: Google 開源最新多模態模型 Gemma-3:效能卓越、運算成本降十倍
DMflow.chat

DMflow.chat

廣告

全能 DMflow.chat:多平台整合、持久記憶與靈活客製欄位,無需額外開發即可連接資料庫與表單。更支援真人與 AI 的無縫切換,網頁互動加 API 輸出,一步到位!

影片生成新紀元?Phantom 框架登場,角色不再「變臉」!
29 April 2025

影片生成新紀元?Phantom 框架登場,角色不再「變臉」!

影片生成新紀元?Phantom 框架登場,角色不再「變臉」! 還在煩惱 AI 影片裡人物變來變去嗎?來認識 Phantom:一個整合了文字轉影片、圖像轉影片的統一框架,特別強化了主角一致...

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單?
23 April 2025

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單?

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單? 覺得 AI 影片生成又酷又炫,但硬體門檻高、生成時間長? lllyasviel 推出的 FramePack 可能就是你的...

AI 當導演?SkyReels-V2 讓無限長度電影成真
23 April 2025

AI 當導演?SkyReels-V2 讓無限長度電影成真

AI 當導演?SkyReels-V2 讓無限長度電影成真! 厭倦了 AI 影片只有幾秒鐘?來看看 SkyworkAI 的 SkyReels-V2,這個模型能生成無限長度的電影級影片,還能...

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演?
16 April 2025

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演?

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演? Google 最新的 AI 影片生成模型 Veo 2 終於在 AI Studio 開放免費試用了...

MuseTalk 深入解析:騰訊音樂打造的即時高傳真 AI 唇形同步神器
8 April 2025

MuseTalk 深入解析:騰訊音樂打造的即時高傳真 AI 唇形同步神器

MuseTalk 深入解析:騰訊音樂打造的即時高傳真 AI 唇形同步神器 探索由騰訊音樂 Lyra Lab 開發的 MuseTalk 技術。了解這款開源 AI 模型如何實現即時、高品質的...

BEN2:精準影像前景分割的 AI 解決方案
8 February 2025

BEN2:精準影像前景分割的 AI 解決方案

BEN2:精準影像前景分割的 AI 解決方案 在影像處理領域,如何快速且準確地去除背景,一直是業界關注的重點。傳統方法依賴綠幕技術或手動摳圖,耗時且成本高昂。如今,BEN2 (Backg...

OpenAI 發布 O1-Pro 推理模型:高效能、高成本,僅限特定開發者使用
20 March 2025

OpenAI 發布 O1-Pro 推理模型:高效能、高成本,僅限特定開發者使用

OpenAI 發布 O1-Pro 推理模型:高效能、高成本,僅限特定開發者使用 O1-Pro:性能再進化,但價格也水漲船高 OpenAI 今日正式推出其最新的高效能推理模型 O1-Pro,標...

突破數位創作極限!TANGO:一鍵生成數字分身的AI神器
21 December 2024

突破數位創作極限!TANGO:一鍵生成數字分身的AI神器

突破數位創作極限!TANGO:一鍵生成數字分身的AI神器 簡介 想像一下,您只需一段影片和音頻,便能生成與之完美同步的虛擬人影像。不論是新聞播報、虛擬主播,還是教育內容,TANGO都能助您輕鬆...

不只是 ChatGPT:揭秘 OpenAI 秘密武器!手把手教你打造專屬 AI 代理人 (Agent)
23 April 2025

不只是 ChatGPT:揭秘 OpenAI 秘密武器!手把手教你打造專屬 AI 代理人 (Agent)

不只是 ChatGPT:揭秘 OpenAI 秘密武器!手把手教你打造專屬 AI 代理人 (Agent) OpenAI 悄悄釋出的「代理人實戰指南」你看懂了嗎?這不只是聊天機器人,更是能為...