影音同步新高度：LTX-2 開源模型登場，單一模型搞定畫面與聲音

探索 Lightricks 最新推出的 LTX-2 模型，這款基於 DiT 架構的開源工具不僅能生成高畫質影片，還能同步產出音效。本文深入解析其技術規格、ComfyUI 整合方式及訓練特點，讓創作者輕鬆掌握影音生成的最新利器。

影音生成的全新突破：LTX-2 來了

大家有沒有發現，最近 AI 影片生成的工具雖然多，但總覺得少了點什麼？通常我們生成的影片是「默劇」，想要聲音還得另外找工具配音，這中間的割裂感常常讓人頭痛。

Lightricks 團隊顯然聽到了這個痛點。他們最近發布了 LTX-2，這是一個令人興奮的開源模型。這東西最酷的地方在於，它是一個「基於 DiT 的音視訊聯合基礎模型」（Joint Audio-Visual Foundation Model）。簡單來說，它不需要你分別生成畫面和聲音然後再辛苦地對齊，LTX-2 能在生成影片的同時，直接產出同步的音訊。這對於想要在本機端運行高品質 AI 影片生成的創作者來說，絕對是個好消息。

這篇文章會帶大家詳細了解 LTX-2 的特點、技術規格以及如何使用它。我們會盡量避開艱澀難懂的術語，用最直白的方式告訴你為什麼這個模型值得關注。

什麼是 LTX-2？核心技術解析

LTX-2 並非只是對前代產品的簡單升級。它整合了現代影片生成的核心模組，是一個真正的多模態模型。

DiT 架構與單一模型優勢

LTX-2 採用了 DiT（Diffusion Transformer）架構。與過去那些將影片生成和音訊生成分開處理的模型不同，LTX-2 的設計理念是「同步」。這意味著模型在理解你的提示詞（Prompt）時，是同時構思畫面該長什麼樣、聲音該聽起來如何。這種聯合生成的模式，讓聲音與畫面的契合度達到了前所未有的水準。

開源與本機運行的承諾

Lightricks 這次非常大方，直接公開了模型權重（Open Weights）。這代表開發者和創作者可以下載模型，在自己的機器上運行，不用擔心資料隱私問題，也不用受制於昂貴的雲端訂閱服務。對於那些喜歡鑽研技術、想要完全掌控創作流程的人來說，這無疑是一大福音。

LTX-2 的關鍵功能與特點

既然說是新一代模型，那它到底強在哪裡？讓我們來看看它的幾個殺手級功能。

影音同步生成 (Synchronized Audio+Video)

這絕對是 LTX-2 的最大亮點。不管你是輸入文字還是圖片，模型都能在生成動態影像的同時，配上相應的音效。想像一下，生成一段海浪拍打沙灘的影片，同時就能聽到海浪的聲音，而不需要後期合成。這大大簡化了創作工作流。

多樣化的模型版本與量化選擇

為了適應不同的硬體配置，LTX-2 提供了多種版本的模型權重。

完整版 (Full Model): 提供最佳品質，適合硬體強大的用戶。
蒸餾版 (Distilled): 速度更快，只需較少的步數就能生成影片。
量化版本 (fp8, fp4): 這是為了節省顯存（VRAM）而設計的。例如 ltx-2-19b-dev-fp8 或 ltx-2-19b-dev-fp4，讓那些顯卡等級沒那麼頂規的朋友，也能跑得動這個龐然大物。

內建升頻器 (Upscalers)

生成的影片解析度不夠高？幀數不夠流暢？LTX-2 考慮到了這點。它包含了一套升頻工具：

空間升頻 (Spatial Upscaler): 用於提高解析度，讓畫面更清晰。
時間升頻 (Temporal Upscaler): 用於增加幀率（FPS），讓動作看起來更滑順。這些工具可以在多階段的工作流中串聯使用，逐步提升影片品質。

生態系整合：ComfyUI 與訓練工具

一個模型好不好用，除了看本體，還要看它的生態系支援度。

無縫整合 ComfyUI

ComfyUI 是目前 AI 繪圖和影片生成領域最受歡迎的介面之一。LTX-2 已經內建於 ComfyUI 的核心節點中，這意味著你不需要繁瑣的安裝步驟，就能在熟悉的節點介面上使用它。你可以利用 LTXVideo 節點輕鬆搭建工作流，實現從文生影、圖生影到後期放大的全套流程。

靈活的訓練能力 (LoRA & Training)

對於想要訓練特定風格或角色的創作者，LTX-2 表現得非常友善。

LoRA 支援: 你可以使用標準的 LoRA 技術來微調模型，讓它學習特定的畫風。
IC-LoRA 控制: 提供更精確的生成控制。
快速訓練: 官方宣稱，針對動作、風格或相似度（聲音+外觀）的訓練，在許多設定下甚至不用一小時就能完成。這大幅降低了訓練專屬模型的門檻。

安裝與技術需求

想要在自己的電腦上跑 LTX-2，還是需要一點技術底子的。以下是一些關鍵的環境需求。

軟硬體門檻

根據官方文件，這個程式碼庫（Codebase）是一個單體倉庫（Monorepo），包含了模型定義、流程管道和訓練功能。

Python 版本: 建議使用 Python 3.12 或更高版本。
CUDA 版本: 需要 CUDA 12.7 以上。
PyTorch: 支援 PyTorch 約 2.7 版本。

安裝步驟簡介

你可以透過 Github 複製儲存庫來安裝：

git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
# 在儲存庫根目錄執行
uv sync
source .venv/bin/activate

如果你更習慣使用現成的函式庫，LTX-2 也已經支援 Diffusers Python 庫，這對於開發者來說整合起來會更加順手。詳細的模型資訊和下載連結，都可以直接在 Hugging Face 的 LTX-2 頁面找到。

使用時的注意事項與限制

雖然 LTX-2 很強大，但我們得誠實面對它的局限性。AI 目前還不是完美的魔法師。

解析度與幀數規則

在設定生成參數時，有一個小細節要注意：

長寬設定: 必須是 32 的倍數。
幀數設定: 必須是 (8 x N) + 1。如果你的設定不符合這個規則，輸入會被自動填充並裁切，這可能會導致構圖發生意外的變化。

模型的先天限制

事實準確性: 這是一個創意工具，不是搜尋引擎。它無法提供準確的事實資訊。
社會偏見: 作為一個統計模型，它可能會反映或放大現有的社會偏見。
音訊品質: 雖然它能生成聲音，但在「非語音」的音訊生成上表現較好。如果生成的音訊不包含說話內容，品質可能會下降。
提示詞依賴: 生成結果非常依賴你的提示詞風格。如果提示詞寫得不好，影片可能就無法完美呈現你想要的效果。

常見問題 (FAQ)

以下整理了關於 LTX-2 最常見的問題，希望能解答你的疑惑。

Q1: LTX-2 可以商用嗎？

LTX-2 是基於社群授權協議發布的。一般來說，你可以使用完整版、蒸餾版、升頻器及其衍生模型進行創作。但具體的商業用途限制，建議詳細閱讀 Hugging Face 頁面上的 ltx-2-community-license-agreement 以確保合規。

Q2: 我的顯卡記憶體不夠大，還能用嗎？

可以嘗試使用量化版本。Lightricks 提供了 fp8 和 nvfp4 的量化模型，這些版本大幅降低了顯存需求。雖然精度會有些許損失，但對於消費級顯卡來說，這是運行大型模型的最佳妥協方案。

Q3: 除了生成影片，我還能用它做什麼？

除了基本的文生影（Text-to-Video）和圖生影（Image-to-Video），LTX-2 還支援影片轉影片（Video-to-Video）以及各種音訊相關的任務，如音訊轉影片或影片轉音訊。它本質上是一個多功能的影音處理平台。

Q4: 如何訓練自己的 LTX-2 LoRA？

官方提供了非常容易上手的訓練工具。你可以參考 Github 上的 LTX-2 Trainer Readme。只要準備好數據集，訓練動作或風格 LoRA 的過程非常快，甚至不需要昂貴的伺服器集群就能完成。

Q5: 為什麼生成的影片有時候聲音對不上？

雖然 LTX-2 是一個聯合模型，旨在同步生成，但 AI 仍有隨機性。如果遇到對不上的情況，嘗試調整提示詞，或者使用 IC-LoRA 等控制模型來增加生成的精確度。此外，確保你的幀率設定符合模型建議，也有助於改善同步效果。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

L …

tool

LongCat-Video 登場：美團發表統一影片生成模型，挑戰分鐘級影片極限

探索美團最新發表的AI影片生成模型 LongCat-Video。它不僅是一個統一框架，能處理文生影片、圖生影片等多種任務，更擅長生成長達數分鐘的高品質影片，向「世界模型」邁出重要一步。 AI 影片生成的賽道最近真的越來越熱鬧了。當我們還在驚嘆於 OpenAI Sora 或快手 Kling 所展示的驚人效果時，另一位重量級選手也帶著獨特的技術加入了這場競賽。那就是由美團（Meituan）團隊發表的 LongCat-Video，一個統一的基礎影片生成模型。你可能會想，又是一個 AI 影片工具？有什麼特別的嗎？老實說，它的確有幾個非常吸引人的亮點，特別是在解決目前 AI 影片生成的一些核心痛點上。不只是單一功能，這是一個「全能型」的統一模型許多 AI 模型專注於單一任務，例如「文字轉影片」或「圖片轉影片」。但 LongCat-Video 走的是一條更整合的路線。它採用了統一的架構，將多種主流的影片生成任務整合在一個模型中。這意味著，無論你是想： Text-to-Video：輸入一段文字描述，生成對應的影片。 Image-to-Video：給定一張靜態圖片，讓它動起來。 Video-Continuation：延續一段現有的影片，生成後續的內容。 LongCat-Video 都能用同一個核心模型來處理。這就像擁有一個影片創作的瑞士軍刀，而不是一堆單獨的工具，大大簡化了工作流程。真正的亮點：高效生成「分鐘級」長影片這可能是 LongCat-Video 最令人興奮的特色。如果你玩過其他的 AI 影片工具，你可能會發現，生成幾秒鐘的短片很容易，但要製作一段長達數分鐘、內容連貫且畫質穩定的影片，卻是個巨大的挑戰。很多模型在時間拉長後，會出現畫面風格丕變、顏色漂移（color drifting），或是角色前後不一的窘境，就像一個講故事講到一半忘了主角長相的說書人。 LongCat-Video 巧妙地解決了這個問題。它的秘密武器在於，模型在預訓練階段就專注於「影片續寫（Video-Continuation）」任務。換句話說，它從一開始就被訓練成一個「故事接龍」的高手。這種原生的續寫能力，讓它在生成長影片時，能更好地保持內容的連貫性和品質穩定性，避免了畫面崩壞或風格錯亂的問題。根據官方展示，它能夠產出長達數分鐘的影片而沒有明顯的品質下降。它是如何做到的？一窺背後的技術魔法聽起來很神奇，對吧？LongCat-Video 的高效與高品質，主要歸功於幾個關鍵技術的結合：由粗到精（Coarse-to-Fine）的生成方式：這個方法很直觀，就像畫家畫畫一樣，先打個草稿，再逐步完善細節。模型會先生成一個低解析度的影片雛形，然後再逐步提升解析度和細節，最終產出 720p、30fps 的高畫質影片。這不僅提升了效率，也確保了最終的品質。區塊稀疏注意力（Block Sparse Attention）：這是為了提升運算效率的聰明設計。傳統的注意力機制會讓 AI 一次處理畫面的所有資訊，非常耗費資源。而區塊稀疏注意力則讓 AI 能「專注」在畫面上最重要的部分，跳過不相關的區域，既聰明又省力，大大加快了生成速度。多獎勵強化學習（Multi-Reward RLHF）：你可能聽過 RLHF（人類回饋強化學習），也就是讓模型從人類的偏好中學習。LongCat-Video 更進一步，採用了「多獎勵」機制。這代表它不只學習「像不像」，而是從多個維度去評斷影片的好壞，例如：畫面美感、動作流暢度、故事邏輯、與文字描述的貼合度等。這讓最終產出的影片更符合人類的審美和期待。不只是生成，還能「互動」的影片創作 LongCat-Video 還展示了一項非常有趣的功能：互動式影片生成。這代表使用者可以像導演一樣，在影片生成的過程中介入並給予新的指令。例如，你可以先生成「一個女孩在廚房切麵包」的場景，接著在影片續寫時，輸入新的指令「她倒了一杯牛奶」，模型就會無縫接軌地生成下一個動作。這種能力讓創作者不再只是被動的接收者，而是可以主動引導故事走向的參與者，為影片創作帶來了前所未有的自由度和想像空間。想要親自試試或深入了解嗎？美團團隊非常大方地將 LongCat-Video 的相關資源開源，讓所有人都能接觸到這項技術。

Oct 27, 2025 Read →

字 …

tool

字節跳動：Video-As-Prompt 模型開源，影片當指令，讓靜態圖秒變動畫！

AI 影片生成領域迎來全新突破！字節跳動（ByteDance）正式開源其創新的 Video-As-Prompt (VAP) 模型。這項技術允許使用者直接用一段參考影片作為「提示」，就能讓任何靜態圖片動起來，並且完美複製參考影片的語義和動態風格。本文將深入解析 VAP 的核心理念、兩種模型的差異，以及它為何能在效能上媲美 Kling、Vidu 等頂尖商業模型。 AI 影片生成的新玩法：不再只是文字遊戲你是否曾想過，如果能讓一張靜態的照片，像某個影片裡的主角一樣跳舞、奔跑，甚至做出各種細膩的表情，那該有多酷？過去，我們習慣用文字（Text-to-Video）來指揮 AI 生成影片，但文字描述往往難以精準傳達我們腦海中複雜的動態和情感。現在，這一切都將改變。字節跳動（ByteDance）最近開源了一項名為 Video-As-Prompt (VAP) 的全新技術，徹底顛覆了傳統的影片生成模式。它的核心概念非常直觀：直接拿一段影片當作指令，去驅動一張靜態圖片。這就像你指著一段麥可·傑克森的舞蹈影片，然後對一張蒙娜麗莎的畫像說：「嘿，讓她像這樣跳舞！」VAP 就能理解舞蹈的「語義」——不僅僅是動作軌跡，還包括節奏、風格和力量感——並將其應用到蒙娜麗莎的身上。 Video-As-Prompt 的核心理念是什麼？簡單來說，VAP 的任務是：給定一段帶有特定語義的參考影片（Video Prompt），它能讓一張參考圖片（Reference Image）以和參考影片完全相同的語義動起來。這背後是一種名為「情境生成」（in-context generation）的全新範式。它不再需要複雜的文字描述或多個條件控制，而是直接從範例影片中學習，理解其中的動態精髓，然後進行模仿和遷移。這使得影片生成變得前所未有的直觀和靈活。兩種模型，兩種選擇：Wan2.1 vs. CogVideoX 為了滿足不同使用者的需求，字節跳動貼心地提供了 VAP 的兩種版本，它們在能力和穩定性之間做出了不同的取捨。

Oct 24, 2025 Read →

A …

tool

AI 影片生成迎來「即時」革命？Krea Realtime 模型登場，但通往未來的門票並非人人可得

AI 影片生成技術又有新突破！Krea AI 推出了名為 Krea Realtime 14B 的即時文字轉影片模型。它驚人的運算速度，預示著一個內容創作新時代的來臨，但其背後近乎苛刻的硬體需求，也為這項技術的普及設置了一道高牆。 AI 影片生成，真的能「即時」了嗎？想像一下，當你打下一段文字，一個生動的影片畫面就即時呈現在眼前，不再需要漫長的等待和渲染。這聽起來像是科幻電影的情節，但隨著 Krea AI 最新發布的 Krea Realtime 14B 模型，這個未來似乎離我們越來越近了。過去，從文字生成影片（Text-to-Video）雖然令人驚豔，但最大的瓶頸往往在於「時間」。一個幾秒鐘的短片，可能需要花費數分鐘甚至更久的時間來生成，這大大限制了它的應用場景。不過，Krea 這次似乎找到了突破口，直接將「即時」（Realtime）這個詞寫進了模型的名字裡。核心技術：Self-Forcing 是什麼魔法？那麼，Krea 是如何實現這種高速生成的呢？答案藏在一項名為「Self-Forcing」的技術裡。簡單來說，Krea Realtime 14B 模型是從一個更大型的影片模型 Wan 2.1 14B 中「提煉」出來的。傳統的影片擴散模型（video diffusion models）在生成影片時，需要一步一步地去雜訊、計算，過程相對繁瑣。而 Self-Forcing 技術，則巧妙地將這種模型轉化為一種「自回歸模型」（autoregressive model）。打個比方，這就像是讓模型學會了「自我接龍」。它在生成下一幀畫面時，會參考剛剛生成好的前一幀畫面，而不是每次都從頭開始思考。這種方式大幅簡化了運算流程，讓影片能夠一幀接一幀地快速生成，從而實現了近乎即時的效果。速度有多快？數字會說話根據 Krea 官方公佈的資料，Krea Realtime 14B 模型在單張 NVIDIA B200 GPU 上，僅需 4 個推論步驟（inference steps），就能達到每秒 11 幀（11fps）的驚人速度。每秒 11 幀是什麼概念？雖然還不到電影（24fps）或一般影片（30fps）的流暢度，但這個速度已經足以提供即時的視覺回饋，讓創作者可以快速預覽和調整想法。這對於互動娛樂、直播特效或是創意發想等領域來說，無疑是一次巨大的革新。通往即時的門票：一道可遇不可求的硬體高牆看到這裡，相信許多人都已經摩拳擦掌，準備親身體驗這項技術了。但先別急，要驅動這頭效能猛獸，所需的「燃料」可非同小可。實現這一切的關鍵，正是當今算力金字塔頂端的硬體——NVIDIA B200 GPU。這款晶片是專為大規模資料中心和頂級 AI 研究而設計的專業級設備，其運算能力固然令人嚮往，但也意味著它並非尋常的消費級顯卡。可以說，這驚人速度的背後，是一道普通玩家和創作者難以跨越的硬體門檻。這種尖端配置，在目前市場上確實是「可遇而不可求」的存在。這背後的現實是，儘管 AI 技術的發展日新月異，但尖端技術的普及，往往需要等待硬體生態的成熟與跟進，才能真正從實驗室走向大眾。即時影片生成的未來想像儘管硬體門檻如此之高，但 Krea Realtime 14B 的問世，依然為我們揭示了 AI 內容創作的無限可能：

Oct 21, 2025 Read →