AI影片新革命！騰訊混元HunyuanCustom：一鍵生成、口型同步，影片創作從此大不同！

騰訊混元推出開源AI影片工具HunyuanCustom，只需一張圖就能生成生動影片，更能實現完美音訊口型同步！探索虛擬試穿、智慧影片編輯等強大功能，徹底改變你的創作流程。

你還在為影片製作的繁瑣流程煩惱嗎？或者覺得要讓影片中的人物講話自然、口型同步簡直是天方夜譚？先別急著搖頭，因為科技的進步總是超乎我們的想像！最近，科技巨頭騰訊旗下的混元團隊就扔出了一枚震撼彈——他們開源了一款名為「HunyuanCustom」的一致性影片產生工具。這可不是什麼小打小小鬧的玩意兒，它不僅能咻咻咻地幫你生成生動有趣的影片內容，最厲害的是，還能做到音訊和口型的完美同步！這項創新技術的發布，老實說，簡直就是為影片創作，尤其是那些需要逼真角色表現的領域，開啟了一扇新的大門。

一張圖就能變魔術？HunyuanCustom 的「一圖生片」超能力

好啦，我知道你可能心想：「說得這麼神奇，到底有多厲害？」HunyuanCustom 最令人驚艷的亮點，莫過於用戶只需要提供一張圖像，就能創造出風格獨特的影片。你沒聽錯，就是「一張圖」！

想像一下，以往可能需要蒐集多張參考圖片、甚至進行複雜3D建模的場景，現在一張圖就能搞定，大大降低了影片內容生成的門檻，是不是超方便？這對於我們這些常常需要快速產出視覺內容，但又不見得各個都是3D建模大師的人來說，簡直是一大福音。這項功能不僅簡化了影片製作流程，更讓「深度偽造」風格的影片創作變得不再遙不可及。當然，這裡的「深度偽造」並不是指那些負面的應用，而是指那種能創造出極度逼真、彷彿真人演繹的影片效果。

不僅如此，HunyuanCustom 的能耐可不止於簡單的影片生成。它還能處理更複雜的場景，例如模擬單一角色在不同情境下的活動，或是進行虛擬試穿。想想看，你可以把一個角色圖像，跟各種不同的物件或背景結合，創造出千變萬化的場景。這對於遊戲開發者來說，簡直是福音吧？或者，對於電商平台想展示服飾穿搭效果，是不是也提供了一個全新的解決方案？這些功能的實現，將為遊戲開發、虛擬時尚、廣告創意等領域帶來無限的想像空間。

嘴型跟聲音終於對上了！LatentSync 讓角色活靈活現

再來聊聊另一個讓人拍案叫絕的功能——音訊同步。你有沒有看過那種嘴巴動得跟聲音完全對不上的影片？超齣戲的對吧！HunyuanCustom 就是要解決這個問題。

在聲音處理方面，HunyuanCustom 更是下足了功夫。它採用了一套名為 LatentSync 的複雜系統，來確保影片中人物的口型與發出的聲音能夠精準同步。這項技術的實現，使得影片中的角色在說話時，其嘴部動作與聲音完美匹配，大幅提升觀眾的沉浸感和真實度。畢竟，如果一個角色說話時嘴型亂飄，那不管畫面再怎麼精美，都很難讓人真正投入。

雖然目前官方展示中，英文的範例還比較少，但從現有的效果來看，這項技術的表現已經相當亮眼，讓人非常期待它未來在更多語言上的應用。想像一下，未來不論是哪國語言的配音，都能完美對應角色的口型，那觀影體驗該有多棒！

不只會做新影片，舊影片也能智慧改造！

你以為這樣就結束了嗎？還沒呢！HunyuanCustom 的能耐還不止於此，它還擁有強大的影片編輯功能。透過所謂的影片到影片（V2V）編輯技術，使用者可以很聰明地替換現有影片中的部分內容，而且，你猜怎麼著？通常只需要一張參考圖片就能完成！

這無疑為創作者打開了更廣闊的創意空間，讓影片編輯過程變得更加簡單高效。想像一下，想要替換影片中某個物件，或是改變角色的服裝，不再需要逐幀修改，是不是省時省力多了？在官方的演示中，我們可以看到系統如何利用遮罩技術，精準地只替換目標物件，而不會影響到周圍的環境，達到了相當自然的整合效果。這項特性對於那些需要快速迭代、嘗試不同視覺風格的創作者來說，絕對是一大利器，肯定會吸引大量內容創作者來探索它在各種內容製作中的應用潛力。

開源共享，社群動起來！HunyuanCustom 的生態圈

更令人興奮的是，騰訊選擇將 HunyuanCustom 開源，這意味著全球的開發者和創作者都能夠接觸、使用甚至改進這項技術。這真的是一件很酷的事情，因為開源往往能激發更多意想不到的火花。

最近的消息也顯示，HunyuanCustom 的生態正在快速發展：

它已經被整合到像是 ComfyUI-HunyuanVideoWrapper 這樣的熱門社群工具中，讓更多習慣使用 ComfyUI 的朋友可以無縫接軌。
同時，在雲端原生建構 (Cloud-Native-Build) 平台 HunyuanCustom 上也能使用了，這對於需要規模化部署的開發者來說非常方便。
當然，最重要的，模型的程式碼和權重也已經在 GitHub 和 HuggingFace 上釋出。有興趣鑽研技術細節，或是想自己動手玩玩看的朋友，千萬不要錯過！

這些進展都表明，HunyuanCustom 不僅僅是一個單純的技術發布，更是一個充滿活力的開源專案，未來可期。

影片創作的未來，已經在你我手中？

總結來說，HunyuanCustom 的推出，無疑為 AI 輔助影片製作開啟了全新的可能性。從「一圖生片」的便捷，到 LatentSync 帶來的逼真口型同步，再到 V2V 的智慧編輯，每一項功能都直擊內容創作者的痛點。

雖然任何新技術都還有進步的空間——例如，我們期待未來能有更多語言的完美支援，或是更細緻的客製化選項——但它所展現的獨特功能和廣闊的應用潛力，勢必會推動整個創意產業的革新。這就像是給了創作者一把更強大的畫筆，能描繪出以往難以想像的畫面。

有興趣深入了解或親自體驗的朋友，不妨造訪他們的官方網站、專案頁面，或是在他們的 Playground 上實際操作看看。或許，下一部爆紅的創意影片，就出自你手，而 HunyuanCustom 正是你實現奇思妙想的得力助手！

此為非官方的測試頁面https://huggingface.co/spaces/wavespeed/Hunyuan-Custom-Ref2v-480p

常見問題解答 (FAQ)

Q1：HunyuanCustom 是什麼？我需要付費嗎？ A：HunyuanCustom 是騰訊混元推出的一款開源 AI 影片生成工具，主打圖像生成影片、音訊口型同步和影片編輯功能。因為是開源專案，所以你可以免費使用它的程式碼和模型喔！這對於預算有限的獨立創作者或小型團隊來說，真的是一大福音。

Q2：我不是技術專家，HunyuanCustom 對我來說會不會很難上手？ A：HunyuanCustom 的目標之一就是簡化影片製作流程。例如「一圖生片」功能，就大大降低了素材準備的複雜度。你不需要成為程式設計大師也能開始創作。當然，進階使用或客製化調整可能需要一些技術背景，但隨著社群工具的整合（例如前面提到的 ComfyUI），相信會有越來越多方便一般使用者操作的介面和教學出現。

Q3：HunyuanCustom 生成的影片品質如何？可以用在專業用途嗎？ A：從目前的展示來看，HunyuanCustom 在特定場景下能生成頗具水準的影片，尤其在口型同步方面表現出色，這對於需要角色對話的影片來說非常重要。是否適用於最終的專業級商業用途，可能還需要根據具體的專案需求、影片的複雜度和最終效果來評估。但它無疑為快速原型製作、創意概念展示、社群媒體短片等提供了非常有力的工具。

Q4：在哪裡可以找到 HunyuanCustom 的資源或和其他使用者交流？ A：你可以關注 HunyuanCustom 的官方 GitHub 頁面，那裡有最新的程式碼、模型和相關說明文件。此外，也可以在 HuggingFace 上找到模型資源。隨著越來越多人使用，相關的社群論壇、技術部落格或 YouTube 教學影片應該也會陸續出現，多加搜尋和關注，就能找到同好一起交流學習了！

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

影 …

tool

影音同步新高度：LTX-2 開源模型登場，單一模型搞定畫面與聲音

探索 Lightricks 最新推出的 LTX-2 模型，這款基於 DiT 架構的開源工具不僅能生成高畫質影片，還能同步產出音效。本文深入解析其技術規格、ComfyUI 整合方式及訓練特點，讓創作者輕鬆掌握影音生成的最新利器。影音生成的全新突破：LTX-2 來了大家有沒有發現，最近 AI 影片生成的工具雖然多，但總覺得少了點什麼？通常我們生成的影片是「默劇」，想要聲音還得另外找工具配音，這中間的割裂感常常讓人頭痛。 Lightricks 團隊顯然聽到了這個痛點。他們最近發布了 LTX-2，這是一個令人興奮的開源模型。這東西最酷的地方在於，它是一個「基於 DiT 的音視訊聯合基礎模型」（Joint Audio-Visual Foundation Model）。簡單來說，它不需要你分別生成畫面和聲音然後再辛苦地對齊，LTX-2 能在生成影片的同時，直接產出同步的音訊。這對於想要在本機端運行高品質 AI 影片生成的創作者來說，絕對是個好消息。這篇文章會帶大家詳細了解 LTX-2 的特點、技術規格以及如何使用它。我們會盡量避開艱澀難懂的術語，用最直白的方式告訴你為什麼這個模型值得關注。什麼是 LTX-2？核心技術解析 LTX-2 並非只是對前代產品的簡單升級。它整合了現代影片生成的核心模組，是一個真正的多模態模型。 DiT 架構與單一模型優勢 LTX-2 採用了 DiT（Diffusion Transformer）架構。與過去那些將影片生成和音訊生成分開處理的模型不同，LTX-2 的設計理念是「同步」。這意味著模型在理解你的提示詞（Prompt）時，是同時構思畫面該長什麼樣、聲音該聽起來如何。這種聯合生成的模式，讓聲音與畫面的契合度達到了前所未有的水準。開源與本機運行的承諾 Lightricks 這次非常大方，直接公開了模型權重（Open Weights）。這代表開發者和創作者可以下載模型，在自己的機器上運行，不用擔心資料隱私問題，也不用受制於昂貴的雲端訂閱服務。對於那些喜歡鑽研技術、想要完全掌控創作流程的人來說，這無疑是一大福音。 LTX-2 的關鍵功能與特點既然說是新一代模型，那它到底強在哪裡？讓我們來看看它的幾個殺手級功能。影音同步生成 (Synchronized Audio+Video) 這絕對是 LTX-2 的最大亮點。不管你是輸入文字還是圖片，模型都能在生成動態影像的同時，配上相應的音效。想像一下，生成一段海浪拍打沙灘的影片，同時就能聽到海浪的聲音，而不需要後期合成。這大大簡化了創作工作流。多樣化的模型版本與量化選擇為了適應不同的硬體配置，LTX-2 提供了多種版本的模型權重。完整版 (Full Model): 提供最佳品質，適合硬體強大的用戶。蒸餾版 (Distilled): 速度更快，只需較少的步數就能生成影片。量化版本 (fp8, fp4): 這是為了節省顯存（VRAM）而設計的。例如 ltx-2-19b-dev-fp8 或 ltx-2-19b-dev-fp4，讓那些顯卡等級沒那麼頂規的朋友，也能跑得動這個龐然大物。內建升頻器 (Upscalers) 生成的影片解析度不夠高？幀數不夠流暢？LTX-2 考慮到了這點。它包含了一套升頻工具：

Jan 12, 2026 Read →

L …

tool

LongCat-Video 登場：美團發表統一影片生成模型，挑戰分鐘級影片極限

探索美團最新發表的AI影片生成模型 LongCat-Video。它不僅是一個統一框架，能處理文生影片、圖生影片等多種任務，更擅長生成長達數分鐘的高品質影片，向「世界模型」邁出重要一步。 AI 影片生成的賽道最近真的越來越熱鬧了。當我們還在驚嘆於 OpenAI Sora 或快手 Kling 所展示的驚人效果時，另一位重量級選手也帶著獨特的技術加入了這場競賽。那就是由美團（Meituan）團隊發表的 LongCat-Video，一個統一的基礎影片生成模型。你可能會想，又是一個 AI 影片工具？有什麼特別的嗎？老實說，它的確有幾個非常吸引人的亮點，特別是在解決目前 AI 影片生成的一些核心痛點上。不只是單一功能，這是一個「全能型」的統一模型許多 AI 模型專注於單一任務，例如「文字轉影片」或「圖片轉影片」。但 LongCat-Video 走的是一條更整合的路線。它採用了統一的架構，將多種主流的影片生成任務整合在一個模型中。這意味著，無論你是想： Text-to-Video：輸入一段文字描述，生成對應的影片。 Image-to-Video：給定一張靜態圖片，讓它動起來。 Video-Continuation：延續一段現有的影片，生成後續的內容。 LongCat-Video 都能用同一個核心模型來處理。這就像擁有一個影片創作的瑞士軍刀，而不是一堆單獨的工具，大大簡化了工作流程。真正的亮點：高效生成「分鐘級」長影片這可能是 LongCat-Video 最令人興奮的特色。如果你玩過其他的 AI 影片工具，你可能會發現，生成幾秒鐘的短片很容易，但要製作一段長達數分鐘、內容連貫且畫質穩定的影片，卻是個巨大的挑戰。很多模型在時間拉長後，會出現畫面風格丕變、顏色漂移（color drifting），或是角色前後不一的窘境，就像一個講故事講到一半忘了主角長相的說書人。 LongCat-Video 巧妙地解決了這個問題。它的秘密武器在於，模型在預訓練階段就專注於「影片續寫（Video-Continuation）」任務。換句話說，它從一開始就被訓練成一個「故事接龍」的高手。這種原生的續寫能力，讓它在生成長影片時，能更好地保持內容的連貫性和品質穩定性，避免了畫面崩壞或風格錯亂的問題。根據官方展示，它能夠產出長達數分鐘的影片而沒有明顯的品質下降。它是如何做到的？一窺背後的技術魔法聽起來很神奇，對吧？LongCat-Video 的高效與高品質，主要歸功於幾個關鍵技術的結合：由粗到精（Coarse-to-Fine）的生成方式：這個方法很直觀，就像畫家畫畫一樣，先打個草稿，再逐步完善細節。模型會先生成一個低解析度的影片雛形，然後再逐步提升解析度和細節，最終產出 720p、30fps 的高畫質影片。這不僅提升了效率，也確保了最終的品質。區塊稀疏注意力（Block Sparse Attention）：這是為了提升運算效率的聰明設計。傳統的注意力機制會讓 AI 一次處理畫面的所有資訊，非常耗費資源。而區塊稀疏注意力則讓 AI 能「專注」在畫面上最重要的部分，跳過不相關的區域，既聰明又省力，大大加快了生成速度。多獎勵強化學習（Multi-Reward RLHF）：你可能聽過 RLHF（人類回饋強化學習），也就是讓模型從人類的偏好中學習。LongCat-Video 更進一步，採用了「多獎勵」機制。這代表它不只學習「像不像」，而是從多個維度去評斷影片的好壞，例如：畫面美感、動作流暢度、故事邏輯、與文字描述的貼合度等。這讓最終產出的影片更符合人類的審美和期待。不只是生成，還能「互動」的影片創作 LongCat-Video 還展示了一項非常有趣的功能：互動式影片生成。這代表使用者可以像導演一樣，在影片生成的過程中介入並給予新的指令。例如，你可以先生成「一個女孩在廚房切麵包」的場景，接著在影片續寫時，輸入新的指令「她倒了一杯牛奶」，模型就會無縫接軌地生成下一個動作。這種能力讓創作者不再只是被動的接收者，而是可以主動引導故事走向的參與者，為影片創作帶來了前所未有的自由度和想像空間。想要親自試試或深入了解嗎？美團團隊非常大方地將 LongCat-Video 的相關資源開源，讓所有人都能接觸到這項技術。

Oct 27, 2025 Read →

字 …

tool

字節跳動：Video-As-Prompt 模型開源，影片當指令，讓靜態圖秒變動畫！

AI 影片生成領域迎來全新突破！字節跳動（ByteDance）正式開源其創新的 Video-As-Prompt (VAP) 模型。這項技術允許使用者直接用一段參考影片作為「提示」，就能讓任何靜態圖片動起來，並且完美複製參考影片的語義和動態風格。本文將深入解析 VAP 的核心理念、兩種模型的差異，以及它為何能在效能上媲美 Kling、Vidu 等頂尖商業模型。 AI 影片生成的新玩法：不再只是文字遊戲你是否曾想過，如果能讓一張靜態的照片，像某個影片裡的主角一樣跳舞、奔跑，甚至做出各種細膩的表情，那該有多酷？過去，我們習慣用文字（Text-to-Video）來指揮 AI 生成影片，但文字描述往往難以精準傳達我們腦海中複雜的動態和情感。現在，這一切都將改變。字節跳動（ByteDance）最近開源了一項名為 Video-As-Prompt (VAP) 的全新技術，徹底顛覆了傳統的影片生成模式。它的核心概念非常直觀：直接拿一段影片當作指令，去驅動一張靜態圖片。這就像你指著一段麥可·傑克森的舞蹈影片，然後對一張蒙娜麗莎的畫像說：「嘿，讓她像這樣跳舞！」VAP 就能理解舞蹈的「語義」——不僅僅是動作軌跡，還包括節奏、風格和力量感——並將其應用到蒙娜麗莎的身上。 Video-As-Prompt 的核心理念是什麼？簡單來說，VAP 的任務是：給定一段帶有特定語義的參考影片（Video Prompt），它能讓一張參考圖片（Reference Image）以和參考影片完全相同的語義動起來。這背後是一種名為「情境生成」（in-context generation）的全新範式。它不再需要複雜的文字描述或多個條件控制，而是直接從範例影片中學習，理解其中的動態精髓，然後進行模仿和遷移。這使得影片生成變得前所未有的直觀和靈活。兩種模型，兩種選擇：Wan2.1 vs. CogVideoX 為了滿足不同使用者的需求，字節跳動貼心地提供了 VAP 的兩種版本，它們在能力和穩定性之間做出了不同的取捨。

Oct 24, 2025 Read →