字節跳動震撼發布 170 億參數的多模態影片生成框架 HuMo,專注於高畫質、高可控性的人物影片生成。它能協同處理文字、圖像、音訊三種輸入模式,讓你輕鬆打造 720P 高解析度、動作流暢的虛擬人物影片。目前模型與程式碼已在 Hugging Face 開源。
你有沒有想過,只要一張圖片、一段文字,甚至只是一段音樂,就能創造出一個栩栩如生、跟著節奏舞動的人物影片?過去這聽起來像是科幻電影的情節,但現在,字節跳動的研究團隊把它變成了現實。
他們隆重推出了名為 HuMo 的開源專案,這是一個擁有 170 億參數的龐大多模態影片生成框架。別被這些技術名詞嚇到,簡單來說,HuMo 的核心目標只有一個:專門生成以「人」為中心的影片。
無論是細膩的臉部表情、流暢的肢體動作,還是與背景的自然互動,HuMo 都處理得相當出色。它能夠生成高達 720P 解析度、長度近 4 秒(97 幀 @ 25FPS)的影片,讓每個人都有機會成為虛擬世界的導演。
更令人興奮的是,這個強大的工具現在已經在 Hugging Face 上完全開源,任何人都可以下載程式碼與模型權重,親手體驗創造的樂趣。
HuMo 到底是什麼?一個專為「人」設計的影片生成框架
市面上的 AI 影片生成工具不少,但大多是通用模型,生成風景、動物或抽象動畫很在行,一旦碰到人體,就常常出現肢體扭曲、動作僵硬的「恐怖谷」現象。
HuMo 的出現,就是為了解決這個痛點。它的全名是 Human-Centric Video Generation via Collaborative Multi-Modal Conditioning,直白地說,就是一個「以人為本、多種條件協同合作」的影片生成器。
這裡的「多模態」是關鍵,它意味著你可以用不只一種方式來指導 AI。HuMo 巧妙地融合了三種常見的資訊來源:
- 文字 (Text): 就像劇本,告訴 AI 角色在做什麼、場景是什麼樣子。
- 圖像 (Image): 就像選角,提供一張參考照片,讓 AI 知道角色的長相、穿著和風格。
- 音訊 (Audio): 就像配樂和台詞,讓角色的動作能與聲音同步,例如跟著音樂跳舞或配合節奏點頭。
這三種模式可以任意組合,提供前所未有的控制自由度。
三大生成模式,釋放你的無限創意
HuMo 最核心的魅力在於它靈活的輸入組合,讓創作者可以根據需求選擇最適合的方式。
模式一:文字 + 圖像 (VideoGen from Text-Image)
這是最直覺的用法。你是否曾想過讓一張靜態的照片動起來?這個模式就能實現。
你只需要提供一張人物圖片,並用文字描述你希望他/她做的動作。例如,給定一張穿著太空服的太空人照片,然後輸入文字「在月球上跳舞」,HuMo 就能生成一段該太空人真的在月球表面舞動的影片。
這種模式非常適合需要保持角色外觀一致性的場景,例如為某個特定角色製作一系列短片、將插畫人物動畫化,或是為你的虛擬化身賦予生命。
模式二:文字 + 音訊 (VideoGen from Text-Audio)
有時候,你可能沒有特定的角色形象,但希望影片的動態能與聲音完美契合。這時,文字與音訊的組合就派上用場了。
想像一下,你有一段節奏感強烈的電子音樂,你只需要輸入「一個穿著賽博龐克風格夾克的男人在霓虹燈下的街頭跳舞」,HuMo 就會創造出一個全新的角色,他的舞步會精準地卡在音樂的節拍上。
這個模式賦予了創作者極大的想像空間,因為它不需要圖像參考,讓 AI 的創意發揮到極致,非常適合音樂視覺化或舞蹈影片的創作。
模式三:文字 + 圖像 + 音訊 (VideoGen from Text-Image-Audio)
如果你是個控制狂,希望對影片的每一個細節都瞭如指掌,那這個「三合一」模式就是你的終極武器。
你可以同時指定:
- 角色是誰(透過圖像)。
- 他要做什麼(透過文字)。
- 動作的節奏如何(透過音訊)。
這就像是給一位指定的演員(圖像),一份詳細的劇本(文字),再加上精準的背景音樂(音訊),讓他演出一場完美的戲。這種模式提供了最高級別的客製化與控制力,生成的影片既有連貫的角色,又有與聲音同步的精彩動態。
開源精神與未來展望
字節跳動的團隊不僅僅是發表了一篇令人驚豔的研究論文,他們更將成果回饋給整個社群。
目前,170 億參數的 HuMo-17B 模型已經上線,開發者可以自由取用。從團隊公布的計畫來看,未來還有更多值得期待的更新,例如:
- 釋出更輕量化的
HuMo-1.7B模型,降低使用門檻。 - 提供多 GPU 推理的支援,加速影片生成過程。
- 公布官方展示影片《Faceless Thrones》的提示詞,讓大家學習如何創造出大師級的作品。
對 HuMo 的技術細節或視覺效果感興趣的朋友,可以前往他們的專案頁面查看更多精彩的生成範例。
總而言之,HuMo 的開源,不僅是 AI 影片生成技術的一次重要突破,更為全球的開發者、藝術家和內容創作者提供了一個強大且專精的工具,讓人人都能輕鬆駕馭自己的「虛擬演員」,創造出獨一無二的人物影片。
常見問題解答 (FAQ)
Q1: HuMo 生成的影片品質如何?
HuMo 目前支援 480P 與 720P 兩種解析度,在 25FPS 的影格率下最長可生成 97 幀(約 3.88 秒)的影片。對於當前的 AI 影片生成技術而言,這個品質在清晰度和流暢度方面都相當不錯,特別是在人體動作的連貫性上。
Q2: 我需要什麼樣的硬體才能運行 HuMo 模型?
作為一個 170 億參數的大型模型,運行 HuMo-17B 需要相當強大的硬體支援,特別是高記憶體容量的專業級 GPU。具體的硬體需求和環境配置,建議參考其 Hugging Face 頁面上的官方文件,以確保順利運行。
Q3: HuMo 可以生成人物以外的影片嗎?
HuMo 的名稱(Human-Centric)已經表明,它的設計和訓練數據都高度專注於人體。雖然理論上或許可以生成其他主體,但其最強大的能力和最佳效果體現在生成人類角色的動作和場景上。如果你想生成風景或動物,使用其他通用影片模型可能會是更好的選擇。


