字节跳动开源 HuMo：你的专属虚拟演员，文本、图像、声音三合一生成超逼真人物影片

字节跳动震撼发布 170 亿参数的多模态影片生成框架 HuMo，专注于高画质、高可控性的人物影片生成。它能协同处理文字、图像、音频三种输入模式，让你轻松打造 720P 高分辨率、动作流畅的虚拟人物影片。目前模型与代码已在 Hugging Face 开源。

你有没有想过，只要一张图片、一段文字，甚至只是一段音乐，就能创造出一个栩栩如生、跟着节奏舞动的人物影片？过去这听起来像是科幻电影的情节，但现在，字节跳动的研究团队把它变成了现实。

他们隆重推出了名为 HuMo 的开源项目，这是一个拥有 170 亿参数的庞大多模态影片生成框架。别被这些技术名词吓到，简单来说，HuMo 的核心目标只有一个：专门生成以「人」为中心的影片。

无论是细腻的脸部表情、流畅的肢体动作，还是与背景的自然互动，HuMo 都处理得相当出色。它能够生成高达 720P 分辨率、长度近 4 秒（97 帧 @ 25FPS）的影片，让每个人都有机会成为虚拟世界的导演。

更令人兴奋的是，这个强大的工具现在已经在 Hugging Face 上完全开源，任何人都可以下载代码与模型权重，亲手体验创造的乐趣。

HuMo 到底是什么？一个专为「人」设计的影片生成框架

市面上的 AI 影片生成工具不少，但大多是通用模型，生成风景、动物或抽象动画很在行，一旦碰到人体，就常常出现肢体扭曲、动作僵硬的「恐怖谷」现象。

HuMo 的出现，就是为了解决这个痛点。它的全名是 Human-Centric Video Generation via Collaborative Multi-Modal Conditioning，直白地说，就是一个「以人为本、多种条件协同合作」的影片生成器。

这里的「多模态」是关键，它意味着你可以用不止一种方式来指导 AI。HuMo 巧妙地融合了三种常见的信息来源：

文字 (Text)： 就像剧本，告诉 AI 角色在做什么、场景是什么样子。
图像 (Image)： 就像选角，提供一张参考照片，让 AI 知道角色的长相、穿着和风格。
音频 (Audio)： 就像配乐和台词，让角色的动作能与声音同步，例如跟着音乐跳舞或配合节奏点头。

这三种模式可以任意组合，提供前所未有的控制自由度。

三大生成模式，释放你的无限创意

HuMo 最核心的魅力在于它灵活的输入组合，让创作者可以根据需求选择最适合的方式。

模式一：文字 + 图像 (VideoGen from Text-Image)

这是最直觉的用法。你是否曾想过让一张静态的照片动起来？这个模式就能实现。

你只需要提供一张人物图片，并用文字描述你希望他/她做的动作。例如，给定一张穿着太空服的宇航员照片，然后输入文字「在月球上跳舞」，HuMo 就能生成一段该宇航员真的在月球表面舞动的影片。

这种模式非常适合需要保持角色外观一致性的场景，例如为某个特定角色制作一系列短片、将插画人物动画化，或是为你的虚拟化身赋予生命。

模式二：文字 + 音频 (VideoGen from Text-Audio)

有时候，你可能没有特定的角色形象，但希望影片的动态能与声音完美契合。这时，文字与音频的组合就派上用场了。

想象一下，你有一段节奏感强烈的电子音乐，你只需要输入「一个穿着赛博朋克风格夹克的男人在霓虹灯下的街头跳舞」，HuMo 就会创造出一个全新的角色，他的舞步会精准地卡在音乐的节拍上。

这个模式赋予了创作者极大的想象空间，因为它不需要图像参考，让 AI 的创意发挥到极致，非常适合音乐视觉化或舞蹈影片的创作。

模式三：文字 + 图像 + 音频 (VideoGen from Text-Image-Audio)

如果你是个控制狂，希望对影片的每一个细节都了如指掌，那这个「三合一」模式就是你的终极武器。

你可以同时指定：

角色是谁（透过图像）。
他要做什么（透过文字）。
动作的节奏如何（透过音频）。

这就像是给一位指定的演员（图像），一份详细的剧本（文字），再加上精准的背景音乐（音频），让他演出一场完美的戏。这种模式提供了最高级别的客制化与控制力，生成的影片既有连贯的角色，又有与声音同步的精彩动态。

开源精神与未来展望

字节跳动的团队不仅仅是发表了一篇令人惊艳的研究论文，他们更将成果回馈给整个社群。

目前，170 亿参数的 HuMo-17B 模型已经上线，开发者可以自由取用。从团队公布的计划来看，未来还有更多值得期待的更新，例如：

释出更轻量化的 HuMo-1.7B 模型，降低使用门槛。
提供多 GPU 推理的支持，加速影片生成过程。
公布官方展示影片《Faceless Thrones》的提示词，让大家学习如何创造出大师级的作品。

对 HuMo 的技术细节或视觉效果感兴趣的朋友，可以前往他们的项目页面查看更多精彩的生成范例。

总而言之，HuMo 的开源，不仅是 AI 影片生成技术的一次重要突破，更为全球的开发者、艺术家和内容创作者提供了一个强大且专精的工具，让人人都能轻松驾驭自己的「虚拟演员」，创造出独一无二的人物影片。

常见问题解答 (FAQ)

Q1: HuMo 生成的影片品质如何？

HuMo 目前支持 480P 与 720P 两种分辨率，在 25FPS 的帧率下最长可生成 97 帧（约 3.88 秒）的影片。对于当前的 AI 影片生成技术而言，这个品质在清晰度和流畅度方面都相当不错，特别是在人体动作的连贯性上。

Q2: 我需要什么样的硬件才能运行 HuMo 模型？

作为一个 170 亿参数的大型模型，运行 HuMo-17B 需要相当强大的硬件支持，特别是高内存容量的专业级 GPU。具体的硬件需求和环境配置，建议参考其 Hugging Face 页面上的官方文件，以确保顺利运行。

Q3: HuMo 可以生成人物以外的影片吗？

HuMo 的名称（Human-Centric）已经表明，它的设计和训练数据都高度专注于人体。虽然理论上或许可以生成其他主体，但其最强大的能力和最佳效果体现在生成人类角色的动作和场景上。如果你想生成风景或动物，使用其他通用影片模型可能会是更好的选择。

分享到:

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

L …

tool

LongCat-Video 登场：美团发表统一视频生成模型，挑战分钟级视频极限

探索美团最新发表的AI视频生成模型 LongCat-Video。它不仅是一个统一框架，能处理文生视频、图生视频等多种任务，更擅长生成长达数分钟的高品质视频，向“世界模型”迈出重要一步。 AI 视频生成的赛道最近真的越来越热闹了。当我们还在惊叹于 OpenAI Sora 或快手 Kling 所展示的惊人效果时，另一位重量级选手也带着独特的技术加入了这场竞赛。那就是由美团（Meituan）团队发表的 LongCat-Video，一个统一的基础视频生成模型。你可能会想，又是一个 AI 视频工具？有什么特别的吗？老实说，它的确有几个非常吸引人的亮点，特别是在解决目前 AI 视频生成的一些核心痛点上。不只是单一功能，这是一个“全能型”的统一模型许多 AI 模型专注于单一任务，例如“文字转视频”或“图片转视频”。但 LongCat-Video 走的是一条更整合的路线。它采用了统一的架构，将多种主流的视频生成任务整合在一个模型中。这意味着，无论你是想： Text-to-Video：输入一段文字描述，生成对应的视频。 Image-to-Video：给定一张静态图片，让它动起来。 Video-Continuation：延续一段现有的视频，生成后续的内容。 LongCat-Video 都能用同一个核心模型来处理。这就像拥有一个视频创作的瑞士军刀，而不是一堆单独的工具，大大简化了工作流程。真正的亮点：高效生成“分钟级”长视频这可能是 LongCat-Video 最令人兴奋的特色。如果你玩过其他的 AI 视频工具，你可能会发现，生成几秒钟的短片很容易，但要制作一段长达数分钟、内容连贯且画质稳定的视频，却是个巨大的挑战。很多模型在时间拉长后，会出现画面风格丕变、颜色漂移（color drifting），或是角色前后不一的窘境，就像一个讲故事讲到一半忘了主角长相的说书人。 LongCat-Video 巧妙地解决了这个问题。它的秘密武器在于，模型在预训练阶段就专注于“视频续写（Video-Continuation）”任务。换句话说，它从一开始就被训练成一个“故事接龙”的高手。这种原生的续写能力，让它在生成长视频时，能更好地保持内容的连贯性和品质稳定性，避免了画面崩坏或风格错乱的问题。根据官方展示，它能够产出长达数分钟的视频而没有明显的品质下降。它是如何做到的？一窥背后的技术魔法听起来很神奇，对吧？LongCat-Video 的高效与高品质，主要归功于几个关键技术的结合：由粗到精（Coarse-to-Fine）的生成方式：这个方法很直观，就像画家画画一样，先打个草稿，再逐步完善细节。模型会先生成一个低分辨率的视频雏形，然后再逐步提升分辨率和细节，最终产出 720p、30fps 的高画质视频。这不仅提升了效率，也确保了最终的品质。区块稀疏注意力（Block Sparse Attention）：这是为了提升运算效率的聪明设计。传统的注意力机制会让 AI 一次处理画面的所有信息，非常耗费资源。而区块稀疏注意力则让 AI 能“专注”在画面上最重要的部分，跳过不相关的区域，既聪明又省力，大大加快了生成速度。多奖励强化学习（Multi-Reward RLHF）：你可能听过 RLHF（人类回馈强化学习），也就是让模型从人类的偏好中学习。LongCat-Video 更进一步，采用了“多奖励”机制。这代表它不只学习“像不像”，而是从多个维度去评断视频的好坏，例如：画面美感、动作流畅度、故事逻辑、与文字描述的贴合度等。这让最终产出的视频更符合人类的审美和期待。不只是生成，还能“互动”的视频创作 LongCat-Video 还展示了一项非常有趣的功能：互动式视频生成。这代表用户可以像导演一样，在视频生成的过程中介入并给予新的指令。例如，你可以先生成“一个女孩在厨房切面包”的场景，接着在视频续写时，输入新的指令“她倒了一杯牛奶”，模型就会无缝接轨地生成下一个动作。这种能力让创作者不再只是被动的接收者，而是可以主动引导故事走向的参与者，为视频创作带来了前所未有的自由度和想象空间。想要亲自试试或深入了解吗？美团团队非常大方地将 LongCat-Video 的相关资源开源，让所有人都能接触到这项技术。

Oct 27, 2025 Read →

字 …

tool

字节跳动：Video-As-Prompt 模型开源，视频当指令，让静态图秒变动画！

AI 视频生成领域迎来全新突破！字节跳动（ByteDance）正式开源其创新的 Video-As-Prompt (VAP) 模型。这项技术允许用户直接用一段参考视频作为“提示”，就能让任何静态图片动起来，并且完美复制参考视频的语义和动态风格。本文将深入解析 VAP 的核心理念、两种模型的差异，以及它为何能在效能上媲美 Kling、Vidu 等顶尖商业模型。 AI 视频生成的新玩法：不再只是文字游戏你是否曾想过，如果能让一张静态的照片，像某个视频里的主角一样跳舞、奔跑，甚至做出各种细腻的表情，那该有多酷？过去，我们习惯用文字（Text-to-Video）来指挥 AI 生成视频，但文字描述往往难以精准传达我们脑海中复杂的动态和情感。现在，这一切都将改变。字节跳动（ByteDance）最近开源了一项名为 Video-As-Prompt (VAP) 的全新技术，彻底颠覆了传统的视频生成模式。它的核心概念非常直观：直接拿一段视频当作指令，去驱动一张静态图片。这就像你指着一段迈克尔·杰克逊的舞蹈视频，然后对一张蒙娜丽莎的画像说：“嘿，让她像这样跳舞！”VAP 就能理解舞蹈的“语义”——不仅仅是动作轨迹，还包括节奏、风格和力量感——并将其应用到蒙娜丽莎的身上。 Video-As-Prompt 的核心理念是什么？简单来说，VAP 的任务是：给定一段带有特定语义的参考视频（Video Prompt），它能让一张参考图片（Reference Image）以和参考视频完全相同的语义动起来。这背后是一种名为“情境生成”（in-context generation）的全新范式。它不再需要复杂的文字描述或多个条件控制，而是直接从范例视频中学习，理解其中的动态精髓，然后进行模仿和迁移。这使得视频生成变得前所未有的直观和灵活。两种模型，两种选择：Wan2.1 vs. CogVideoX 为了满足不同用户的需求，字节跳动贴心地提供了 VAP 的两种版本，它们在能力和稳定性之间做出了不同的取舍。

Oct 24, 2025 Read →

A …

tool

AI 影片生成迎来「即时」革命？Krea Realtime 模型登场，但通往未来的门票并非人人可得

AI 影片生成技术又有新突破！Krea AI 推出了名为 Krea Realtime 14B 的即时文字转影片模型。它惊人的运算速度，预示着一个内容创作新时代的来临，但其背后近乎苛刻的硬体需求，也为这项技术的普及设置了一道高墙。 AI 影片生成，真的能「即时」了吗？想像一下，当你打下一段文字，一个生动的影片画面就即时呈现在眼前，不再需要漫长的等待和渲染。这听起来像是科幻电影的情节，但随着 Krea AI 最新发布的 Krea Realtime 14B 模型，这个未来似乎离我们越来越近了。过去，从文字生成影片（Text-to-Video）虽然令人惊艳，但最大的瓶颈往往在于「时间」。一个几秒钟的短片，可能需要花费数分钟甚至更久的时间来生成，这大大限制了它的应用场景。不过，Krea 这次似乎找到了突破口，直接将「即时」（Realtime）这个词写进了模型的名字里。核心技术：Self-Forcing 是什么魔法？那么，Krea 是如何实现这种高速生成的呢？答案藏在一项名为「Self-Forcing」的技术里。简单来说，Krea Realtime 14B 模型是从一个更大型的影片模型 Wan 2.1 14B 中「提炼」出来的。传统的影片扩散模型（video diffusion models）在生成影片时，需要一步一步地去杂讯、计算，过程相对繁琐。而 Self-Forcing 技术，则巧妙地将这种模型转化为一种「自回归模型」（autoregressive model）。打个比方，这就像是让模型学会了「自我接龙」。它在生成下一帧画面时，会参考刚刚生成好的前一帧画面，而不是每次都从头开始思考。这种方式大幅简化了运算流程，让影片能够一帧接一帧地快速生成，从而实现了近乎即时的效果。速度有多快？数字会说话根据 Krea 官方公布的资料，Krea Realtime 14B 模型在单张 NVIDIA B200 GPU 上，仅需 4 个推论步骤（inference steps），就能达到每秒 11 帧（11fps）的惊人速度。每秒 11 帧是什么概念？虽然还不到电影（24fps）或一般影片（30fps）的流畅度，但这个速度已经足以提供即时的视觉回馈，让创作者可以快速预览和调整想法。这对于互动娱乐、直播特效或是创意发想等领域来说，无疑是一次巨大的革新。通往即时的门票：一道可遇不可求的硬体高墙看到这里，相信许多人都已经摩拳擦掌，准备亲身体验这项技术了。但先别急，要驱动这头效能猛兽，所需的「燃料」可非同小可。实现这一切的关键，正是当今算力金字塔顶端的硬体——NVIDIA B200 GPU。这款晶片是专为大规模资料中心和顶级 AI 研究而设计的专业级设备，其运算能力固然令人向往，但也意味着它并非寻常的消费级显卡。可以说，这惊人速度的背后，是一道普通玩家和创作者难以跨越的硬体门槛。这种尖端配置，在目前市场上确实是「可遇而不可求」的存在。这背后的现实是，尽管 AI 技术的发展日新月异，但尖端技术的普及，往往需要等待硬体生态的成熟与跟进，才能真正从实验室走向大众。即时影片生成的未来想像尽管硬體門檻如此之高，但 Krea Realtime 14B 的問世，依然為我們揭示了 AI 內容創作的無限可能：

Oct 21, 2025 Read →