字节跳动：Video-As-Prompt 模型开源，视频当指令，让静态图秒变动画！

AI 视频生成领域迎来全新突破！字节跳动（ByteDance）正式开源其创新的 Video-As-Prompt (VAP) 模型。这项技术允许用户直接用一段参考视频作为“提示”，就能让任何静态图片动起来，并且完美复制参考视频的语义和动态风格。本文将深入解析 VAP 的核心理念、两种模型的差异，以及它为何能在效能上媲美 Kling、Vidu 等顶尖商业模型。

AI 视频生成的新玩法：不再只是文字游戏

你是否曾想过，如果能让一张静态的照片，像某个视频里的主角一样跳舞、奔跑，甚至做出各种细腻的表情，那该有多酷？过去，我们习惯用文字（Text-to-Video）来指挥 AI 生成视频，但文字描述往往难以精准传达我们脑海中复杂的动态和情感。

现在，这一切都将改变。

字节跳动（ByteDance）最近开源了一项名为 Video-As-Prompt (VAP) 的全新技术，彻底颠覆了传统的视频生成模式。它的核心概念非常直观：直接拿一段视频当作指令，去驱动一张静态图片。

这就像你指着一段迈克尔·杰克逊的舞蹈视频，然后对一张蒙娜丽莎的画像说：“嘿，让她像这样跳舞！”VAP 就能理解舞蹈的“语义”——不仅仅是动作轨迹，还包括节奏、风格和力量感——并将其应用到蒙娜丽莎的身上。

Video-As-Prompt 的核心理念是什么？

简单来说，VAP 的任务是：给定一段带有特定语义的参考视频（Video Prompt），它能让一张参考图片（Reference Image）以和参考视频完全相同的语义动起来。

这背后是一种名为“情境生成”（in-context generation）的全新范式。它不再需要复杂的文字描述或多个条件控制，而是直接从范例视频中学习，理解其中的动态精髓，然后进行模仿和迁移。这使得视频生成变得前所未有的直观和灵活。

两种模型，两种选择：Wan2.1 vs. CogVideoX

为了满足不同用户的需求，字节跳动贴心地提供了 VAP 的两种版本，它们在能力和稳定性之间做出了不同的取舍。

1. Wan2.1-I2V-14B：更强大、更懂人类

优势： 这个 140 亿参数的大模型，得益于其强大的基础模型能力，在人类动作和新颖概念的生成上表现极其出色。无论是复杂的舞蹈动作，还是《鱿鱼游戏》这类特定文化概念，它都能精准捕捉并还原。
限制： 因为模型体积太大，在有限的计算资源下，它的训练步数相对较少。这也导致在某些语义条件下，稳定性会略逊一筹，有时可能会出现预期之外的结果。

2. CogVideoX-I2V-5B：更稳定、更可靠的选择

优势： 作为一个 50 亿参数的模型，它更轻量，这让开发团队能在同样的资源下进行更长时间的训练。结果就是，它在绝大多数语义条件下都表现出极高的稳定性。对于常规的动画生成任务，它几乎是个不会犯错的优等生。
限制： 受限于其骨干网络的能力，它在处理以人类为中心的生成任务时稍显逊色。同时，对于预训练数据中不常见的概念（例如 ladudu、Minecraft 等），它的理解和生成能力也比较弱。

该如何选择？ 结论很简单：如果你需要生成的是复杂的人类动作或小众、新潮的内容，那么 Wan2.1 是你的首选；如果你追求的是在各种常见场景下的高稳定性和可靠性，那么 CogVideoX 会是更稳妥的选择。

技术揭密：VAP 是如何运作的？

VAP 的架构设计相当聪明。它并不是从零开始打造一个全新的模型，而是巧妙地站在了巨人的肩膀上。

整个系统的核心是一个被“冻结”的视频扩散模型 Transformer（Video DiT）。你可以把它想象成一个已经非常擅长生成视频的通用大脑。所谓“冻结”，就是锁定它的参数，确保它不会在学习新任务时忘记自己原本强大的能力，这有效避免了 AI 领域常见的“灾难性遗忘”问题。

那么，如何让这个通用大脑听懂“视频指令”呢？答案是一个即插即用的混合专家模型（Mixture-of-Transformers, MoT）。这个 MoT 专家就像一个翻译官，专门负责解读参考视频中的动态语义，然后将这些指令传达给核心的 DiT 模型，引导它生成符合要求的动画。

此外，VAP 还采用了一种**时间偏置位置嵌入（temporally biased position embedding）**技术，这能帮助模型更准确地从参考视频中抓取上下文关联，而不会产生错误的时序对应。

效能惊人！VAP 能否挑战商业巨头？

说了这么多，VAP 的实际表现究竟如何？答案是：非常惊人。

根据官方公布的数据，VAP 作为一个统一的、可泛化的语义控制视频生成模型，其效能已经超越了所有现存的开源模型。更重要的是，它在用户偏好度上的得分，几乎与 Kling、Vidu 等顶尖的闭源商业模型持平！

模型	Clip Score (⬆)	动作流畅度 (⬆)	动态程度 (⬆)	美学品质 (⬆)	对齐分数 (⬆)	用户偏好率 (⬆)
VACE (原始)	5.88	97.60	68.75	53.90	35.38	0.6%
VACE (深度)	22.64	97.65	75.00	56.03	43.35	0.7%
VACE (光流)	22.65	97.56	79.17	57.34	46.71	1.8%
CogVideoX-I2V	22.82	98.48	72.92	56.75	26.04	6.9%
CogVideoX-I2V (LoRA)	23.59	98.34	70.83	54.23	68.60	13.1%
Kling / Vidu	24.05	98.12	79.17	59.16	74.02	38.2%
Video-As-Prompt	24.13	98.59	77.08	57.71	70.44	38.7%

从表格中可以清楚看到，Video-As-Prompt 在多项关键指标上都取得了最高分，特别是 38.7% 的用户偏好率，这意味着在与其他模型的盲测比较中，有接近四成的用户认为 VAP 生成的视频是最好的。对于一个开源模型来说，这是一个里程碑式的成就。

未来展望：通往通用视频生成的下一步

VAP 的出现，不仅仅仅是为开发者和创作者提供了一个强大的新工具，更重要的是它展示了 AI 视频生成技术的巨大潜力。其强大的零样本泛化能力（zero-shot generalization），意味着它能处理许多从未在训练中见过的任务，这标志着我们正朝着通用、可控的视频生成目标迈出坚实的一步。

从社交媒体的动态迷因制作，到艺术家让静态画作栩栩如生，再到影视产业的动画原型设计，VAP 的应用前景无限。随着社区的参与和迭代，我们有理由相信，AI 将会以前所未有的方式，赋静态图像全新的生命力。

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

L …

tool

LongCat-Video 登场：美团发表统一视频生成模型，挑战分钟级视频极限

探索美团最新发表的AI视频生成模型 LongCat-Video。它不仅是一个统一框架，能处理文生视频、图生视频等多种任务，更擅长生成长达数分钟的高品质视频，向“世界模型”迈出重要一步。 AI 视频生成的赛道最近真的越来越热闹了。当我们还在惊叹于 OpenAI Sora 或快手 Kling 所展示的惊人效果时，另一位重量级选手也带着独特的技术加入了这场竞赛。那就是由美团（Meituan）团队发表的 LongCat-Video，一个统一的基础视频生成模型。你可能会想，又是一个 AI 视频工具？有什么特别的吗？老实说，它的确有几个非常吸引人的亮点，特别是在解决目前 AI 视频生成的一些核心痛点上。不只是单一功能，这是一个“全能型”的统一模型许多 AI 模型专注于单一任务，例如“文字转视频”或“图片转视频”。但 LongCat-Video 走的是一条更整合的路线。它采用了统一的架构，将多种主流的视频生成任务整合在一个模型中。这意味着，无论你是想： Text-to-Video：输入一段文字描述，生成对应的视频。 Image-to-Video：给定一张静态图片，让它动起来。 Video-Continuation：延续一段现有的视频，生成后续的内容。 LongCat-Video 都能用同一个核心模型来处理。这就像拥有一个视频创作的瑞士军刀，而不是一堆单独的工具，大大简化了工作流程。真正的亮点：高效生成“分钟级”长视频这可能是 LongCat-Video 最令人兴奋的特色。如果你玩过其他的 AI 视频工具，你可能会发现，生成几秒钟的短片很容易，但要制作一段长达数分钟、内容连贯且画质稳定的视频，却是个巨大的挑战。很多模型在时间拉长后，会出现画面风格丕变、颜色漂移（color drifting），或是角色前后不一的窘境，就像一个讲故事讲到一半忘了主角长相的说书人。 LongCat-Video 巧妙地解决了这个问题。它的秘密武器在于，模型在预训练阶段就专注于“视频续写（Video-Continuation）”任务。换句话说，它从一开始就被训练成一个“故事接龙”的高手。这种原生的续写能力，让它在生成长视频时，能更好地保持内容的连贯性和品质稳定性，避免了画面崩坏或风格错乱的问题。根据官方展示，它能够产出长达数分钟的视频而没有明显的品质下降。它是如何做到的？一窥背后的技术魔法听起来很神奇，对吧？LongCat-Video 的高效与高品质，主要归功于几个关键技术的结合：由粗到精（Coarse-to-Fine）的生成方式：这个方法很直观，就像画家画画一样，先打个草稿，再逐步完善细节。模型会先生成一个低分辨率的视频雏形，然后再逐步提升分辨率和细节，最终产出 720p、30fps 的高画质视频。这不仅提升了效率，也确保了最终的品质。区块稀疏注意力（Block Sparse Attention）：这是为了提升运算效率的聪明设计。传统的注意力机制会让 AI 一次处理画面的所有信息，非常耗费资源。而区块稀疏注意力则让 AI 能“专注”在画面上最重要的部分，跳过不相关的区域，既聪明又省力，大大加快了生成速度。多奖励强化学习（Multi-Reward RLHF）：你可能听过 RLHF（人类回馈强化学习），也就是让模型从人类的偏好中学习。LongCat-Video 更进一步，采用了“多奖励”机制。这代表它不只学习“像不像”，而是从多个维度去评断视频的好坏，例如：画面美感、动作流畅度、故事逻辑、与文字描述的贴合度等。这让最终产出的视频更符合人类的审美和期待。不只是生成，还能“互动”的视频创作 LongCat-Video 还展示了一项非常有趣的功能：互动式视频生成。这代表用户可以像导演一样，在视频生成的过程中介入并给予新的指令。例如，你可以先生成“一个女孩在厨房切面包”的场景，接着在视频续写时，输入新的指令“她倒了一杯牛奶”，模型就会无缝接轨地生成下一个动作。这种能力让创作者不再只是被动的接收者，而是可以主动引导故事走向的参与者，为视频创作带来了前所未有的自由度和想象空间。想要亲自试试或深入了解吗？美团团队非常大方地将 LongCat-Video 的相关资源开源，让所有人都能接触到这项技术。

Oct 27, 2025 Read →

A …

tool

AI 影片生成迎来「即时」革命？Krea Realtime 模型登场，但通往未来的门票并非人人可得

AI 影片生成技术又有新突破！Krea AI 推出了名为 Krea Realtime 14B 的即时文字转影片模型。它惊人的运算速度，预示着一个内容创作新时代的来临，但其背后近乎苛刻的硬体需求，也为这项技术的普及设置了一道高墙。 AI 影片生成，真的能「即时」了吗？想像一下，当你打下一段文字，一个生动的影片画面就即时呈现在眼前，不再需要漫长的等待和渲染。这听起来像是科幻电影的情节，但随着 Krea AI 最新发布的 Krea Realtime 14B 模型，这个未来似乎离我们越来越近了。过去，从文字生成影片（Text-to-Video）虽然令人惊艳，但最大的瓶颈往往在于「时间」。一个几秒钟的短片，可能需要花费数分钟甚至更久的时间来生成，这大大限制了它的应用场景。不过，Krea 这次似乎找到了突破口，直接将「即时」（Realtime）这个词写进了模型的名字里。核心技术：Self-Forcing 是什么魔法？那么，Krea 是如何实现这种高速生成的呢？答案藏在一项名为「Self-Forcing」的技术里。简单来说，Krea Realtime 14B 模型是从一个更大型的影片模型 Wan 2.1 14B 中「提炼」出来的。传统的影片扩散模型（video diffusion models）在生成影片时，需要一步一步地去杂讯、计算，过程相对繁琐。而 Self-Forcing 技术，则巧妙地将这种模型转化为一种「自回归模型」（autoregressive model）。打个比方，这就像是让模型学会了「自我接龙」。它在生成下一帧画面时，会参考刚刚生成好的前一帧画面，而不是每次都从头开始思考。这种方式大幅简化了运算流程，让影片能够一帧接一帧地快速生成，从而实现了近乎即时的效果。速度有多快？数字会说话根据 Krea 官方公布的资料，Krea Realtime 14B 模型在单张 NVIDIA B200 GPU 上，仅需 4 个推论步骤（inference steps），就能达到每秒 11 帧（11fps）的惊人速度。每秒 11 帧是什么概念？虽然还不到电影（24fps）或一般影片（30fps）的流畅度，但这个速度已经足以提供即时的视觉回馈，让创作者可以快速预览和调整想法。这对于互动娱乐、直播特效或是创意发想等领域来说，无疑是一次巨大的革新。通往即时的门票：一道可遇不可求的硬体高墙看到这里，相信许多人都已经摩拳擦掌，准备亲身体验这项技术了。但先别急，要驱动这头效能猛兽，所需的「燃料」可非同小可。实现这一切的关键，正是当今算力金字塔顶端的硬体——NVIDIA B200 GPU。这款晶片是专为大规模资料中心和顶级 AI 研究而设计的专业级设备，其运算能力固然令人向往，但也意味着它并非寻常的消费级显卡。可以说，这惊人速度的背后，是一道普通玩家和创作者难以跨越的硬体门槛。这种尖端配置，在目前市场上确实是「可遇而不可求」的存在。这背后的现实是，尽管 AI 技术的发展日新月异，但尖端技术的普及，往往需要等待硬体生态的成熟与跟进，才能真正从实验室走向大众。即时影片生成的未来想像尽管硬體門檻如此之高，但 Krea Realtime 14B 的問世，依然為我們揭示了 AI 內容創作的無限可能：

Oct 21, 2025 Read →

G …

news

Google Veo 3.1 震撼登场：AI 影片创作再进化，Flow 工具迎来重大更新

探索 Google 最新发布的 Veo 3.1 模型如何彻底改变 AI 影片生成。了解 Flow 平台新增的强大音频生成与精准编辑功能，让你的创意不再受限，轻松打造电影级的视觉故事。 AI 影片生成的世界，变化速度快得让人几乎跟不上。就在几个月前，我们还在惊叹于文字指令能变成动态画面的神奇，如今，Google 再次投下一颗震撼弹，正式推出 Veo 3.1 模型，并将其强大的能力全面注入 AI 影片制作平台 Flow 之中。这不只是一次例行更新。这是一场关乎创意控制权的革命。自从五个月前推出以来，由 Veo 模型驱动的 Flow 平台已经见证了超过 2.75 亿部影片的诞生，这个数字本身就说明了一切。创作者们的热情与回馈，推动了这次重大更新的到来。大家想要的不只是生成影片，而是更细腻的艺术掌控、更丰富的听觉体验。现在，Google 回应了这些期待。 Veo 3.1 核心升级：不仅是更新，更是创作力的解放那么，这次的 Veo 3.1 究竟强在哪里？它和前一代的 Veo 3 有什么关键不同？简单来说，Veo 3.1 在三个核心层面实现了飞跃：更丰富的听觉体验：它能生成更具层次感的音频，让你的影片不再是无声的画面，而是充满生命力的场景。更强的叙事控制：模型对文字提示的理解更上一层楼，能更精准地执行你的创意构想，从画面风格到角色动态都更加贴切。更惊人的真实感： Veo 3.1 在捕捉材质细节上表现出色，无论是布料的褶皱还是皮肤的纹理，都能呈现出令人信服的真实感。这意味着，当你将一张静态图片转换为影片时，不仅画面品质更高，连带生成的音效也更加逼真，整体视听体验提升了一个档次。 Flow 平台全面进化：让故事“声”历其境这次更新最大的亮点，莫过于将音频功能首次带入了 Flow 的核心创作流程。这就像是为一位优秀的默剧演员配上了声音，叙事能力瞬间倍增。现在，当你使用 Flow 中既有的强大功能时，也能享受到丰富的生成式音频： “元素转影片 (Ingredients to Video)”：你可以上传多张参考图片来定义角色、物件和风格。现在，Flow 不仅会融合这些视觉元素，还会生成与之匹配的音效，让你的场景在视觉和听觉上都达到统一。 “影格转影片 (Frames to Video)”：提供一个起始画面和一个结束画面，Flow 会自动生成流畅的过渡影片。想像一下，一个史诗般的场景转换，现在还能配上磅礴的音效，那该有多震撼？ “延伸 (Extend)”：想要创作一分钟以上的长镜头？ “延伸”功能可以无缝地接续前一个片段的动作。如今，音频也能跟着画面一起延伸，确保长影片的听觉连贯性。这些功能目前仍在实验和改进阶段，但它们开启的可能性已经让人兴奋不已。

Oct 16, 2025 Read →