LongCat-Video 登场：美团发表统一视频生成模型，挑战分钟级视频极限

探索美团最新发表的AI视频生成模型 LongCat-Video。它不仅是一个统一框架，能处理文生视频、图生视频等多种任务，更擅长生成长达数分钟的高品质视频，向“世界模型”迈出重要一步。

AI 视频生成的赛道最近真的越来越热闹了。当我们还在惊叹于 OpenAI Sora 或快手 Kling 所展示的惊人效果时，另一位重量级选手也带着独特的技术加入了这场竞赛。

那就是由美团（Meituan）团队发表的 LongCat-Video，一个统一的基础视频生成模型。

你可能会想，又是一个 AI 视频工具？有什么特别的吗？老实说，它的确有几个非常吸引人的亮点，特别是在解决目前 AI 视频生成的一些核心痛点上。

不只是单一功能，这是一个“全能型”的统一模型

许多 AI 模型专注于单一任务，例如“文字转视频”或“图片转视频”。但 LongCat-Video 走的是一条更整合的路线。它采用了统一的架构，将多种主流的视频生成任务整合在一个模型中。

这意味着，无论你是想：

Text-to-Video： 输入一段文字描述，生成对应的视频。
Image-to-Video： 给定一张静态图片，让它动起来。
Video-Continuation： 延续一段现有的视频，生成后续的内容。

LongCat-Video 都能用同一个核心模型来处理。这就像拥有一个视频创作的瑞士军刀，而不是一堆单独的工具，大大简化了工作流程。

真正的亮点：高效生成“分钟级”长视频

这可能是 LongCat-Video 最令人兴奋的特色。

如果你玩过其他的 AI 视频工具，你可能会发现，生成几秒钟的短片很容易，但要制作一段长达数分钟、内容连贯且画质稳定的视频，却是个巨大的挑战。很多模型在时间拉长后，会出现画面风格丕变、颜色漂移（color drifting），或是角色前后不一的窘境，就像一个讲故事讲到一半忘了主角长相的说书人。

LongCat-Video 巧妙地解决了这个问题。它的秘密武器在于，模型在预训练阶段就专注于“视频续写（Video-Continuation）”任务。换句话说，它从一开始就被训练成一个“故事接龙”的高手。

这种原生的续写能力，让它在生成长视频时，能更好地保持内容的连贯性和品质稳定性，避免了画面崩坏或风格错乱的问题。根据官方展示，它能够产出长达数分钟的视频而没有明显的品质下降。

它是如何做到的？一窥背后的技术魔法

听起来很神奇，对吧？LongCat-Video 的高效与高品质，主要归功于几个关键技术的结合：

由粗到精（Coarse-to-Fine）的生成方式： 这个方法很直观，就像画家画画一样，先打个草稿，再逐步完善细节。模型会先生成一个低分辨率的视频雏形，然后再逐步提升分辨率和细节，最终产出 720p、30fps 的高画质视频。这不仅提升了效率，也确保了最终的品质。
区块稀疏注意力（Block Sparse Attention）： 这是为了提升运算效率的聪明设计。传统的注意力机制会让 AI 一次处理画面的所有信息，非常耗费资源。而区块稀疏注意力则让 AI 能“专注”在画面上最重要的部分，跳过不相关的区域，既聪明又省力，大大加快了生成速度。
多奖励强化学习（Multi-Reward RLHF）： 你可能听过 RLHF（人类回馈强化学习），也就是让模型从人类的偏好中学习。LongCat-Video 更进一步，采用了“多奖励”机制。这代表它不只学习“像不像”，而是从多个维度去评断视频的好坏，例如：画面美感、动作流畅度、故事逻辑、与文字描述的贴合度等。这让最终产出的视频更符合人类的审美和期待。

不只是生成，还能“互动”的视频创作

LongCat-Video 还展示了一项非常有趣的功能：互动式视频生成。

这代表用户可以像导演一样，在视频生成的过程中介入并给予新的指令。例如，你可以先生成“一个女孩在厨房切面包”的场景，接着在视频续写时，输入新的指令“她倒了一杯牛奶”，模型就会无缝接轨地生成下一个动作。

这种能力让创作者不再只是被动的接收者，而是可以主动引导故事走向的参与者，为视频创作带来了前所未有的自由度和想象空间。

想要亲自试试或深入了解吗？

美团团队非常大方地将 LongCat-Video 的相关资源开源，让所有人都能接触到这项技术。

官方网站： https://meituan-longcat.github.io/LongCat-Video/
GitHub 代码： https://github.com/meituan-longcat/LongCat-Video
Hugging Face 模型： https://huggingface.co/meituan-longcat/LongCat-Video

感兴趣的开发者或创作者，不妨前往官方页面查看更多惊人的展示影片，或是直接到 GitHub 和 Hugging Face 下载模型和代码亲自体验。

迈向“世界模型”的一小步

总结来说，LongCat-Video 不仅是一个功能强大的 AI 视频生成工具，它更在“统一架构”和“长视频生成”这两个关键方向上取得了重要的进展。

官方将其定位为“我们迈向世界模型的第一步”。所谓的“世界模型”，指的是能够理解并模拟真实世界运作规律的 AI 系统。而能够生成连贯、长时序的视频，正是模拟世界动态变化的基础。从这个角度看，LongCat-Video 的确展现了巨大的潜力，也让我们对 AI 的未来充满更多想象。

分享到:

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

字 …

tool

字节跳动：Video-As-Prompt 模型开源，视频当指令，让静态图秒变动画！

AI 视频生成领域迎来全新突破！字节跳动（ByteDance）正式开源其创新的 Video-As-Prompt (VAP) 模型。这项技术允许用户直接用一段参考视频作为“提示”，就能让任何静态图片动起来，并且完美复制参考视频的语义和动态风格。本文将深入解析 VAP 的核心理念、两种模型的差异，以及它为何能在效能上媲美 Kling、Vidu 等顶尖商业模型。 AI 视频生成的新玩法：不再只是文字游戏你是否曾想过，如果能让一张静态的照片，像某个视频里的主角一样跳舞、奔跑，甚至做出各种细腻的表情，那该有多酷？过去，我们习惯用文字（Text-to-Video）来指挥 AI 生成视频，但文字描述往往难以精准传达我们脑海中复杂的动态和情感。现在，这一切都将改变。字节跳动（ByteDance）最近开源了一项名为 Video-As-Prompt (VAP) 的全新技术，彻底颠覆了传统的视频生成模式。它的核心概念非常直观：直接拿一段视频当作指令，去驱动一张静态图片。这就像你指着一段迈克尔·杰克逊的舞蹈视频，然后对一张蒙娜丽莎的画像说：“嘿，让她像这样跳舞！”VAP 就能理解舞蹈的“语义”——不仅仅是动作轨迹，还包括节奏、风格和力量感——并将其应用到蒙娜丽莎的身上。 Video-As-Prompt 的核心理念是什么？简单来说，VAP 的任务是：给定一段带有特定语义的参考视频（Video Prompt），它能让一张参考图片（Reference Image）以和参考视频完全相同的语义动起来。这背后是一种名为“情境生成”（in-context generation）的全新范式。它不再需要复杂的文字描述或多个条件控制，而是直接从范例视频中学习，理解其中的动态精髓，然后进行模仿和迁移。这使得视频生成变得前所未有的直观和灵活。两种模型，两种选择：Wan2.1 vs. CogVideoX 为了满足不同用户的需求，字节跳动贴心地提供了 VAP 的两种版本，它们在能力和稳定性之间做出了不同的取舍。

Oct 24, 2025 Read →

A …

tool

AI 影片生成迎来「即时」革命？Krea Realtime 模型登场，但通往未来的门票并非人人可得

AI 影片生成技术又有新突破！Krea AI 推出了名为 Krea Realtime 14B 的即时文字转影片模型。它惊人的运算速度，预示着一个内容创作新时代的来临，但其背后近乎苛刻的硬体需求，也为这项技术的普及设置了一道高墙。 AI 影片生成，真的能「即时」了吗？想像一下，当你打下一段文字，一个生动的影片画面就即时呈现在眼前，不再需要漫长的等待和渲染。这听起来像是科幻电影的情节，但随着 Krea AI 最新发布的 Krea Realtime 14B 模型，这个未来似乎离我们越来越近了。过去，从文字生成影片（Text-to-Video）虽然令人惊艳，但最大的瓶颈往往在于「时间」。一个几秒钟的短片，可能需要花费数分钟甚至更久的时间来生成，这大大限制了它的应用场景。不过，Krea 这次似乎找到了突破口，直接将「即时」（Realtime）这个词写进了模型的名字里。核心技术：Self-Forcing 是什么魔法？那么，Krea 是如何实现这种高速生成的呢？答案藏在一项名为「Self-Forcing」的技术里。简单来说，Krea Realtime 14B 模型是从一个更大型的影片模型 Wan 2.1 14B 中「提炼」出来的。传统的影片扩散模型（video diffusion models）在生成影片时，需要一步一步地去杂讯、计算，过程相对繁琐。而 Self-Forcing 技术，则巧妙地将这种模型转化为一种「自回归模型」（autoregressive model）。打个比方，这就像是让模型学会了「自我接龙」。它在生成下一帧画面时，会参考刚刚生成好的前一帧画面，而不是每次都从头开始思考。这种方式大幅简化了运算流程，让影片能够一帧接一帧地快速生成，从而实现了近乎即时的效果。速度有多快？数字会说话根据 Krea 官方公布的资料，Krea Realtime 14B 模型在单张 NVIDIA B200 GPU 上，仅需 4 个推论步骤（inference steps），就能达到每秒 11 帧（11fps）的惊人速度。每秒 11 帧是什么概念？虽然还不到电影（24fps）或一般影片（30fps）的流畅度，但这个速度已经足以提供即时的视觉回馈，让创作者可以快速预览和调整想法。这对于互动娱乐、直播特效或是创意发想等领域来说，无疑是一次巨大的革新。通往即时的门票：一道可遇不可求的硬体高墙看到这里，相信许多人都已经摩拳擦掌，准备亲身体验这项技术了。但先别急，要驱动这头效能猛兽，所需的「燃料」可非同小可。实现这一切的关键，正是当今算力金字塔顶端的硬体——NVIDIA B200 GPU。这款晶片是专为大规模资料中心和顶级 AI 研究而设计的专业级设备，其运算能力固然令人向往，但也意味着它并非寻常的消费级显卡。可以说，这惊人速度的背后，是一道普通玩家和创作者难以跨越的硬体门槛。这种尖端配置，在目前市场上确实是「可遇而不可求」的存在。这背后的现实是，尽管 AI 技术的发展日新月异，但尖端技术的普及，往往需要等待硬体生态的成熟与跟进，才能真正从实验室走向大众。即时影片生成的未来想像尽管硬體門檻如此之高，但 Krea Realtime 14B 的問世，依然為我們揭示了 AI 內容創作的無限可能：

Oct 21, 2025 Read →

G …

news

Google Veo 3.1 震撼登场：AI 影片创作再进化，Flow 工具迎来重大更新

探索 Google 最新发布的 Veo 3.1 模型如何彻底改变 AI 影片生成。了解 Flow 平台新增的强大音频生成与精准编辑功能，让你的创意不再受限，轻松打造电影级的视觉故事。 AI 影片生成的世界，变化速度快得让人几乎跟不上。就在几个月前，我们还在惊叹于文字指令能变成动态画面的神奇，如今，Google 再次投下一颗震撼弹，正式推出 Veo 3.1 模型，并将其强大的能力全面注入 AI 影片制作平台 Flow 之中。这不只是一次例行更新。这是一场关乎创意控制权的革命。自从五个月前推出以来，由 Veo 模型驱动的 Flow 平台已经见证了超过 2.75 亿部影片的诞生，这个数字本身就说明了一切。创作者们的热情与回馈，推动了这次重大更新的到来。大家想要的不只是生成影片，而是更细腻的艺术掌控、更丰富的听觉体验。现在，Google 回应了这些期待。 Veo 3.1 核心升级：不仅是更新，更是创作力的解放那么，这次的 Veo 3.1 究竟强在哪里？它和前一代的 Veo 3 有什么关键不同？简单来说，Veo 3.1 在三个核心层面实现了飞跃：更丰富的听觉体验：它能生成更具层次感的音频，让你的影片不再是无声的画面，而是充满生命力的场景。更强的叙事控制：模型对文字提示的理解更上一层楼，能更精准地执行你的创意构想，从画面风格到角色动态都更加贴切。更惊人的真实感： Veo 3.1 在捕捉材质细节上表现出色，无论是布料的褶皱还是皮肤的纹理，都能呈现出令人信服的真实感。这意味着，当你将一张静态图片转换为影片时，不仅画面品质更高，连带生成的音效也更加逼真，整体视听体验提升了一个档次。 Flow 平台全面进化：让故事“声”历其境这次更新最大的亮点，莫过于将音频功能首次带入了 Flow 的核心创作流程。这就像是为一位优秀的默剧演员配上了声音，叙事能力瞬间倍增。现在，当你使用 Flow 中既有的强大功能时，也能享受到丰富的生成式音频： “元素转影片 (Ingredients to Video)”：你可以上传多张参考图片来定义角色、物件和风格。现在，Flow 不仅会融合这些视觉元素，还会生成与之匹配的音效，让你的场景在视觉和听觉上都达到统一。 “影格转影片 (Frames to Video)”：提供一个起始画面和一个结束画面，Flow 会自动生成流畅的过渡影片。想像一下，一个史诗般的场景转换，现在还能配上磅礴的音效，那该有多震撼？ “延伸 (Extend)”：想要创作一分钟以上的长镜头？ “延伸”功能可以无缝地接续前一个片段的动作。如今，音频也能跟着画面一起延伸，确保长影片的听觉连贯性。这些功能目前仍在实验和改进阶段，但它们开启的可能性已经让人兴奋不已。

Oct 16, 2025 Read →