tool

LongCat-Video 登场:美团发表统一视频生成模型,挑战分钟级视频极限

October 27, 2025
Updated Oct 27
1 min read

探索美团最新发表的AI视频生成模型 LongCat-Video。它不仅是一个统一框架,能处理文生视频、图生视频等多种任务,更擅长生成长达数分钟的高品质视频,向“世界模型”迈出重要一步。


AI 视频生成的赛道最近真的越来越热闹了。当我们还在惊叹于 OpenAI Sora 或快手 Kling 所展示的惊人效果时,另一位重量级选手也带着独特的技术加入了这场竞赛。

那就是由美团(Meituan)团队发表的 LongCat-Video,一个统一的基础视频生成模型。

你可能会想,又是一个 AI 视频工具?有什么特别的吗?老实说,它的确有几个非常吸引人的亮点,特别是在解决目前 AI 视频生成的一些核心痛点上。

不只是单一功能,这是一个“全能型”的统一模型

许多 AI 模型专注于单一任务,例如“文字转视频”或“图片转视频”。但 LongCat-Video 走的是一条更整合的路线。它采用了统一的架构,将多种主流的视频生成任务整合在一个模型中。

这意味着,无论你是想:

  • Text-to-Video: 输入一段文字描述,生成对应的视频。
  • Image-to-Video: 给定一张静态图片,让它动起来。
  • Video-Continuation: 延续一段现有的视频,生成后续的内容。

LongCat-Video 都能用同一个核心模型来处理。这就像拥有一个视频创作的瑞士军刀,而不是一堆单独的工具,大大简化了工作流程。

真正的亮点:高效生成“分钟级”长视频

这可能是 LongCat-Video 最令人兴奋的特色。

如果你玩过其他的 AI 视频工具,你可能会发现,生成几秒钟的短片很容易,但要制作一段长达数分钟、内容连贯且画质稳定的视频,却是个巨大的挑战。很多模型在时间拉长后,会出现画面风格丕变、颜色漂移(color drifting),或是角色前后不一的窘境,就像一个讲故事讲到一半忘了主角长相的说书人。

LongCat-Video 巧妙地解决了这个问题。它的秘密武器在于,模型在预训练阶段就专注于“视频续写(Video-Continuation)”任务。换句话说,它从一开始就被训练成一个“故事接龙”的高手。

这种原生的续写能力,让它在生成长视频时,能更好地保持内容的连贯性和品质稳定性,避免了画面崩坏或风格错乱的问题。根据官方展示,它能够产出长达数分钟的视频而没有明显的品质下降。

它是如何做到的?一窥背后的技术魔法

听起来很神奇,对吧?LongCat-Video 的高效与高品质,主要归功于几个关键技术的结合:

  • 由粗到精(Coarse-to-Fine)的生成方式: 这个方法很直观,就像画家画画一样,先打个草稿,再逐步完善细节。模型会先生成一个低分辨率的视频雏形,然后再逐步提升分辨率和细节,最终产出 720p、30fps 的高画质视频。这不仅提升了效率,也确保了最终的品质。

  • 区块稀疏注意力(Block Sparse Attention): 这是为了提升运算效率的聪明设计。传统的注意力机制会让 AI 一次处理画面的所有信息,非常耗费资源。而区块稀疏注意力则让 AI 能“专注”在画面上最重要的部分,跳过不相关的区域,既聪明又省力,大大加快了生成速度。

  • 多奖励强化学习(Multi-Reward RLHF): 你可能听过 RLHF(人类回馈强化学习),也就是让模型从人类的偏好中学习。LongCat-Video 更进一步,采用了“多奖励”机制。这代表它不只学习“像不像”,而是从多个维度去评断视频的好坏,例如:画面美感、动作流畅度、故事逻辑、与文字描述的贴合度等。这让最终产出的视频更符合人类的审美和期待。

不只是生成,还能“互动”的视频创作

LongCat-Video 还展示了一项非常有趣的功能:互动式视频生成

这代表用户可以像导演一样,在视频生成的过程中介入并给予新的指令。例如,你可以先生成“一个女孩在厨房切面包”的场景,接着在视频续写时,输入新的指令“她倒了一杯牛奶”,模型就会无缝接轨地生成下一个动作。

这种能力让创作者不再只是被动的接收者,而是可以主动引导故事走向的参与者,为视频创作带来了前所未有的自由度和想象空间。

想要亲自试试或深入了解吗?

美团团队非常大方地将 LongCat-Video 的相关资源开源,让所有人都能接触到这项技术。

感兴趣的开发者或创作者,不妨前往官方页面查看更多惊人的展示影片,或是直接到 GitHub 和 Hugging Face 下载模型和代码亲自体验。

迈向“世界模型”的一小步

总结来说,LongCat-Video 不仅是一个功能强大的 AI 视频生成工具,它更在“统一架构”和“长视频生成”这两个关键方向上取得了重要的进展。

官方将其定位为“我们迈向世界模型的第一步”。所谓的“世界模型”,指的是能够理解并模拟真实世界运作规律的 AI 系统。而能够生成连贯、长时序的视频,正是模拟世界动态变化的基础。从这个角度看,LongCat-Video 的确展现了巨大的潜力,也让我们对 AI 的未来充满更多想象。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.