当大家还在惊叹美团的外卖配送速度时,这家 “送外卖” 的公司早已悄悄布局 AI 赛道,如今更是甩出重磅炸弹 —— 开源新一代视频生成模型 LongCat-Video,直接登顶开源领域 SOTA,让全球 AI 圈为之震动!
LongCat-Video 以 13.6B 参数的轻量化体量,实现了文生视频、图生视频、视频续生三大核心功能的统一,更能稳定输出 5 分钟级 720p/30fps 高清长视频,全程无色彩漂移、无质量损失。
这一表现不仅超越了 PixVerse-V5、Wan2.2-T2V-A14B 等主流开源模型,部分核心维度更是比肩谷歌最强闭源模型 Veo3。Hugging Face 高级主管都忍不住三连问惊叹:”中国团队竟然发布了 MIT 协议的基础视频模型?”
三大核心能力,解锁视频创作新可能
作为一款全能型视频生成模型,LongCat-Video 的实力藏在每一个实用功能里:
-
文生视频:开源 SOTA 级还原,物理逻辑拉满
输入文字就能生成高清视频,语义理解与视觉呈现双双达到开源顶尖水平。无论是足球赛事的激烈对抗、体操运动员的高难度动作,还是挑战复杂光影的水上芭蕾,模型都能精准捕捉细节,还原真实物理规律。在内部测评中,其文本对齐度、视觉质量、运动质量和整体质量四项核心指标均表现亮眼,彻底摆脱了传统 AI 视频的 “僵硬感”。
-
图生视频:一致性拉满,创意玩法无限
上传一张参考图,模型就能保留主体属性、背景关系和整体风格,生成连贯视频。给一张机器人工作图,能延伸出机器人 “居家办公” 的完整 vlog—— 拿小熊、倒牛奶、关电脑,不同动作下桌面环境始终保持一致。商家可直接用于产品宣传,创作者能借此制作动画短片,甚至有望实现动画大电影的低成本创作。
-
视频续生:分钟级长视频,像拍连续剧一样简单
这是 LongCat-Video 最核心的差异化能力。通过连续任务预训练,模型能像续写小说一样延长视频,用户只需通过提示词逐步引导,就能生成情节完整的长内容。比如一个厨房场景的视频,通过 “切面包→倒牛奶→抿一口” 的分步提示,就能生成近半分钟的连贯片段,最长可稳定输出 5 分钟长视频,让 “视频 AI 的终极形态” 更近一步。
硬核技术突破,撑起全能表现
LongCat-Video 的惊艳表现,背后是美团在 AI 技术上的深度积累与创新:
模型以 Diffusion Transformer(DiT)为基础框架,每个 Transformer 块集成 3D 自注意力层、交叉注意力层和 SwiGLU 激活函数前馈网络,通过 AdaLN-Zero 调制机制、RMSNorm 归一化、3D RoPE 位置编码等技术,确保了训练稳定性与生成质量。

为实现多任务统一,团队创新性地将文生视频(0 帧条件)、图生视频(1 帧条件)、视频续生(多帧条件)全部定义为视频续生任务,通过混合输入与时序步配置,让单模型原生支持三大功能。而块稀疏注意力机制与 KVCache 的引入,将计算量降至原始 10% 以下,配合 “从粗到精” 的生成范式(先 480p/15fps 再升维至 720p/30fps),在单 H800 GPU 上就能分钟级完成高清视频生成,效率提升超 10 倍。
在训练层面,模型采用 GRPO 算法提升收敛速度,结合视觉质量、运动质量、文本 – 视频对齐度三类专用奖励模型进行加权融合训练,有效避免过拟合与奖励欺骗问题,尤其在常识性维度(运动合理性、物理定律遵循)上位列 VBench 2.0 公开榜单第一,凸显出强大的物理世界建模能力。
开源 + 商用友好,加速 AI 视频生态落地
更值得关注的是,LongCat-Video 采用允许商用的 MIT 协议,这意味着开发者、企业都能免费使用并用于商业场景,极大降低了 AI 视频技术的落地门槛。无论是中小企业制作营销视频、创作者开发创意内容,还是科研团队基于其进行二次创新,都无需担心版权限制。
从技术布局来看,LongCat-Video 并非孤立存在。此前美团已陆续开源 560B 参数的 LongCat-Flash-Chat、具备深度思考能力的 LongCat-Flash-Thinking、语音专用模型 LongCat-Audio-Codec,构建起覆盖文本、语音、视频的多模态 AI 体系。
而此次视频模型的推出,更是美团瞄准 “世界模型” 前沿领域的关键一步 —— 通过视频生成任务压缩多领域知识,让 AI 在数字空间模拟真实世界运行,为未来更高级的智能应用奠定基础。
如今,这家以外卖业务闻名的公司,早已凭借持续的技术投入和开源贡献,成为 AI 领域不可忽视的重要力量。LongCat-Video 的开源,不仅为开发者提供了强大的工具,更推动了整个视频生成技术的民主化进程。未来,随着技术的不断迭代,我们或许能看到更多来自 “跨界玩家” 的惊喜,而 AI 视频创作的普及,也将离我们越来越近。
分享一个免费AI图生视频体验入口:
https://www.iqinghu.com/agent/details/47?urlCode=1760086527070

评论列表 (0条):
加载更多评论 Loading...