美团开源LongCat
美团迈出通向“世界模型”的美团第一步,并计划用它更好地连接“原子世界”与“比特世界”。开源 
▲美团发布并开源LongCat-Video视频生成模型,迈出通向“世界模型”的美团第一步(资料图)
10月27日,美团LongCat团队发布并开源LongCat-Video视频生成模型,开源以统一模型在文生、美团图生视频基础任务上达到开源SOTA(最先进水平),开源并依托原生视频续写任务预训练,美团实现分钟级长视频连贯生成,开源保障跨帧时序一致性与物理运动合理性,美团在长视频生成领域具备显著优势。开源
近年来,美团“世界模型”(World Model)因让人工智能真正理解、开源预测甚至重构真实世界,美团被业界视作通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,“世界模型”赋予人工智能“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,人工智能得以在数字空间中模拟、推演乃至预演真实世界的运行。
正因如此,美团LongCat团队认为,此次发布的视频生成模型,是为探索“世界模型”迈出的第一步。未来,凭借精准重构真实世界运行状态的能力,LongCat模型也会融入公司近年来持续投入的自动驾驶、具身智能等深度交互业务场景中,成为公司更好连接“比特世界”和“原子世界”的技术基础。

▲LongCat-Video视频生成模型视频推理速度提升至10.1倍(资料图)
具体来看,此次开源模型的技术报告显示,作为基于Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video创新通过 “条件帧数量” 实现任务区分,原生支持三大核心任务:文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容,且无需额外模型适配,形成“文生/图生/视频续写”完整任务闭环。
此外,依托视频续写任务预训练,新模型可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。模型还结合块稀疏注意力(BSA)与条件 token 缓存机制,大幅降低长视频推理冗余——即便处理 93 帧及以上长序列,仍能兼顾效率与生成质量稳定,打破长视频生成“时长与质量不可兼得”的瓶颈。
针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video通过“二阶段粗到精生成(C2F)+ 块稀疏注意力(BSA)+ 模型蒸馏”三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡。


▲LongCat-Video视频生成模型在文生、图生视频基础任务上达到开源SOTA(资料图)
技术报告还称,LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开,覆盖 Text-to-Video(文本生成视频)、Image-to-Video(图像生成视频)两大核心任务,从多维度(文本对齐、图像对齐、视觉质量、运动质量、整体质量)验证模型性能:136亿参数的视频生成基座模型,在文生视频、图生视频两大核心任务中,综合性能均达到当前开源领域SOTA级别;通过文本 - 视频对齐、视觉质量、运动质量、整体质量四大维度评估,其性能在文本对齐度、运动连贯性等关键指标上展现显著优势;在VBench等公开基准测试中,LongCat-Video在参评模型中整体表现优异。
- ·两全保险生存金谁领,两全保险生存金怎么领取
- ·20万意外险保险费支出是多少?20万的意外险怎么赔付
- ·卡纳瓦罗:球队相比上半赛季已改观 仍会暴露问题
- ·这就是神! 汤神三节未到已砍52分+14记三分破纪录
- ·风雷益:精工品质,诠释完美极致的“红木精神”
- ·欧文31分 凯尔特人108:105活塞比赛回顾技术统计双方首发
- ·万家乐壁挂炉:营销无定律,促销新常态!
- ·户外意外险,一天户外活动意外险
- ·网购流量卡发现与宣传不符 上海市松江区消保委:商家应诚信经营 积极主动处理售后问题
- ·七原因暗示伍兹2019赛季爆发 大满贯冠军不远?
- ·买哪种意外险,大货车司机可以买哪种意外险
- ·里皮:离国足后或再执教一国家队 不会带俱乐部
- ·木立方聚焦央视四大频道,展示品牌强大的魅力
- ·把握和迎合消费者心理 水性漆企业要重视服务
- ·买哪种意外险,大货车司机可以买哪种意外险
- ·国际网联青年大师赛收官 美国小将布兰登男单夺冠
