视频生成模型

叫板Sora？潞晨科技开源视频大模型Open-Sora 2.0，降本提速

听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本，简直就是视频生成界的“劳斯莱斯”。现在，潞晨科技宣布开源视频生成模型 Open-Sora2.0!仅仅花费了区区20万美元（相当于224张 GPU 的投入），就成功训练出了一个拥有 110亿参数的商业级视频生成大模型。性能直追“OpenAI Sora ”别看 Open-Sora2.0成本不高，实力可一点都不含糊。

阿里通义万相宣布即将开源视频生成模型WanX 2.1

近日，阿里巴巴宣布视频生成模型WanX2.1将全面开源，同时公布了最新视频效果。 2025年1月，阿里巴巴旗下通义万相团队推出Wanx2.1多模态大模型，凭借其在视频生成领域的突破性进展，荣登VBench评测榜单首位，重新定义了AI驱动的视觉创作标准。 WanX 团队[昨晚宣布即将开源其最新的 WANX2.1视频生成模型。

Seed Research | 视频生成模型最新成果，可仅靠视觉认知世界！现已开源

视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型，即可认知世界。正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”，VideoWorld 仅通过 “视觉信息”，即浏览视频数据，就能让机器掌握推理、规划和决策等复杂能力。

字节联合港大发布新视频模型Goku：可直接生成虚拟数字人视频

近日，香港大学与字节跳动合作研发的基于流动的视频生成模型 Goku 正式发布。该模型利用先进的生成算法，可以根据文本提示生成高质量的视频内容，极大地丰富了数字艺术的表现形式。为了展示 Goku 模型的强大功能，研究团队制作了一系列精彩的视频示例，这些示例不仅展示了模型的技术能力，也展现了其在创意表现上的无限潜力。

豆包开源视频生成模型 VideoWorld：首创免语言模型依赖认知世界

不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型，VideoWorld 在业界首次实现无需依赖语言模型，即可认知世界。

AGI-Eval团队：AI视频生成模型年度横评，Sora大饼落地，但国产模型仍然领先！

说到2024年AI圈的热门话题，当然不能错过视频生成模型了！即使是在12月，国内外视频模型的更新脚步依旧没有放缓。其中以Sora、可灵AI为代表。

微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora

Sora、Genie等模型会都用到的Tokenizer，微软下手了——开源了一套全能的Video Tokenizer，名为VidTok。 Sora等视频生成模型工作中，都会利用Tokenizer将原始的高维视频数据（如图像和视频帧）转换为更为紧凑的视觉Token，再以视觉Token为目标训练生成模型。而最新的VidTok，在连续和离散、不同压缩率等多种设定下，各项指标均显著优于SOTA模型。

视频生成平台 Runway 获得新技能：更改视频比例，图片拥有“电影级”运镜

视频生成 AI 创企 RunwayML 今天推出了“Expand Video”新功能。用户可通过输入文本提示，在原始画面基础上生成额外内容，灵活调整视频比例，该系统能够在扩展画面时保持视觉效果的统一性。

视觉模型智能涌现后， Scaling Law 不会到头

Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文，其研究表明当下的语言模型在大量数据上经历了过度训练，继续叠加更多的预训练数据可能会产生副作用。这释放的信号是：在自然语言处理领域， Scaling Law 目光所及地到达瓶颈，单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效，低精度的训练和推理正在使模型性能提升的边际效益递减。

字节即梦 AI 视频生成模型更新 P / S 2.0 Pro 双版本，全量开放使用

即梦 AI 宣布包含具有首帧一致性的 S2.0 Pro 和具有极高提示词遵循能力 P2.0 Pro 视频生成模型全量开放使用。

60秒内即可生成5秒AI视频，豆包视频生成模型Seaweed上线即梦AI

11月8日，字节跳动旗下的AI内容平台即梦AI宣布，即日起，由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。用户登陆后，在“视频生成”功能下，视频模型选择“视频S2.0”即可体验。图说：即梦AI PC端和App端模型使用入口9月底，字节跳动正式宣布向AI视频领域进军，发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance，并通过即梦AI、火山引擎分别面向创作者和企业客户小范围邀测。