视频生成模型
阿里通义万相宣布即将开源视频生成模型WanX 2.1
近日,阿里巴巴宣布视频生成模型WanX2.1将全面开源,同时公布了最新视频效果。 2025年1月,阿里巴巴旗下通义万相团队推出Wanx2.1多模态大模型,凭借其在视频生成领域的突破性进展,荣登VBench评测榜单首位,重新定义了AI驱动的视觉创作标准。 WanX 团队[昨晚宣布即将开源其最新的 WANX2.1视频生成模型。
Seed Research | 视频生成模型最新成果,可仅靠视觉认知世界!现已开源
视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。 不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。 正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”,VideoWorld 仅通过 “视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。
字节联合港大发布新视频模型Goku:可直接生成虚拟数字人视频
近日,香港大学与字节跳动合作研发的基于流动的视频生成模型 Goku 正式发布。 该模型利用先进的生成算法,可以根据文本提示生成高质量的视频内容,极大地丰富了数字艺术的表现形式。 为了展示 Goku 模型的强大功能,研究团队制作了一系列精彩的视频示例,这些示例不仅展示了模型的技术能力,也展现了其在创意表现上的无限潜力。
豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。
AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!
说到2024年AI圈的热门话题,当然不能错过视频生成模型了! 即使是在12月,国内外视频模型的更新脚步依旧没有放缓。 其中以Sora、可灵AI为代表。
微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora
Sora、Genie等模型会都用到的Tokenizer,微软下手了——开源了一套全能的Video Tokenizer,名为VidTok。 Sora等视频生成模型工作中,都会利用Tokenizer将原始的高维视频数据(如图像和视频帧)转换为更为紧凑的视觉Token,再以视觉Token为目标训练生成模型。 而最新的VidTok,在连续和离散、不同压缩率等多种设定下,各项指标均显著优于SOTA模型。
视频生成平台 Runway 获得新技能:更改视频比例,图片拥有“电影级”运镜
视频生成 AI 创企 RunwayML 今天推出了“Expand Video”新功能。用户可通过输入文本提示,在原始画面基础上生成额外内容,灵活调整视频比例,该系统能够在扩展画面时保持视觉效果的统一性。
视觉模型智能涌现后, Scaling Law 不会到头
Scaling Law 或将终结——这是最近备受热议的话题之一。 该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文,其研究表明当下的语言模型在大量数据上经历了过度训练,继续叠加更多的预训练数据可能会产生副作用。 这释放的信号是:在自然语言处理领域, Scaling Law 目光所及地到达瓶颈,单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效,低精度的训练和推理正在使模型性能提升的边际效益递减。
字节即梦 AI 视频生成模型更新 P / S 2.0 Pro 双版本,全量开放使用
即梦 AI 宣布包含具有首帧一致性的 S2.0 Pro 和具有极高提示词遵循能力 P2.0 Pro 视频生成模型全量开放使用。
60秒内即可生成5秒AI视频,豆包视频生成模型Seaweed上线即梦AI
11月8日,字节跳动旗下的AI内容平台即梦AI宣布,即日起,由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。 用户登陆后,在“视频生成”功能下,视频模型选择“视频S2.0”即可体验。 图说:即梦AI PC端和App端模型使用入口9月底,字节跳动正式宣布向AI视频领域进军,发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance,并通过即梦AI、火山引擎分别面向创作者和企业客户小范围邀测。
- 1