视频生成

轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

轨迹可控的视频生成来了，支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。近年来，视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。在此基础上，（trajectory-controllable video generation）涌现了许多工作，使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。

3/27/2025 9:24:16 AM

量子位

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

近日，清华大学的研究团队开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放（Test-Time Scaling， TTS），旨在通过在视频生成过程的推理阶段投入更多的计算资源，显著提升生成视频的质量和与文本提示的一致性，而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。

3/26/2025 2:30:00 PM

AI在线

xAI收购AI视频生成初创公司Hotshot，加强与OpenAI Sora竞争

近日，埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot，这标志着马斯克在AI视频生成领域的重要布局。 Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X上正式宣布了这一消息。 Sastry在公告中表示:"过去2年中，我们作为一个小团队建立了3个视频基础模型——Hotshot-XL、Hotshot Act One和Hotshot。

3/18/2025 9:16:00 AM

AI在线

千帧长视频时代到来！MIT全新扩散算法让任意模型突破时长极限

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/26/2025 12:54:00 PM

机器之心

谷歌AI视频生成模型Veo 2使用成本曝光：一分钟视频要30美元

谷歌近日悄然公布了其视频生成 AI 模型 Veo2的定价信息，Veo2最早是在去年12月被披露的，这一新模型吸引了不少关注。根据谷歌的定价页面，使用 Veo2的费用为每秒50美分，这样算下来，每分钟的视频费用为30美元，每小时的视频费用则高达1800美元。谷歌 DeepMind 的研究员乔恩・巴伦（Jon Barron）对这一定价进行了有趣的比较，他提到了备受瞩目的漫威电影《复仇者联盟:终局之战》的制作预算，该预算高达3.56亿美元，折合每秒约32，000美元。

2/24/2025 9:04:00 AM

AI在线

Gemini 或将支持视频生成?Google 应用代码泄露玄机

据国外媒体Android Authority报道，谷歌正持续为其 AI 数字助理 Gemini 增加新功能。继深度情境理解、文件处理优化以及跨应用链接等功能后，Google 应用程序中的代码表明 Gemini 很快就能生成视频。 Google 应用 v16.6.23版本代码中暗示了这一新功能。

2/19/2025 9:55:00 AM

AI在线

港大字节最新视频生成模型刷屏！网友直接RIP市场营销，Sora也不香了

刚刚，港大字节联手发布最新视频生成模型，让歪果网友直呼疯狂。有人甚至直接RIP市场营销、TikTok用户和YouTube创作者。你敢信，下面这一幕不是来自欧巴电视剧，而是AI生成的！

2/11/2025 9:00:00 AM

量子位

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技，双人舞也能完美同步

针对视频生成中的运动一致性难题，Meta GenAI 团队提出了一个全新框架 VideoJAM。VideoJAM 基于主流的 DiT 路线，但和 Sora 等纯 DiT 模型相比，动态效果直接拉满。

2/10/2025 12:04:23 PM

汪淼

可灵视频生成可控性为什么这么好？快手又公开了四篇研究

可灵，视频生成领域的佼佼者，近来动作不断。继发布可灵 1.6 后，又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏？揭秘背后三项重要研究》。

1/22/2025 6:21:00 PM

机器之心

快手可灵凭什么频繁刷屏？揭秘背后三项重要研究

“可灵（KLING）”，近半年来频繁亮相于国内外各大科技媒体，已然成为科技感与创意的代名词，它代表了快手 AI 团队在视频生成领域的前沿探索。作为全球首个可公开体验的真实影像级视频生成大模型，可灵于 2024 年 6 月 6 日正式发布并上线。在短短半年多的时间里，可灵已完成了数十次功能与效果的升级迭代，始终稳居全球视频生成领域的第一梯队，持续引领着行业效果的提升。

1/15/2025 10:57:00 AM

机器之心

Open-Sora：让所有人都能轻松制作高效视频，可生成16秒720P视频，模型代码全开源！

Open-Sora是一项致力于高效制作高质量视频的计划。目的是让所有人都能使用模型、工具和所有细节。通过采用开源原则，Open-Sora 不仅使高级视频生成技术的使用变得民主化，而且还提供了一个简化且用户友好的平台，简化了视频生成的复杂性。

1/10/2025 9:40:00 AM

AIGC Studio

MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

本文经AIGC Studio公众号授权转载，转载请联系出处。 MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。使用 MinT 生成时间控制的多事件视频。

1/8/2025 8:48:57 AM

AIGC Studio

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

奥特曼说，Sora代表了视频生成大模型的GPT-1时刻。从开年到现在，国内外、初创独角兽到互联网大厂，都纷纷投入视频生成领域，带来一个个新鲜模型的同时，视频、影视行业也随之发生巨变。不可否认，当下的视频生成模型还遇到诸多问题，比如对空间、对物理规律的理解，我们都期待着视频生成的GPT-3.5/4时刻到来。

1/2/2025 9:14:51 AM

量子位

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

写在前面&笔者的个人理解近年来，随着自动驾驶在感知、预测和规划方面取得的重大进步，端到端算法网络也取得了重大进展。随着现如今这些技术的飞速进步，自动驾驶汽车的全面测试和验证也变得越来越重要。然而，真实世界的车辆测试仍然耗时、费用昂贵，并且场景的覆盖范围也非常有限。

12/19/2024 10:20:53 AM

自动驾驶之心

OpenAI被偷家，谷歌Veo 2反超Sora

视频生成领先 OpenAI 了？今天是个好日子，至少谷歌这么想。几个小时前，该公司一键三连，一口气发布了两款视觉生成模型和一个工具：Veo 2：视频生成模型，可使用文本或图像 prompt 生成高真实感、高质量的视频；Imagen 3：文生图模型，可更忠实地遵从提示词，实现更加丰富的细节和纹理渲染；Whisk：图生图工具，基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造，能让用户更加方便地调整图像的场景、风格和物体。

12/17/2024 8:49:00 PM

机器之心

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

3 个月前，MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。只用了 5 周时间，海螺 AI 的网页版访问量便增速超 800%，还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。一时间，不少国内网友直呼其为“国产之光”。

12/16/2024 2:04:00 PM

郑佳美

二次元狂喜！海螺发布2D动画专用视频生成模型，日漫迪士尼插画风都支持

MinMax海螺AI新模型，让2D角色动起来了！日漫、游戏、插画等各种风格的静态人物，都可以丝滑地转变成生动的2D风格视频。量子位也马上上手实测了一波——首先请出今年的顶流悟空先生，输入下面的prompt（输入时是英文，此处意译）：悟空在波涛汹涌的海面上准备战斗，金箍棒闪着金光，衣摆随风被吹动，气氛紧张来看看海螺的生成效果：不得不说，还真有大片里面战斗即将开场的即视感了！

12/9/2024 9:20:00 AM

量子位

中国电信发布首个央企全自研视频生成大模型，与华为、中兴等成立 AI 联盟

TeleAI 发布视频生成大模型、视觉大模型产用一体化平台、具身智能、智传网等一系列创新技术、产品及科研成果，并发布开发者产业联盟计划。

12/4/2024 4:24:11 PM

汪淼

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

视频生成

轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

xAI收购AI视频生成初创公司Hotshot，加强与OpenAI Sora竞争

千帧长视频时代到来！MIT全新扩散算法让任意模型突破时长极限

​谷歌AI视频生成模型Veo 2使用成本曝光：一分钟视频要30美元

Gemini 或将支持视频生成?Google 应用代码泄露玄机

港大字节最新视频生成模型刷屏！网友直接RIP市场营销，Sora也不香了

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技，双人舞也能完美同步

可灵视频生成可控性为什么这么好？快手又公开了四篇研究

快手可灵凭什么频繁刷屏？揭秘背后三项重要研究

Open-Sora：让所有人都能轻松制作高效视频，可生成16秒720P视频，模型代码全开源！

MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

OpenAI被偷家，谷歌Veo 2反超Sora

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

二次元狂喜！海螺发布2D动画专用视频生成模型，日漫迪士尼插画风都支持

中国电信发布首个央企全自研视频生成大模型，与华为、中兴等成立 AI 联盟

谷歌AI视频生成模型Veo 2使用成本曝光：一分钟视频要30美元