视频生成
轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动
轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。
3/27/2025 9:24:16 AM
量子位
清华大学开源 Video-T1:无需重新训练 AI视频秒变高清大片
近日,清华大学的研究团队开源了其最新的研究成果——Video-T1。 这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。 这一创新性的方法为视频生成领域带来了新的可能性。
3/26/2025 2:30:00 PM
AI在线
xAI收购AI视频生成初创公司Hotshot,加强与OpenAI Sora竞争
近日,埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot,这标志着马斯克在AI视频生成领域的重要布局。 Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X上正式宣布了这一消息。 Sastry在公告中表示:"过去2年中,我们作为一个小团队建立了3个视频基础模型——Hotshot-XL、Hotshot Act One和Hotshot。
3/18/2025 9:16:00 AM
AI在线
千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/26/2025 12:54:00 PM
机器之心
谷歌AI视频生成模型Veo 2使用成本曝光:一分钟视频要30美元
谷歌近日悄然公布了其视频生成 AI 模型 Veo2的定价信息,Veo2最早是在去年12月被披露的,这一新模型吸引了不少关注。 根据谷歌的定价页面,使用 Veo2的费用为每秒50美分,这样算下来,每分钟的视频费用为30美元,每小时的视频费用则高达1800美元。 谷歌 DeepMind 的研究员乔恩・巴伦(Jon Barron)对这一定价进行了有趣的比较,他提到了备受瞩目的漫威电影《复仇者联盟:终局之战》的制作预算,该预算高达3.56亿美元,折合每秒约32,000美元。
2/24/2025 9:04:00 AM
AI在线
Gemini 或将支持视频生成?Google 应用代码泄露玄机
据国外媒体Android Authority报道,谷歌正持续为其 AI 数字助理 Gemini 增加新功能。 继深度情境理解、文件处理优化以及跨应用链接等功能后,Google 应用程序中的代码表明 Gemini 很快就能生成视频。 Google 应用 v16.6.23版本代码中暗示了这一新功能。
2/19/2025 9:55:00 AM
AI在线
港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了
刚刚,港大字节联手发布最新视频生成模型,让歪果网友直呼疯狂。 有人甚至直接RIP市场营销、TikTok用户和YouTube创作者。 你敢信,下面这一幕不是来自欧巴电视剧,而是AI生成的!
2/11/2025 9:00:00 AM
量子位
Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步
针对视频生成中的运动一致性难题,Meta GenAI 团队提出了一个全新框架 VideoJAM。VideoJAM 基于主流的 DiT 路线,但和 Sora 等纯 DiT 模型相比,动态效果直接拉满。
2/10/2025 12:04:23 PM
汪淼
可灵视频生成可控性为什么这么好?快手又公开了四篇研究
可灵,视频生成领域的佼佼者,近来动作不断。 继发布可灵 1.6 后,又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏? 揭秘背后三项重要研究》。
1/22/2025 6:21:00 PM
机器之心
快手可灵凭什么频繁刷屏?揭秘背后三项重要研究
“可灵(KLING)”,近半年来频繁亮相于国内外各大科技媒体,已然成为科技感与创意的代名词,它代表了快手 AI 团队在视频生成领域的前沿探索。 作为全球首个可公开体验的真实影像级视频生成大模型,可灵于 2024 年 6 月 6 日正式发布并上线。 在短短半年多的时间里,可灵已完成了数十次功能与效果的升级迭代,始终稳居全球视频生成领域的第一梯队,持续引领着行业效果的提升。
1/15/2025 10:57:00 AM
机器之心
Open-Sora:让所有人都能轻松制作高效视频,可生成16秒720P视频,模型代码全开源!
Open-Sora是一项致力于高效制作高质量视频的计划。 目的是让所有人都能使用模型、工具和所有细节。 通过采用开源原则,Open-Sora 不仅使高级视频生成技术的使用变得民主化,而且还提供了一个简化且用户友好的平台,简化了视频生成的复杂性。
1/10/2025 9:40:00 AM
AIGC Studio
MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。
本文经AIGC Studio公众号授权转载,转载请联系出处。 MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。 使用 MinT 生成时间控制的多事件视频。
1/8/2025 8:48:57 AM
AIGC Studio
潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025
奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。 从开年到现在,国内外、初创独角兽到互联网大厂,都纷纷投入视频生成领域,带来一个个新鲜模型的同时,视频、影视行业也随之发生巨变。 不可否认,当下的视频生成模型还遇到诸多问题,比如对空间、对物理规律的理解,我们都期待着视频生成的GPT-3.5/4时刻到来。
1/2/2025 9:14:51 AM
量子位
北航&清华联合发力!Stag-1:视频生成模型实现超逼真的4D驾驶场景算法!
写在前面&笔者的个人理解近年来,随着自动驾驶在感知、预测和规划方面取得的重大进步,端到端算法网络也取得了重大进展。 随着现如今这些技术的飞速进步,自动驾驶汽车的全面测试和验证也变得越来越重要。 然而,真实世界的车辆测试仍然耗时、费用昂贵,并且场景的覆盖范围也非常有限。
12/19/2024 10:20:53 AM
自动驾驶之心
OpenAI被偷家,谷歌Veo 2反超Sora
视频生成领先 OpenAI 了? 今天是个好日子,至少谷歌这么想。 几个小时前,该公司一键三连,一口气发布了两款视觉生成模型和一个工具:Veo 2:视频生成模型,可使用文本或图像 prompt 生成高真实感、高质量的视频;Imagen 3:文生图模型,可更忠实地遵从提示词,实现更加丰富的细节和纹理渲染;Whisk:图生图工具,基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造,能让用户更加方便地调整图像的场景、风格和物体。
12/17/2024 8:49:00 PM
机器之心
细节表现超Sora,网友:真正的国产之光!MiniMax视频模型再上新
3 个月前,MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。 只用了 5 周时间,海螺 AI 的网页版访问量便增速超 800%,还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。 一时间,不少国内网友直呼其为“国产之光”。
12/16/2024 2:04:00 PM
郑佳美
二次元狂喜!海螺发布2D动画专用视频生成模型,日漫迪士尼插画风都支持
MinMax海螺AI新模型,让2D角色动起来了! 日漫、游戏、插画等各种风格的静态人物,都可以丝滑地转变成生动的2D风格视频。 量子位也马上上手实测了一波——首先请出今年的顶流悟空先生,输入下面的prompt(输入时是英文,此处意译):悟空在波涛汹涌的海面上准备战斗,金箍棒闪着金光,衣摆随风被吹动,气氛紧张来看看海螺的生成效果:不得不说,还真有大片里面战斗即将开场的即视感了!
12/9/2024 9:20:00 AM
量子位
中国电信发布首个央企全自研视频生成大模型,与华为、中兴等成立 AI 联盟
TeleAI 发布视频生成大模型、视觉大模型产用一体化平台、具身智能、智传网等一系列创新技术、产品及科研成果,并发布开发者产业联盟计划。
12/4/2024 4:24:11 PM
汪淼
资讯热榜
企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型
上海AI实验室开源InternVL3系列多模态大型语言模型
全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro
大模型部署工具 Ollama 使用指南:技巧与问题解决全攻略
50组多风格提示词,全面测评Midjourney V7生图效果!
Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o
斯坦福2025 AI指数出炉!中美AI对决差距仅剩0.3%,DeepSeek领衔
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
AI设计
Anthropic
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
模态
苹果
AI视频
驾驶
文本
搜索
xAI
人形机器人
Copilot
大语言模型
神器推荐
LLaMA
字节跳动
具身智能
Claude
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
架构