Video

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理 10 分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型 Video-XL。

10/28/2024 4:29:25 PM

汪淼

Adobe 推出全新 AI 视频生成器 Firefly Video Model，完全使用授权内容进行训练

Adobe 公司今日发布了全新的人工智能驱动的文本转视频工具 Firefly Video Model。该工具能够根据文本提示生成全新的视频，与竞争对手不同，Adobe 声称 Firefly Video Model 完全使用授权内容进行训练，有望规避其他生成式 AI 工具所面临的伦理和版权问题。AI在线注意到，由于其使用授权内容进行训练，Adobe 称 Firefly Video Model 是“第一个公开可用的商业安全视频模型”。

10/15/2024 7:14:23 AM

远洋

Meta 推出革命性 AI 视频工具，让广告创意焕然一新

感谢科技媒体 The Verge 于 10 月 8 日发布博文，报道称 Meta 公司在 Advertising Week 活动中，推出了 Image Animation 和 Video Expansion 两款 AI 工具。Image Animation根据 Meta 公司分享的最新动图，用户可以选择一张静态照片，无需在 Instagram Reels 上使用任何现有的视频素材，就能生成创意视频。早期广告客户的反馈积极，图像动画帮助他们克服了资源有限的问题，并为广告创意提供了更长的使用寿命。Video Expan

10/10/2024 9:51:47 AM

故渊

谷歌 DeepMind 新研究：利用 AI 模型为无声视频配音

据谷歌 DeepMind 新闻稿，DeepMind 近日公布了一项利用 AI 为无声视频生成背景音乐的“video-to-audio”技术。IT之家获悉，当前 DeepMind 这款 AI 模型依然存在局限性，需要开发者使用提示词为模型预先“介绍”视频可能的声音，暂时不能直接根据视频画面添加具体音效。据悉，该模型首先会将用户输入的视频进行拆解，此后结合用户的用户文字提示，利用扩散模型反复运算，最终以生成与视频画面协调的背景声音，例如输入一条“在黑暗中行走”的无声视频，再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步

6/18/2024 10:23:41 PM

漾仔

可从单张图像创建多视图 3D 视频，Stability AI 发布 Stable Video 3D 模型

Stability AI 近日发布了 Stable Video 3D 模型，该模型可从单张图像创建多视图 3D 视频。▲ 图源 Stability AI，下同Stable Video 3D 包含两个变体，其中 SV3D_u 能基于单个图像输入生成轨道视频，无需相机调节；而 SV3D_p 扩展了 SVD3_u 的功能，其可容纳轨道视图，允许沿着指定的摄像机路径创建 3D 视频。相较之前的 Stable Zero123 模型或开源替代品 Zero123-XL，Stable Video 3D 在质量上有明显提高，并具有更

3/21/2024 10:53:01 AM

溯波（实习）

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型