大模型的下一站,AI 视频生成的技术突破与未来

站在年末的时间点上,我们明显可以感知到,2023 年是当之无愧的大模型元年,从文本大模型 ChatGPT,到图片生成模型 Stable Diffusion 和 Midjourney,技术的发展日新月异,大模型正在改变着行业格局。与此同时,文本生成和图片生成似乎已经不足以满足算法科学家和工程师们的野心。近几个月来,视频生成和视频编辑领域的新星频繁登上各大媒体头条。Runway 发布了 Gen-2,可以快速生成高质量的短视频;Stability AI 开源了文生视频的扩散模型 Stable Video Diffusio

站在年末的时间点上,我们明显可以感知到,2023 年是当之无愧的大模型元年,从文本大模型 ChatGPT,到图片生成模型 Stable Diffusion 和 Midjourney,技术的发展日新月异,大模型正在改变着行业格局。

与此同时,文本生成和图片生成似乎已经不足以满足算法科学家和工程师们的野心。

近几个月来,视频生成和视频编辑领域的新星频繁登上各大媒体头条。

Runway 发布了 Gen-2,可以快速生成高质量的短视频;Stability AI 开源了文生视频的扩散模型 Stable Video Diffusion;Meta 发布了 Emu Video。每一次发布都带来了明显的技术更新。

大模型的下一站,AI 视频生成的技术突破与未来

图 1  Emu Video 文本到视频生成过程

受到更多关注的,还有 Pika Labs 最新发布的 Pika 1.0,尽管内测申请还在排队中,但从官方的演示视频来看,似乎文生视频已经开始在新的层级上竞争了。

大模型的下一站,AI 视频生成的技术突破与未来

图 2  Pika 官网上 Pika 1.0 演示视频

Google 最近发布的 Gemini 多模态大模型,尽管颇受争议,但是从陆续拿到公测名额的用户分享中,也明显感觉到技术之争的格局已然翻天覆地。

与此同时,国内在 AI 领域大力投入的科研机构和大厂也纷纷发布视频生成、视频编辑等模型和工具。

清华人工智能研究院、复旦大学、智源研究院、阿里达摩院、字节跳动、百度等机构都已经大力布局视频领域,一众视频生成模型、工具和多模态大模型呈现出百花齐放、百家争鸣之势。

如果要预测 2024 年人工智能领域的热点,那么文生视频、图生视频等多模态大模型相关的视频生成能力必然在榜。

AI 视频生成的 iPhone 时刻到底在哪里?它已经出现了?还是会在即将到来的 2024 年呢?

可以坚信的是,视频生成领域的未来不可低估,值得想象!

视频生成前沿研究与应用

人工智能领域发展的当下,前沿技术已经来到了视频生成领域。

就当下的技术发展而言,视频生成相较图像生成来说有更多挑战:视频的流畅性、动作的准确性,更大的 GPU 内存,更多的逻辑问题,逐帧生成还是一起生成的生成方式 ……

在看得见的未来,上面的问题都将找到答案。

而身处当下的我们,更快地跟上技术发展的脚步、先人一步了解和学习视频生成领域尤为重要!

大模型的下一站,AI 视频生成的技术突破与未来

为了助力广大企业和技术从业者紧跟视频生成技术的发展潮流,全面了解文生视频、图生视频、多模态大模型等前沿技术,机器之心专门策划了以「视频生成前沿研究与应用」为主题的 AI 技术论坛。

论坛将于 2024.01.20 在北京市朝阳区举办,现场汇聚领域内专家和一线开发者,期待能为视频生成领域呈现一场高质量、高水平的线下交流活动。

机器之心在此诚邀你共赴这场知识与创新的盛宴,一同推动视频生成技术的发展和应用!

大模型的下一站,AI 视频生成的技术突破与未来

为什么值得参加?

汇聚高校教授及产业界重磅技术专家,掌握最新技术,拓宽技术视野

和技术大牛面对面交流,会后深度链接

覆盖核心技术拆解、明星产品最佳实践、技术未来探讨及展望

加入视频生成高质量技术交流社群,及时跟进行业前沿技术与资讯

全流程助力学习:会前会后学习资料大礼包

机器之心旗下相关付费活动享购票八五折优惠

现在报名可享「75 折早鸟福利」

「视频生成前沿研究与应用」机器之心 AI 技术论坛报名通道正式开启,扫描图中二维码可直达活动页面。

大模型的下一站,AI 视频生成的技术突破与未来

即日起至12月31日23:55时,购票参会即可享受 299 元早鸟特惠门票价格(原价 399 元)。

机器之心 AI 技术论坛前两期的参会者,请单独添加小助手 Alice(15650753618)的微信,直达专属优惠链接。

技术交流社群

为了方便技术交流,我们也特意建立了视频生成技术交流群,欢迎关心视频生成和多模态大模型的技术从业者扫码加入对话,深入交流技术细节和行业观察。

大模型的下一站,AI 视频生成的技术突破与未来

关于本次活动商务合作、团购、发票、内容等相关问题,欢迎添加本场活动小助手 Alice 或通过邮件进行咨询。(微信 15650753618,邮箱 [email protected]

相关资讯

一句话秒出4K高清大片,视频生成Gen-2重磅更新又炸了

机器之能报道编辑:咚咚锵难以置信的高清、流畅、稳定,视频效果震撼人心。「我坚信 2023 年会是属于视频生成模型的一年。」总部位于纽约的当红生成式 AI 视频初创公司 Runway CEO 预测。今天,这家喜欢创造不可能的公司再次应验这一预言——Runway 当家 AI 视频生成工具 Gen-2 迎来重大更新,结果又是一个王炸!现在,你仅需一句简单输入,即刻获得高达 4K 水平的高保真视频。效果有多惊艳?官方视频为证,先睹为快。Gen-2史诗级更新目前 AI 生成的视频存在两个主要的问题:首先,单帧并不完全逼真;其

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

蒙娜丽莎打哈欠,小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。VideoPoet 既可以文生视频、图像生视频,又能风格迁移,视频转语音。从效果上看,它可以构建多样化且流畅的运动。消息一出,有很多人表示欢迎:看看目前的几个成品效果不错,大模型技术发展的速度也太快了。有人对于

只需一张图片、一句动作指令,Animate124轻松生成3D视频

Animate124,轻松将单张图片变成 3D 视频。近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合多种控制信号。与此相较,3D 动态场景生成仍处于起步阶段。2023 年初,Meta 推出了 MAV3D,标志着首次尝试基于文本生成 3D 视频。然而,受限于开源视频生成模型的缺乏,这一领域的进展相对缓慢。然而,现