港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

刚刚,港大字节联手发布最新视频生成模型,让歪果网友直呼疯狂。 有人甚至直接RIP市场营销、TikTok用户和YouTube创作者。 你敢信,下面这一幕不是来自欧巴电视剧,而是AI生成的!

刚刚,港大字节联手发布最新视频生成模型,让歪果网友直呼疯狂。

有人甚至直接RIP市场营销、TikTok用户和YouTube创作者。

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

你敢信,下面这一幕不是来自欧巴电视剧,而是AI生成的!

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

造出它的新模型名为Goku(悟空),是一系列基于rectified flow Transformer的模型,专为图像和视频联合生成而设计,支持文生视频、图生视频、文生图。

另外还有Goku+,是视频广告基础模型,官方更是直言“它能以比原来低100倍的成本创建广告视频”。

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

Goku生成商品广告手拿把掐,无论是展示食物还是化妆品都很逼真自然,人物神情也很难看出破绽:

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

以下生成的吃播视频更是让人分不出真假:

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

再拿出一张白底的皮鞋照片,毫不费力就能将其搬到展台上展示:

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

甚至能仅凭一张商品图+文字prompt,就生成带人物的交互讲解视频。

prompt:

The woman stands behind a colorful Minnie Mouse product, her head gently swaying left and right as she speaks animatedly. Her hands rest on the table, framing the product, while her mouth opens and closes with noticeable emphasis, conveying her enthusiasm and detailed explanation. The camera remains steady, capturing her expressive gestures and the vibrant design of the product in front of her.(女士站在一个色彩缤纷的米妮老鼠产品后面,她的头部轻轻地左右摆动,边说边展现生动的表情。她的手搭在桌子上,框住了产品,同时她的嘴巴张开合上,明显强调着,传达出她的热情和详尽的解释。摄像机保持稳定,捕捉到她富有表现力的手势和她面前产品的鲜艳设计。)

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

各种场面都能hold住,时装秀也不在话下:

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

在定性和定量评估中,Goku文本到图像生成GenEval得分0.76和DPG-Bench得分83.65;文本到视频生成VBench得分84.85,一举拿下新SOTA

网友们这下都坐不住了,纷纷称Goku和Goku+是颠覆性的。

将AI视频推向下一个level!

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

手里的Sora真真儿不香了。

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

基于流的视频生成基础模型

论文介绍,Goku是基于流的视频生成基础模型。

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

具体来说,Goku采用了校正流(Rectified Flow)Transformer实现图像和视频的联合生成。

其核心组件包括,图像-视频联合VAE、Transformer架构和校正流公式——

先用图像-视频联合VAE将图像和视频压缩到共享的潜在空间,再用全注意力Transformer对潜在表示进行建模,实现图像和视频的统一生成。

校正流公式基于RF(rectified flow)算法,将其应用于图像-视频联合生成,相比扩散模型展现出了更快的收敛速度和更强的理论性质。

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

训练方面,Goku采用了多阶段训练策略。

首先进行图文语义对齐预训练,再进行图像-视频联合训练,最后针对不同模态进行微调,逐步提升模型生成能力。

值得关注的是,为了训练Goku,研究人员还准备了大规模高质量数据集高效的训练基础设施

数据方面,研究人员构建了约3600万视频和1.6亿图像的大规模数据集,并采用多种数据过滤和增强技术来提高数据质量。

为此,他们提出了一个全面的数据处理流程,包括基于美学评分的视频和图像过滤、基于OCR的内容分析及主观评价。

他们还采用多模态大语言模型来为视频、图像数据生成信息密集且语境一致的标题,并用额外的大语言模型继续细化,以提高其准确性、流畅性和描述丰富性。

基础设施优化则包括并行策略、细粒度激活检查点技术、容错机制以及豆包大模型团队和港大之前联合提出的ByteCheckpoint技术——

与基线方法相比,ByteCheckpoint在Checkpoint保存上性能提升高达529.22倍,在加载上,性能提升高达3.51倍。

为适应不同计算需求和性能要求,研究团队提供了三种规模的模型:实验用的Goku-1B、标准版Goku-2B、Goku-8B。

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

不过遗憾的是,官方目前只放出了技术报告,暂时还不能玩,网友已经迫不及待了~

港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了

论文链接:https://arxiv.org/abs/2502.04896项目主页:https://saiyan-world.github.io/goku/

相关资讯

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。

人类模仿AI新赛道,AI:论疯癫,你是我爹

机器之能报道编辑:杨文AI被人类带坏!这个世界,太癫了……最近,社交媒体上冒出来一堆搞怪视频,打着 AI 的旗号,真人 cos AI,甚至抖音还专门出了个热门话题——人类模仿 AI 大赛。(视频来自抖音博主「关妮乱石」)视频链接::左边一张旧照片,右边打着「AI 修复」的字幕,实际由真人演绎着脑干缺失的狗血「剧情」。-1-AI:第一次被人冒充,没想到比我还抽象自从可灵、Luma 发布以来,全球网友组团整活,什么特朗普和拜登打啵,鳌拜和韦小宝秀恩爱,奥特曼和黄仁勋打起来……只有你想不到,没有 AI「祸害」不到。(查看

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

智谱大模型团队自研打造。自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。即日起,清影上线清言 App,所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App,你也可以在「AI 动态照片小程序」上进行操作,快速为手机里的照片实现