文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

“发光的水母从海洋中慢慢升起,”在 Morph Studio 中继续输出想看到的景象,“在夜空中变成闪闪发光的星座”。  几分钟后,Morph Studio 生成一个短视频。一只水母通体透明,闪闪发光,一边旋转着一边上升,摇曳的身姿与夜空繁星相映成趣luminescent jellyfish ascend from a mystical ocean, transforming into sparkling constellations in the night sky输出“ joker cinematic ”,曾经

“发光的水母从海洋中慢慢升起,”在 Morph Studio 中继续输出想看到的景象,“在夜空中变成闪闪发光的星座”。  

几分钟后,Morph Studio 生成一个短视频。一只水母通体透明,闪闪发光,一边旋转着一边上升,摇曳的身姿与夜空繁星相映成趣文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

luminescent jellyfish ascend from a mystical ocean, transforming into sparkling constellations in the night sky

输出“ joker cinematic ”,曾经席卷全球的那张脸又回来了。文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

joker cinematic Hyper realistic Joaquin Phoenix as Joker cinematic shot smoke. in the city street of new york neon

近期,专注于 text-to-video 生成技巧与社区的首创公司 Morph Studio 对模型进行了一次重要革新。这些视频正是模型革新后的作品,画面清晰,细节生动。  

Morph Studio 是世界第一个推出公众可随意测试 text-to-video 产品的团队,比 Runway 开放 Gen2 公测的时间还早。  

和一些炙手可热的 text-to-video 产品仅提供 720P 的收费服务不同,Morph Studio 从一开始就提供默认 1080P 以及最长 7 秒生成时间的收费服务。更高分辨率、更长生成时长、更好的意图表达是我们认为 text-to-video 的三个最关键的指标,三个指标上 Morph 都做到了行业 SOTA 。 

好莱坞电影单镜头平均时长有 6 秒,将生成时长拉到 7 秒可以解锁更多用户的创作需求。 

体会 Morph Studio 的模型很简单,注册 discord 即可收费使用。

文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

画面红色方框部分中带有“pro”字样的模型就是革新后的模型,也是本文体会的对象。 

摄像机运动是视频制作的基础语言,也是一种强大的叙述手段。Morph 提供几种常规的摄像机语言,包括变焦、平移(上、下、左、右)、旋转(顺时针或逆时针)和静态镜头。  

Morph 还提供控制视频运动的 MOTION 功能(1-10)。数值越大举措越剧烈、夸张,设置的数值越小,举措越微妙、平滑。 

帧率(FPS)提供从8 -30 的调整幅度,值越高,视频越流畅,尺寸也越大。例如,-FPS 30 将生成最流畅但也是最大的视频。默认情况下,所有视频均以每秒 24 帧的速度创建。  

视频长度默认为 3 秒,生成 7 秒视频,可以在命令中输出 -s 7。另外,模型还提供 5 种视频比例供选择。 

如果你对镜头、帧率和视频长度等细节有要求,请在输出内容性提示后继续输出相应参数。(目前仅支持英文输出。)  

我们体会了一把革新后的模型服务,强烈感受到 1080P 带来的视觉震撼。 

直到最近,人类才有了第一张雪豹在星空下漫步的照片:  

文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费人类拍摄到的第一张雪豹在星空下漫步的照片 。

我们想知道,Morph Studio 的模型能不能生成这种比较罕见的动物视频呢?

同样的 prompt ,我们将 Morph Studio 的作品放在了视频上部分,将用 Pika 生成的作品放在视频下部分。文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

a snow leopard walking under a starry night,cinematic realistic, super detail,-motion 10,-ar 16:9,-zoom in,-pan up,-fps 30,-s 7. negative: Extra limbs,Missing arms and legs,fused fingers and legs,extra fingers,disfigure

Morph Studio 的答卷,文本懂得准确。1080P 画面中,雪豹毛发细节丰富,栩栩如生。背景中可以看到银河和星星。不过雪豹走动幅度不明显。  

Pika 的作业中,雪豹确实在步行,但夜空似乎被懂得成飘着鹅毛大雪的夜。无论是雪豹风格还是细节,还有画面清晰度都还有差距。

再看看人物生成的效果。文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

masterpiece best quality ultra detailed RAW video 1girl solo dancing digital painting beautiful cyborg girl age 21 long wavy red hair blue eyes delicate pale white skin perfect body singing in the eerie light of dawn in a post-apocalyp

Morph Studio 生成的作品中,高分辨率带来极为细腻的面部轮廓和微表情,黎明光照下,发丝细节清晰可见。

受制于分辨率和色彩、光线条理的缺乏,Pika 生成的画面整体偏青,人物面部细节也不太尽如人意。

人物、动物都感受过了,再来看看建筑(人造物)的生成效果。文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

La torre eifel starry night van gogh epic stylish fine art complex deep colours flowing fky moving clouds

和 Pika 作品更偏绘画质感的画面相比,Morph Studio 的作品比较好地平衡了梵高元素和现实元素,光线条理非常丰富,特别是云海的流动细节,Pika 作品里的天空几乎是静止的。

最后,体会一下自然风景创作。文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

One early morning the sun slowly rose from the sea level and the waves gently touched the beach.

你可能会怀疑 Morph Studio 的作品是不是人类摄影师在自然条件下的真实拍摄。

Pika 生成的视频因为缺乏细腻的光影条理,海浪、沙滩显得平板一块,海浪拍打沙滩的举措比较呆板。

除了高分辨率带来的震撼体会,同样的 prompt 生成视频(比如动物、建筑、人物和自然风景主题),对手多少会在某些生成任务中“失手”,Morph Studio 的发挥相对更稳定一些,corner case 相对少一些,能更准确预测用户意图。

从一开始,这家首创公司对文生视频的懂得就是,视频要能非常精准地描述用户输出,所有优化工作也是朝着这个方向在走。Morph Studio 的模型结构对文字意图懂得比较深刻,这次革新做了一些结构上的改变,还特地对一些数据做了更详尽的标注。 

除了比较好的文本懂得能力,画面的细节处理并未被高分辨率输出难倒。 事实上,模型革新后,画面举措内容更丰富,这也反应在我们用 Morph Studio 生成的作品中。文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

“带珍珠耳环的女孩”头部举措时,耳环也在微微晃动;涉及骑马之类比较复杂举措的画面也更流畅连贯和有逻辑,手部举措的输出也不错。

1080P 意味着模型要处理更多的像素,给细节生成带来更大的挑战,但从结果看,画面不但没有拉垮掉,反而因为丰富的条理细节而更有表现力。

这是我们用模型生成的一组自然景观,既有壮观的巨浪和火山喷发,也有花朵的细腻特写。文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

高分辨率输出给用户带来更好的视觉享受,但也拉长了模型输出的时间,影响到体会。  

Morph Studio 现在生成速度为 3 分半生成 1080p 视频,和 Pika 生成 720P 的视频速度一样。 首创公司算力资源有限,Morph Studio 一直保持 SOTA,实属不易。 

另外,视频风格上,除了电影写实,Morph Studio 模型也支持漫画、3D 动画等常见风格。文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

Morph Studio  专注的 text-to-video 技巧,被视为 AI 行业竞赛的下一个阶段。 

“即时视频可能代表 AI 技巧的下一次飞跃,”《纽约时报》在一篇科技报道的标题中称,并认为它将与网络浏览器、iPhone 一样重要。  

2022 年 9 月,Meta 的机器学习工程师团队推出了一款名为 Make-A-Video 的新系统,用户输出对场景的粗略描述,系统就会生成一个对应的短视频。  

2022 年 11 月,清华大学和北京人工智能研究院( BAAI )的研究人员也发布了 CogVideo。  

当时,这些模型生成的视频,除了模糊(比如 CogVideo 生成的视频分辨率只有 480 x 480 ),画面也比较失真,还存在许多技巧限制。但它们仍然代表了 AI 内容生成领域的重大发展。 

表面上看,视频只是一连串的帧(静止的图象)以一种给人运动错觉的方式组合在一起。然而,保证一系列图象在时间、空间上的一致性,难度要大得多。  

分散模型的出现加速了技巧的进化。研究人员尝试将分散模型推广到其他领域(如音频、3D 和视频),视频合成技巧取得显著进步。  

基于分散模型的技巧主要是让神经网络通过梳理数海量规模的图象、视频和文字说明,自动学习一些模式。当你输出内容需求时,这个神经网络会生成一个列表,囊括所有它认为创建图象可能用到的特征(比如猫耳朵的轮廓、手机的边缘)。  

然后,第二个神经网络(也就是分散模型)负责创建图象并生成这些特征所需要的像素,并将像素转换为连贯的图象。  

通过分析数以千计的视频,AI 可以学会以类似的连贯方式将许多静止图象串在一起。关键在于要训练一个能真正懂得每一帧之间关系和一致性的模型。  

“这是我们在过去一百年中建立的最令人印象深刻的技巧之一,” Runway CEO Cristóbal Valenzuela 曾对媒体表示,“你需要让人们真正使用它。”  

2023 年被一些业内人士视为视频合成的突破之年。1 月还不见公开的  text-to-video 模型,一年行将结束之际已经有几十个类似产品和数百万用户。  

文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还收费

a16z合伙人Justine Moore在社交平台上分享的文生视频模型的时间轴,我们可以从中看到除了大厂还有很多创业公司,另外,技巧迭代的速度非常快。  

目前的 AI 文生视频,并没有形成类似 LLM 统一明确的技巧范式,关于怎样生成稳定的视频,业界还处于探索阶段。但研究人员相信,当用越来越多的数据训练他们的系统时,这些缺陷都能消除。最终,这项技巧会使创建视频像写句子一样简单。  

国内一位资深的 AI 行业投资人告诉我们,文生视频技巧的几篇最重要的论文都是 2022 年 7-8 月出来的,类比文生图的产业化进程,这项技巧临近产业化的节点会出现在一年后,也就是 2023 年 7-8 月。  

整个视频技巧的发展特别快,技巧越来越成熟,这位投资人士说,根据之前在 GAN 领域的投资经验,他们预测未来半年到 1 年会是 text-to-video 技巧的产品化时期。 

Morph 团队汇集了视频生成领域最优秀的年轻研究者们,经过过去一年日以继夜地密集研发,创始人徐怀哲与联合创始人李峰、殷子欣、赵世豪、刘少腾等核心技巧骨干一起,攻克了 AI 视频生成难题。 

除了技巧团队外,Morph Studio 最近也加强了其产品团队的实力,猫眼电影签约制作人、上海国际电影节评委,前硅谷头部 AIGC 公司核心成员海辛也于近期加入 Morph Studio。

海辛表示,Morph Studio 在技巧研究上在整个行业里都占据着领先的位置;团队扁平、沟通效率和执行力都特别高;每位成员都对行业充满热情。她最大的梦想曾是加入一个动画公司。AI 时代来临后,她很快意识到,未来的动画行业将会发生变革,过去数十年动画底座是 3D 引擎,很快将迎来全新的 AI 引擎时代。未来的皮克斯会在一家 AI 公司中诞生。而 Morph 就是她的选择。 

创始人徐怀哲表示,Morph 正在积极布局 AI 视频赛道,我们立志于做 AI 视频时代的 Super App,为用户实现梦境。

2024 年,这个赛道会迎来自己的 Midjourney 时刻,他补充说。 

PS: 体会原汁原味的收费1080P视频生成乐趣,请移步至:

https://discord.com/invite/VVqS8QnBkA

给TA打赏
共{{data.count}}人
人已打赏
应用

AI大模型首次牵手人民级综艺,昆仑万维天工AI联合《最强大脑》加速大模型落地

2024-1-8 10:57:00

应用

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

2024-1-8 11:21:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索