最新测评!美图大模型提前揭秘,这波风格化美到窒息

AI好好用报道编辑:杨文支持1分钟、1080P分辨率的超长视频生成。国产视频大模型再次卷出「新高度」。 前脚快手可灵升级完 1.5 模型,后脚字节就正式进军视频生成。 几乎同一时间,美图公司也突然宣布,自家的奇想大模型(MiracleVision)视频生成能力已完成全面升级。具体而言,它不仅单次文生视频时长、单次图生视频时长均达 5 秒,还支持 1 分钟、帧率 24FPS、分辨率 1080P 的超长视频生成。 而更让人惊喜的,则是它超强的风格化。 比如,写实风格的熊猫,坐在墙根上弹着吉他:视频链接:,戴着墨镜,边走

AI好好用报道

编辑:杨文

支持1分钟、1080P分辨率的超长视频生成。

国产视频大模型再次卷出「新高度」。 

前脚快手可灵升级完 1.5 模型,后脚字节就正式进军视频生成。 

几乎同一时间,美图公司也突然宣布,自家的奇想大模型(MiracleVision)视频生成能力已完成全面升级。

具体而言,它不仅单次文生视频时长、单次图生视频时长均达 5 秒,还支持 1 分钟、帧率 24FPS、分辨率 1080P 的超长视频生成。 

而更让人惊喜的,则是它超强的风格化。 

比如,写实风格的熊猫,坐在墙根上弹着吉他:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

动画风格的酷女孩,戴着墨镜,边走边喝咖啡:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

卡通风格的大黑牛骑着心爱的小摩托狂飙:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

毛毡风格的农夫和小兔:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

在海里潜水的呆萌小企鹅:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

还有最惊艳的中国风。一位古风美女,忽闪着俩大眼睛,眉一挑,手一摊,脸上露出骄傲不屑的神情。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

目前,美图奇想大模型全新视频生成能力已在MOKI上线,后续将逐步覆盖到美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE等产品。

接下来,我们将从写实、动画、国风、风格化、人像等维度,对它来一个全方位的测评。

写实风格:重现真实物理规律

AI 生成写实视频时,经常会遇到肢体变形、动作卡顿等问题,而美图的奇想大模型在复杂 3D 时空精准重构基础上,视频生成能够重现真实物理规律,支持大幅度流畅运动。

例如,这段 Sora 的经典 Prompt,就是对大幅度流畅运动的考验:

一辆白色的越野 SUV,疾驰在蜿蜒的崎岖山路上,周围是郁郁葱葱的灌木丛。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

奇想大模型不仅完美遵循文字指令,还体现出诸多小细节:通过车后泛起的尘土体现越野车的速度,逆光拍摄时画面出现的光斑等。

再比如,Prompt:稳定拍摄的运动镜头,在户外的一只棕色皮毛的小松鼠,从画面的右边一路向右边跳跃,动作敏捷。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

这只身手矫健的松鼠,前肢抬起,后肢发力,腾空跳跃,四只爪子配合协调,尾巴随之摇晃,触碰到的树叶也会弹动。

倒牛奶是一个包含复杂物理交互和视觉细节的场景。

我们输入 Prompt:一只手平稳地将银色水罐中的牛奶倒入透明高脚杯中。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

奇想大模型正确模拟了牛奶从容器中倒出、流动和最终落入杯中的过程。动作在时间上保持连贯,牛奶的流动没有出现突然的中断或不自然的加速,并且正确模拟出液面的上升和下降。

再来看看这段玫瑰花蕾盛开的延时摄影。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

花朵开放有一定生物学规律,并且需要理解和表现出延时摄影被压缩的时间感。奇想大模型生成的视频,不仅真实,还捕捉到动态的花瓣伸展的细节。

下面这段万马奔腾的航拍镜头也相当震撼。

Prompt:航拍镜头,从空中俯瞰到一群活力四射的骏马在一片辽阔的大地上飞驰而过,鬃毛和马尾随风飘扬。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

近 20 匹毛色各异的骏马,驰骋在一望无际的草原上,它们四蹄翻飞,鬃毛和尾巴随风飘扬,还展现出优美的肌肉线条。

即使是多主体、大幅度运动,奇想模型生成的画面仍表现稳定,几乎无虚化扭曲。

我们继续输入 Prompt: 一只戴着红项圈的橙色虎斑猫坐在床上,正看着熟睡在蓝白条纹羽绒被下的女生。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

奇想大模型生成的画质清晰,猫咪毛发透着光泽,胡须根根分明,女主人手指也没有明显的 bug,甚至它还生成了人物由于侧躺产生的脖颈上的皱纹。

随着镜头缓慢推进,猫咪转过脑袋,项圈上的金属环也随之摆动,其动作自然连贯。

除了运动流畅外,奇想大模型还能进行复杂的语义理解。

比如 Prompt:静态广角镜头,在一个日常生活的家中,一只棕色的小狗坐在扫地机器人上随着它移动,在家中打扫卫生。

在这段文字指令中,既有镜头的要求,还有主体、动作以及场景的限制。奇想大模型均 get 到了。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

在这个低机位广角镜头中,一只小狗坐在工作着的扫地机器人上,左瞅瞅右看看。

镜头随着扫地机器人的运行轨迹而移动,扫摄到房间里的沙发腿、略显杂乱的飘窗等,要不是画面开始右上角人物的脚有些别扭,真以为是实拍。

不得不说,奇想大模型对于动物的神态和动作,捕捉得也相当到位。

这只变色龙的特写镜头中,其眼珠转动,嘴巴微张,以此来体现其警惕的神态,而且变色龙颗粒状、粗糙的皮肤也生成得很逼真。

最新测评!美图大模型提前揭秘,这波风格化美到窒息(Prompt:特写镜头,一只身上有绿棕色条纹的变色龙栖息在一根树枝上,它的目光充满警觉性,盯着镜头。)

梅花鹿竖起的耳朵,然后突然转身离开的神态,简直复刻出真实小鹿的反应。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

(Prompt:寒冷的冬天,一只鹿站在结霜的田野里,远处有蓝天、枯树和山脉,四周很宁静,鹿的皮毛上沾满了雪,它竖起了耳朵警觉地凝视前方,接着转身向田野远方走去。)

动画风格:拥有超强艺术审美

众所周知,制作一部精美的动画,那是相当费时费力,即使是宫崎骏这样的大师,也不例外。

《你想活出怎样的人生》耗费 7 年之久,《起风了》打磨了 2 年,仅关东大地震的 4 秒镜头,宫崎骏就「死磕」了 1 年零 3 个月。

不过有了 AI,大部分的「体力活」都可以被自动化。

就拿奇想大模型来说,曾经一个团队需要吭哧吭哧干几个月的活儿,现如今,只需上传一张图片,或者输入一段提示词,它几分钟就搞定。

例如,我们输入提示词:动画风格,一个小男孩和一个小女孩正坐在树下吃西瓜。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

奇想大模型生成的视频中,两个小孩眨着大眼睛,脸上带着天真无邪的笑容。

他们捧着半拉西瓜,红色的果肉在阳光下显得格外诱人,还有西瓜籽点缀其间。画风温馨治愈,极具美感。

再如,手拿面包的小女孩,竟有了一种宫崎骏的感觉。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

小女孩拿起一块面包,然后将其丢到另一只手上,虽然动作幅度较大,但画面并没有崩坏。

我们还上传了一张图片,并输入提示词:公交车在乡间小路上行驶。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

随着公交车的前行,镜头开始轻微晃动,模拟着跟拍的效果。

为了营造出乡间小路的坑坑洼洼,奇想大模型还让公交车呈现出颠簸的效果。

还有火车在白雪皑皑的林海中穿行:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

一艘小船驶向岸边:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

小狗在家门口「汪汪」直叫,然后撒腿就跑:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

国风:最懂「中国味」

要说奇想大模型最拿手的,非国风莫属。

先给大家看两组镜头:

最新测评!美图大模型提前揭秘,这波风格化美到窒息

最新测评!美图大模型提前揭秘,这波风格化美到窒息

(动图来自《白蛇・缘起》)

猜猜哪个是奇想大模型生成的?答案是:第一个。

要想有地道的「中国味」,AI 需要理解中国传统文化的元素和美学。

奇想大模型生成的国风动画中,女孩身着中国传统服饰、梳着结鬟式发髻,身后古朴的木屋也有着中国独特的韵味。

同时,它对于细节的处理也相当精细,人物表情灵动,服饰纹理细腻,甚至还能模拟出光照和色彩的自然过渡。

而在国风人物群像中,奇想大模型表现也很出彩。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

主角表情变化自然,先是表情严肃,微微转动眼珠,继而嘴角挤出一抹神似华妃的「皮笑肉不笑」,肢体动作也很流畅。

身后的配角们模样各异,虽无较大动作,但眨巴着眼睛,也相当逼真。

此外,奇想大模型还可以生成水墨动画。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

画面中,山间云雾缭绕,瀑布从山崖飞流直下,清流激湍,身穿飘逸长袍的侠客站在岩石上潇洒转身,动作丝毫不僵硬。

风格化:追求极致细节

凭借在影像领域的长期深耕,美图在风格化方面有着得天独厚的优势,实现了在艺术风格、细腻画风、细节把控之间的高度平衡,具备强大的风格泛化力与兼具艺术审美的视觉表现力。

比如毛毡风格,丧眉耷眼的小浣熊,摇头晃脑地自说自话,背景自然虚化,但隐约能看到满树桃花随风晃动。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

要知道,不少 AI 视频模型在模拟毛毡的视觉效果时,对于纹理和光影效果的处理稍显欠缺,而奇想大模型生成的视频,画质清晰稳定,毛绒感细腻。

即使画面出现多个主体,也能实现风格的整体统一,哈巴狗和后面的小动物们,反应各异,但动态效果流畅连贯,并未出现视觉上的跳跃感。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

再来个粘土风格。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

视频链接:https://mp.weixin.qq.com/s/rxO6Sz7jlafWGUReYFBp8g

晃晃悠悠的镜头中,胡子拉碴的大叔独自坐在小屋里弹吉他。

衣服的褶皱,屋顶垂下来的电灯,墙上挂的画框和杂物,以及窗台上的绿植,都生成得极具美感,尤其是那把吉他,非常逼真。

不过,唯一美中不足的,就是拨弦时手部稍显扭曲。

人像风格:极具电影质感

美图的奇想大模型还能根据文本或图像,生成逼真的人像视频,这为影视制作、广告创意、时尚行业以及多媒体艺术创作打开了一扇新的大门。

在奇想大模型生成的正面人像视频中,戴着牛仔帽的两个男子坐在车里盯着镜头,身体随着汽车的颠簸而晃动。

车窗外,景色不断变换,行道树向后退去,整个镜头很有电影感。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

梦幻般的森林中,一道道柔和的光线从树缝中洒下,俊男美女站在光束下深情拥抱,周围落叶纷飞。

整个场景如同一幅精美的油画,光影、色彩、动静结合得恰到好处,很是唯美。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

为了在视频生成领域一鸣惊人,美图公司一直在悄悄努力。

去年 6 月,美图奇想大模型上线,经过一年时间的迭代,目前已更新至 V5 版本,并升级为 Diffusion 与 Transformer 模型结合的全新技术路线,采用 DiT 视频生成架构。

在新的技术路线下,相较业界先头兵,美图奇想大模型选择优先攻克更具挑战性的问题。

此次升级,该模型在技术层面上解决了主体一致性、运动连贯性、物理逻辑合理性等视频生成能力落地的核心问题,并逐步嵌入多款产品中。

最新测评!美图大模型提前揭秘,这波风格化美到窒息

看完以上这 5 大维度、30 段绝美实测视频,大家觉得美图奇想大模型实力咋样?评论区畅所欲言吧。

给TA打赏
共{{data.count}}人
人已打赏
应用

中国移动“算网大脑”规模商用,推动算力像水电一样即取即用

2024-9-29 13:38:07

应用

AMD 推出自家首款小语言 AI 模型“Llama-135m ”,主打“推测解码”能力可减少 RAM 占用

2024-9-29 17:08:32

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索