AI好好用报道
编辑:杨文
腾讯混元生成的AI电影镜头,让我想到《天使爱美丽》、《花样年华》。
从上周六开始,AI 视频圈又炸锅了。
先是 Runway 三天上新两次,Luma 全力狙击;紧接着 Sora 意外泄露三小时,网友们疯狂整活。
国内的 AI 厂商也没闲着。
最让人惊喜的是,腾讯混元å也下场搞视频生成模型了。
目前,该视频模型已经开启小范围内测。我们在第一时间拿到体验资格。
与其他视频生成模型类似,仅需输入一句提示词,腾讯混元就能生成一段 5 秒视频。
它支持中英文输入,还有 5 种画面尺寸可供选择。
先放几个视频给大家「尝尝鲜」:
繁华的巴黎,一个头戴棕色贝雷帽的男人正坐在咖啡馆里沉思。
一位年轻时髦的女人走向窗边,然后转身凝视旁边的男人,动作流畅自然。
两位小姐姐坐在街边相顾无言,镜头切换、人物神态简直和电影别无二致。
接下来,我们就全方位测评一番。
-1-
画质
不得不说,混元视频模型生成的画面太有电影感了。
提示词:一个电影般的背后跟随镜头,拍摄一名女警背对着我们穿过夜晚的事故现场。
画质高清稳定,人物动作流畅。四处停放的警车,闪烁的警灯,勘查现场的警察…… 好莱坞元素拉满。
提示词:一个电影般的背后跟随镜头,拍摄消防员背对着我们穿过熊熊烈火。
生成三个镜头,每个镜头都很有故事性。
混元很会控制景深。虚化的背景,让主体运动更加突出,火焰的光影在消防员身上舞动,形成一种强烈的视觉冲击。
再来个科幻风格的电影。
提示词:夜晚,一个机器人正行走在繁华的大街上,昏暗,近景镜头,科幻,生动,赛博朋克,高质量。
这个长得像擎天柱一样的机器人,漫步在人潮涌动的大街上,脑袋还时不时左右张望。
镜头随着机器人的移动而微微晃动,使得画面更具真实感。
提示词:一个男人坐在咖啡厅里喝咖啡,柔和,近景镜头,休闲,现代,电影风格,高质量。
视频中,男人从端起咖啡、抿了一口到缓缓放下杯子,整套动作一气呵成。
男人的眼神、表情也生成得很是逼真,手指也没出现明显的 bug。
-2-
镜头切换
混元最值得称道的,还是原生镜头切换效果。
它能够自动生成同一主体在不同视角下的镜头,并在视频中进行切换,以增强画面的叙事感。
要知道,在此之前,只有 Sora 具备这种镜头切换效果。
比如下面这个视频中,最初是个中景镜头,女人正手撑下巴思考,啪一下镜头转换成女人面部大特写,深邃眼眸、烈焰红唇,再接着,镜头又切换到城市街景。
(提示词:一个极端特写镜头,聚焦于一位时髦的美丽女性,她坐在咖啡馆里,深陷沉思,镜头切换到城市的街景,景深效果,电影般的 35 毫米胶片质感,光线非常具有电影感。)
再如,雨滴打在玻璃上缓缓滑落,下一秒镜头就转到窗外,男人撑着一把红色的伞站在大街上,整个画面很有氛围感。
(提示词:雨滴敲打着窗户,镜头切换到下雨的大街上,有个男人正撑着一把红色的伞,站在大街上 Overcast Somber Cinematic High-quality Modern Style)
-3-
运动效果
流畅的视频运动可以提供更加连贯和平滑的视觉体验,能够增强角色动作的真实感,因此,各家的视频生成模型均在画面运动上「做文章」,腾讯混元也不例外。
他们在运动一致性方面下了功夫,减少了物体变形和运动不连贯的问题。
提示词:日落时分,一只乌龟在黑色沙滩上爬行。
虽然混元生成的画面运动幅度大,但海龟爬行的动作,以及沙滩场景变化自然真实,没有突兀的跳跃和不连贯。
我们又用 Sora 经典提示词试了下。
提示词:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.
中文提示词:一窝金毛猎犬小狗在雪地里玩耍。它们的头从雪地里冒出来,浑身都是雪。
两只小狗抬爪子、啃咬的动作很逼真,身上的雪花也随着打架的动作抖落。
此外,它还能生成包含多个连贯动作的视频。
提示词:男人走出卧室,关上门,看到一只可爱的毛茸茸的生物。
提示词:女人摘下墨镜,看着对面的男人笑了,光线柔和,愉快,现代,电影风格,高质量。
-4-
语义理解
混元视频生成能力对提示词撰写的精细度与准确度要求较高。用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等。
面对又长又复杂的文字描述,混元基本能 get 到信息并进行输出。
提示词:一支穿着厚重冬季装备的极地探险队,在呼啸的暴风雪中艰难前行,几乎无法透过雪花看清彼此,冰柱附着在他们的胡须和派克服上,他们的脸上显露出坚定的决心,摄像机捕捉到一个中景镜头,展示了他们周围风暴的强度,寒冷、柔和的光线增添了一种孤立和坚韧的感觉。
提示词:日出时分,色彩鲜艳的热气球飘过广阔的非洲大草原,成群的大象和瞪羚在下方的草原上移动。远处,乞力马扎罗山的影子映衬着粉红色和橙色的天空。
经过多轮测评,总体来说混元视频生成模型还是有些本事傍身的,尤其是电影级画质和原生镜头切换,效果相当能打。
和其他视频生成模型一样,它也有不少小「毛病」。比如,每次生成内容具有不确定性,生成结果无法达到 100% 可控,同时输入多个实体,可能不会都生成出来,颜色和数量也未必匹配等。
不过混元大模型仍在升级和调试中,未来或许有更好的表现。
以后我们会带来更多好玩的AI应用,也欢迎大家进群交流。
文中视频链接:https://mp.weixin.qq.com/s/cwoCu1umcJrRxhGLZLHYOw