腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

AI好好用报道编辑:杨文腾讯混元生成的AI电影镜头,让我想到《天使爱美丽》、《花样年华》。 从上周六开始,AI 视频圈又炸锅了。 先是 Runway 三天上新两次,Luma 全力狙击;紧接着 Sora 意外泄露三小时,网友们疯狂整活。

AI好好用报道

编辑:杨文

腾讯混元生成的AI电影镜头,让我想到《天使爱美丽》、《花样年华》。

从上周六开始,AI 视频圈又炸锅了。

先是 Runway 三天上新两次,Luma 全力狙击;紧接着 Sora 意外泄露三小时,网友们疯狂整活。

国内的 AI 厂商也没闲着。

最让人惊喜的是,腾讯混元å也下场搞视频生成模型了。

图片

目前,该视频模型已经开启小范围内测。我们在第一时间拿到体验资格。

与其他视频生成模型类似,仅需输入一句提示词,腾讯混元就能生成一段 5 秒视频。

它支持中英文输入,还有 5 种画面尺寸可供选择。

先放几个视频给大家「尝尝鲜」:

繁华的巴黎,一个头戴棕色贝雷帽的男人正坐在咖啡馆里沉思。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

一位年轻时髦的女人走向窗边,然后转身凝视旁边的男人,动作流畅自然。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

两位小姐姐坐在街边相顾无言,镜头切换、人物神态简直和电影别无二致。

图片

接下来,我们就全方位测评一番。

-1-

画质

不得不说,混元视频模型生成的画面太有电影感了。

提示词:一个电影般的背后跟随镜头,拍摄一名女警背对着我们穿过夜晚的事故现场。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了画质高清稳定,人物动作流畅。四处停放的警车,闪烁的警灯,勘查现场的警察…… 好莱坞元素拉满。

提示词:一个电影般的背后跟随镜头,拍摄消防员背对着我们穿过熊熊烈火。

生成三个镜头,每个镜头都很有故事性。

图片

图片

图片

混元很会控制景深。虚化的背景,让主体运动更加突出,火焰的光影在消防员身上舞动,形成一种强烈的视觉冲击。

再来个科幻风格的电影。

提示词:夜晚,一个机器人正行走在繁华的大街上,昏暗,近景镜头,科幻,生动,赛博朋克,高质量。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

这个长得像擎天柱一样的机器人,漫步在人潮涌动的大街上,脑袋还时不时左右张望。

镜头随着机器人的移动而微微晃动,使得画面更具真实感。

提示词:一个男人坐在咖啡厅里喝咖啡,柔和,近景镜头,休闲,现代,电影风格,高质量。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

视频中,男人从端起咖啡、抿了一口到缓缓放下杯子,整套动作一气呵成。

男人的眼神、表情也生成得很是逼真,手指也没出现明显的 bug。

-2-

镜头切换

混元最值得称道的,还是原生镜头切换效果。

它能够自动生成同一主体在不同视角下的镜头,并在视频中进行切换,以增强画面的叙事感。

要知道,在此之前,只有 Sora 具备这种镜头切换效果。

比如下面这个视频中,最初是个中景镜头,女人正手撑下巴思考,啪一下镜头转换成女人面部大特写,深邃眼眸、烈焰红唇,再接着,镜头又切换到城市街景。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

(提示词:一个极端特写镜头,聚焦于一位时髦的美丽女性,她坐在咖啡馆里,深陷沉思,镜头切换到城市的街景,景深效果,电影般的 35 毫米胶片质感,光线非常具有电影感。)

再如,雨滴打在玻璃上缓缓滑落,下一秒镜头就转到窗外,男人撑着一把红色的伞站在大街上,整个画面很有氛围感。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

(提示词:雨滴敲打着窗户,镜头切换到下雨的大街上,有个男人正撑着一把红色的伞,站在大街上 Overcast Somber Cinematic High-quality Modern Style)

-3-

运动效果

流畅的视频运动可以提供更加连贯和平滑的视觉体验,能够增强角色动作的真实感,因此,各家的视频生成模型均在画面运动上「做文章」,腾讯混元也不例外。

他们在运动一致性方面下了功夫,减少了物体变形和运动不连贯的问题。

提示词:日落时分,一只乌龟在黑色沙滩上爬行。

图片

虽然混元生成的画面运动幅度大,但海龟爬行的动作,以及沙滩场景变化自然真实,没有突兀的跳跃和不连贯。

我们又用 Sora 经典提示词试了下。

提示词:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

中文提示词:一窝金毛猎犬小狗在雪地里玩耍。它们的头从雪地里冒出来,浑身都是雪。

图片

两只小狗抬爪子、啃咬的动作很逼真,身上的雪花也随着打架的动作抖落。

此外,它还能生成包含多个连贯动作的视频。

提示词:男人走出卧室,关上门,看到一只可爱的毛茸茸的生物。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

提示词:女人摘下墨镜,看着对面的男人笑了,光线柔和,愉快,现代,电影风格,高质量。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

-4-

语义理解

混元视频生成能力对提示词撰写的精细度与准确度要求较高。用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等。

面对又长又复杂的文字描述,混元基本能 get 到信息并进行输出。

提示词:一支穿着厚重冬季装备的极地探险队,在呼啸的暴风雪中艰难前行,几乎无法透过雪花看清彼此,冰柱附着在他们的胡须和派克服上,他们的脸上显露出坚定的决心,摄像机捕捉到一个中景镜头,展示了他们周围风暴的强度,寒冷、柔和的光线增添了一种孤立和坚韧的感觉。

腾讯版Sora来了!我们抢先实测:最懂镜头的AI,有《花样年华》那味了

提示词:日出时分,色彩鲜艳的热气球飘过广阔的非洲大草原,成群的大象和瞪羚在下方的草原上移动。远处,乞力马扎罗山的影子映衬着粉红色和橙色的天空。

图片

经过多轮测评,总体来说混元视频生成模型还是有些本事傍身的,尤其是电影级画质和原生镜头切换,效果相当能打。

和其他视频生成模型一样,它也有不少小「毛病」。比如,每次生成内容具有不确定性,生成结果无法达到 100% 可控,同时输入多个实体,可能不会都生成出来,颜色和数量也未必匹配等。

不过混元大模型仍在升级和调试中,未来或许有更好的表现。

以后我们会带来更多好玩的AI应用,也欢迎大家进群交流。

文中视频链接:https://mp.weixin.qq.com/s/cwoCu1umcJrRxhGLZLHYOw

图片

相关资讯

腾讯旗下协作SaaS产品全面接入混元大模型,实现智能化升级

大模型应用落地再加速。

腾讯大模型App元宝上线,我们用它「单挑」了下GPT-4o

腾讯元宝 VS GPT-4o,究竟谁技高一筹?最近,腾讯一改往日的慢性子,忽然「卷」起来了:5 月 14 日,腾讯全面开源混元文生图模型;5 月 17 日,腾讯发布一站式 AI 智能体创作与分发平台「腾讯元器」;5 月 30 日,基于混元大模型的 App「腾讯元宝」正式上线,目前应用商店已经可以下载。腾讯元宝是一个基于混元大模型及搜索引擎驱动的高效信息整合工具,界面设计简洁,可以搜索实时信息,也可以对上传的多格式文档进行总结、翻译,还能语音对话练习口语。而此次腾讯元宝产品能力升级的背后,是腾讯混元底层模型的持续迭代

美团的这些AI应用,倒把我给整不会了

好好用报道编辑:杨文美团,有点迷茫。 贵为大厂,美团的 AI 进展稍显拖沓。 早在去年一季度财报发布时,王兴就对外表示,公司已组建内部团队进行大模型和应用层面的研发。