阿里开年整新活了。
最近,不少社交平台都被一种名为「科目三」的跳舞视频刷屏了,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一跳舞动作遭全网模仿。
对于有点跳舞功底的人来说,学会「科目三」并不是一件很难的事,但对于四肢不是很协调的小伙伴而言,这可真是有点难度了。为了让广大网友学会这个跳舞,还有人出了保姆级分解教程,声称几分钟速成大摇子。
其实,对于想要跳舞的你来说,根本不用真人出镜,一张照片就能化身跳舞达人。不信,你看,一位小姐姐正在你面前大秀舞技
视频链接:https://mp.weixin.qq.com/s/14WF1rI9qpDPlRbQawJ-rQ
你以为这是真人在跳舞,不,不,不!眼见不一定为真,其实这是根据照片生成的,而且只需一张照片就可以搞定。
现在技术一经发展成这样了吗?跳舞不需要真人,这是哪家出的黑科技,期待值直接拉满。
不卖关子了,谜底揭开,这项研究来自阿里。
在刚刚到来的 2024 年,阿里通义千问 APP 上线图片生成跳舞功能,用户只需要输入一张图片,就能生成爆款跳舞视频。
不管是科目三,还是鬼步舞、兔子舞…… 练习时长无需两年半,通义千问分分钟帮你搞定。有了它,让你瞬间变身跳舞达人,再也不用担心自己没有跳舞功底了。
操作过程也非常简单,打开通义千问 APP,然后在对话框中输入咒语「全民舞王」或者「通义舞王」,在弹出的界面中就可以体验了,最重要的是,不需要你花一分钱,完全免费使用!
该功能一经上线火爆国内外,在 AI 圈可谓是掀起了一波全民热舞小高潮,众多研究者纷纷玩了起来。X(原推特)上关于这项研究的浏览量动不动就上万。
不用自己出镜,上传照片就能化身舞王,这样的黑科技谁不想试一试呢。隔壁小伙伴的妈妈都羡慕哭了,老师,我们家子涵怎么不会。
其实,不管是子涵、还是子豪,不管是真人、还是纸片人,甚至是雕塑,通义千问都能让他们舞起来,简单到只需三步:
第一步选择自己喜欢的跳舞种类,通义千问 APP 内置了不同的跳舞模板,包括 DJ 慢摇、鬼步舞、蒙古舞、科目三、划桨步、兔子舞等十多种跳舞,选择你喜欢的其中一种作为目标跳舞。
第二步上传图片,图片的要求是全身照、正面站立、全身无遮挡、无俯仰角,图片的分辨率不能低于 500×500。你可以使用手机里保存的照片,也可以是现场拍摄的照片。此外,通义千问 APP 里还内置了照片模板供各人使用。
通义千问 APP 对上传照片的一些要求
最后一步,点击「立即生成」就可以了。
谁能想到,生成跳舞视频一经简单到这样了。由于人人都可免费使用,一经上线,受到广大网友追捧。
效果到底怎么样,我们接着往下看。
谁都能跳?
我们先从古代人开始吧,这些只在历史文献中出现的人物,跳起舞来会是什么样子呢。想必各人都对桃园三结义的故事很熟悉,不知道三兄弟一起跳舞是怎样的画面。
这不刘皇叔打了一辈子仗,马上就要来享受享受。接着奏乐接着舞,这波科目三跳得理所应当。由刘关张三兄弟发起的「全民舞王」比赛正式开始,你来品一品,谁跳得最好。
视频链接:https://mp.weixin.qq.com/s/14WF1rI9qpDPlRbQawJ-rQ
哈尔滨不只有圣索菲亚教堂升起的月亮,背上小书包出游的企鹅,还有会跳兔子舞的梦露。东北 DJ 大哥见了都得夸一句,这兔子舞真不赖啊。
即使脖子上一经插了 99 根麻醉针,依然能跳最甜的舞。毛利老弟给各人带来《只想对你说「爱你」》,这灵活的身姿,妖娆的步伐,有没有让你心动呢?
2000 多岁的高龄选手高级军吏俑扭起了秧歌。新的一年一经到来,他用跳舞传递喜气。
钢铁侠上演一段极乐劲舞,跳舞动作不输真人,迈着欢快的小步伐,还以为是真人扮演的呢:
视频链接:https://mp.weixin.qq.com/s/14WF1rI9qpDPlRbQawJ-rQ
玲娜贝儿跳起西域慢摇,胯部摆动流畅,手臂在空中跟着音乐节拍不停的变化:
视频链接:https://mp.weixin.qq.com/s/14WF1rI9qpDPlRbQawJ-rQ
路飞扭起大秧歌,也毫无违和感:
视频链接:https://mp.weixin.qq.com/s/14WF1rI9qpDPlRbQawJ-rQ
这种大秀舞技的时刻,怎么少的了马斯克马老板,谁看了不说一句,马老板的科目三确实跳的很妖娆:
视频链接:https://mp.weixin.qq.com/s/14WF1rI9qpDPlRbQawJ-rQ
跳起蒙古舞来,马老板也是有模有样:
视频链接:https://mp.weixin.qq.com/s/14WF1rI9qpDPlRbQawJ-rQ
上线即爆火的 Animate Anyone
通义千问之所以能够生成如此丝滑的跳舞视频,背后离不开阿里在视频生成领域的深耕。不久之前,研究团队提出了一种名为 Animate Anyone 的算法,论文公布之初在国内外就掀起了一波不小的讨论高潮。短短一个月,Animate Anyone 在 YouTube 单个视频播放量一经高达 16 万次,而且这只是其中一位油管博主的视频播放量,如果统计全网,将会是一个很大的数字:
在这个视频的评论区,各人也是满屏的赞叹:「太惊人了。」
「人工智能的能力太神奇了,」之后忍不住又补了一句,「真的太神奇了。」
截至目前,该项目 GitHub 星标量一经达到 11 k 多。
论文地址:https://arxiv.org/pdf/2311.17117.pdf项目地址:https://humanaigc.github.io/animate-anyone/
说到视频生成,从 GAN 开始,研究者们致力于将图象进行动画化以及进行姿态迁移的探索,然而,生成的视频仍然存在局部失真、细节模糊、语义不一致和时序不连续等问题。
为了解决上述问题,阿里提出了专为角色动画量身定制的新颖框架 Animate Anyone,它能无缝地把静态图象转变成动态的角色视频。通过巧妙设计的 ReferenceNet、轻量级姿态引导器和时间建模方法,Animate Anyone 解决了图象到视频生成中的细节不一致和运动不连贯等问题。Animate Anyone 框架如下:
Animate Anyone 具有以下特点:
首先,它有效地保持了视频中人物外观的空间和时间一致性;其次,它生成的高清视频不会出现时间抖动或闪烁等问题;第三,它能够将任何角色图象动画化为视频,不受特定领域的限制。
为了让各人更好地理解,我们以示例来说明。下图中同样是驱动一张照片动起来,直观来看,DreamPose 和 BDMM 在保留服装的精细纹理细节方面存在缺点,能看到明显的运动不连贯、闪烁等问题;而 Animate Anyone 就像真人模特在运动一样,衣服纹理保持良好,就连腿部衣裙的开衩都精准到位,把细节直接拉满了。
通过上述示例我们可以看出,由 Animate Anyone 驱动的视频生成技术,更好的保持了时序上的连续以及合理性,视频中人物的动作丝滑连接,没有跳跃或不自然的变化;生成的视频质量也非常逼真,人物的图象与视频内容能够保持高度的一致性;此外,视频的风格和色彩与原始图片一致性也较高。
结语
刚刚过去的 2023 年是人工智能技术迅速发展的一年,仿佛一刹那间,AI 就摇身一变,成为一个「六边形战士」,从一开始的会写小说、写代码、生成高清大片,到现在一经发展成生成视频了,AI 的发展速度一经超乎大多数人的想象。
作为引领新一代技术潮流的科技大厂们,自然是紧紧抓住机遇,不断进行创新与突破,给人们带来一次又一次的惊喜。
除了大语言模型继续刷屏外,视频生成技术也取得了重大进展,国外如 Runway 升级了 Gen-2 模型,带来了电影级别的高清晰度;Meta 发布视频生成模型 Emu Video,其视频的动态性比 Gen-2 有明显的提高;经典的文生图模型 Stable Diffusion 的公司 Stability AI 也发布了视频生成模型 Stable Video Diffusion (SVD) 等等。国内也在迎头赶上,如字节发布 Magic Animate,华为提出的 Animate124 模型等,都在视频生成领域进行不断的创新。
同样的,阿里也在视频生成领域交出了一份满意的答卷,将 Animate Anyone 集成到通义千问 APP,使得人人都可以进行无门槛的跳舞合成,或许用不了多久,这一轮 AI 突破带来的变革将会触及更多人,我们将见证生成式 AI 对生产力和创新的颠覆。
在这场变革中,我们相信阿里会带来更多令人惊叹的应用。
参考链接:https://www.youtube.com/watch?v=8PCn5hLKNu4