飞天奖居然也用AI整活了!网友锐评:你敢再土一点吗?

大家好,我是花生~ 刚结束的第 34 届 “飞天奖” 颁奖典礼想必很多人都有关注,最后是雷佳音获得优秀男演员奖,赵丽颖获得优秀女演员奖,《三体》、《狂飙》和《繁花》等 16 部作品获得优秀电视剧奖,这些都是大家非常喜爱的演员和作品,能获奖属于实至名归。 而在获奖结果之外,我还注意到了这次的颁奖典礼上一个很特别的环节,即在最后的歌曲大合唱中,有一部分内容是由不同电视剧的主要角色 “演唱” 的 —— 之所以加引号,是因为歌并不是真人在唱,而是通过 AI 驱动合成的,看完下面的视频大家就明白是怎么回事了。很显然主办方是想

飞天奖居然也用AI整活了!网友锐评:你敢再土一点吗?

大家好,我是花生~

刚结束的第 34 届 “飞天奖” 颁奖典礼想必很多人都有关注,最后是雷佳音获得优秀男演员奖,赵丽颖获得优秀女演员奖,《三体》、《狂飙》和《繁花》等 16 部作品获得优秀电视剧奖,这些都是大家非常喜爱的演员和作品,能获奖属于实至名归。

而在获奖结果之外,我还注意到了这次的颁奖典礼上一个很特别的环节,即在最后的歌曲大合唱中,有一部分内容是由不同电视剧的主要角色 “演唱” 的 —— 之所以加引号,是因为歌并不是真人在唱,而是通过 AI 驱动合成的,看完下面的视频大家就明白是怎么回事了。

很显然主办方是想通过这种方式集中传达 “飞天奖” 的核心价值观,内容形式在一众官方节目中也算比较新颖,看得出来是花了心思的。但是部分画面中扭曲的人脸和失真声音还是让整个视频显得有些怪异搞笑,因此也引来了不少网友的调侃。

飞天奖居然也用AI整活了!网友锐评:你敢再土一点吗?

这个视频的制作方式应该是先在 easy-wav2lip 等工具中根据音频修改人物口型;再克隆人物的音色,替换歌曲原本的人声,合成到一起就是一个新的视频了。 虽然效果算不上优秀,但制作时无需真人出镜、无需再次布景妆造,比真实拍摄要省心省力很多,由此也能看出官方对 AI 技术是持欢迎态度的。

在之前一篇分析 B 站 AI 整活视频的文章中,我还介绍过另一种类似的视频制作方法:用 LivePortrait 的将真人唱歌时的面部表情复刻到图片角色身上,它的效果会比 easy-wav2lip 更准确,具体内容可以看这里:

而在最近,AI 音视频领域又出现了很多新的技术,能直接解决一些我们觉得费时难搞的问题,非常值得关注,下面就一起来看看它们的具体作用吧~

一、视频翻译神器 HeyGen

作为 AI 数字人领域的 Top1,我之前多次向大家介绍了 Heygen 的数字人合成和视频无痕翻译功能,非常好用。而最近它又连续推出了两个重大更新,让这些能力有了进一步的提升。

一是推出新的 Avatar 3.0 模型,能实现「全身动态」效果。也就是我们用文本驱动数字人说话时,Ta 不再只有简单的嘴型动作,而是可以根据脚本,生成与之适配的声调、面部表情和身体动作。

比如下面的这个视频中,Heygen 分别演示了数字人在 Calm(平静)、Serious(严肃)状态下的语气区别。从中可以看到, 数字人在说话时五官肌肉有丰富的变化、用力时颈部会前伸、换气时胸部有明显的起伏,这让他的形象非常真实可信。此外 Ta 还能模仿人唱歌的状态,甚至连讲解视频的主持人本身也是一个数字人,效果实在令人震惊。

由 AI 数字人演示的 HeyGen Avatar 新功能

二是它的 AI 视频无痕翻译功能再次升级,之前是可以实现脚本翻译、音色克隆和唇型一致,现在则是连字幕和画面中的文字也能被识别,然后翻译成 100 多种指定的语言,且文本风格会自动适配视频主题。有了这样的技术,以后的视频翻译和搬运工作会更加高效便捷。

等未来类似的技术普及开来后,它对每个人工作生活的影响也会越来越明显。如果你不会外语,可以直接将视频转换为纯中文观看,从而学到更多高质量的知识;如果你是视频内容创作者,可以一键将自己的视频转换为多种不同的语言,在全世界范围内传播,让劳动的价值最大化,这些都是有利于普通人的成长发展的。

将一段英文视频 ,自动翻译、配音并修改为日语、法语等不同版本

二、可以修改歌词的 Seed-Music

之前在交流群里有小伙伴在问:有没有可以只改变歌曲的歌词、不改变旋律和音色的 AI 工具,当时我还真没有找到,而最近一款名为 Seed-Music 的技术框架则可以完美解决这个问题了。

如下面这个视频, 基于一段中文歌曲的片段,按同样的结构修改歌词后,Seed-Music 能将其用原来的旋律和声音演唱出来,结果听起来相当不错。如果这项技术之后开放,视频/音乐等内容的二次创作肯定会迎来爆发式的增长,因为操作门槛真的变成 0 了,任何人都可以对自己喜欢的内容进行重新编辑。

除此之外,Seed-Music 也和 Suno、Udio 一样, 支持文本生成歌曲、歌曲仿写、纯器乐生成、文本控制歌曲风格、情绪、节奏等功能;而且它还有自己的优势,包括通过曲谱+歌词生成歌曲、克隆人声、歌曲风格替换等。Seed-Music 的中文内容生成表现非常稳定,优于国外的 2 款工具,如果未来能开源或商业化落地,会是一款更适合中国人的 AI 歌曲生成工具。

三、技术发展的机遇与风险

其实每个人都能从 AI 音视频技术的发展中获益。专业人员可以用 AI 优化传统工作流程,释放自己的生产力,把更多时间用在打磨创意、提升内容质量上;而普通人则可以用 AI 轻松入门视频创作,一个人制作出创意短片甚至商业化的大片,这也是目前相当热门的一种变现渠道。

但从另一方面来说,AI 技术的应用也存在很大风险。比如前段时间爆出的韩国 DeepSeek 换脸门事件,将技术发展不受监管控制的后果展现地淋漓尽致;B 站一位 Up 主还专门用 AI 换脸做了一次测试,结果只用 3 小时就轻松骗走了妈妈一年的工资,这些都为我们敲响警钟。

飞天奖居然也用AI整活了!网友锐评:你敢再土一点吗?

因此,我们一方面要慎重使用这些 AI 工具,遵循它们的使用规定,不将其用于非法目的,不将自己置于容易陷入版权纠纷的境地;另一方面更是要提高自身的防范意识,不要随意将自己的正脸视频、声音音频分享给陌生人;多向身边的亲友、特别是老年人科普这方面的知识,甚至可以先约定好紧急情况下的沟通方式,以免上当受骗。

相关资讯

字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑

通过高保真合成语音与真人语音无异。首先来听一段《凡人修仙传》:你猜的没错,这段有声书并非来自某个专业制作团队,而是一个 AI 模型 Seed-TTS,而这个模型则是来自字节跳动的 Seed Team。TTS 是指文本转语音,这是一种具备诸多妙用的技术,像是让个人智能助理说话、为视频或游戏配音、辅助视障人士、制作有声书等等。对于 TTS 技术研发者来说,流畅自然的表达一直以来都是值得追求的重要目标。字节跳动 Seed Team 发布的 Seed-TTS 不只是一个模型,而是一整个模型系列。论文标题:Seed-TTS:

年度盘点!2023年不容错过的30款AI神器,你用过多少?

大家好我是花生~ 还有几天 2023 年就结束了,过去的 1 年里生成式 AI 技术发展迅速,出现了很多优质的 AI 工具,今天就为大家盘点其中我觉得非常不错的那些产品~ 相关推荐:一、AI 聊天机器人 ① ChatGPT 过去 1 年是大语言模型发展的井喷之年,但是说起目前最强大的 AI 聊天机器人,却依旧是 1 年前横空出世的 ChatGPT。ChatGPT 的目前内置的是 GPT-4V 多模态模型,可以处理图像、音频等多种类型的信息,性能也比之前的 GPT-3.5 要好。今年 ChatGPT 还出了手机 AP

让郭德纲说英语,霉霉讲中文,AI是如何做到视频无痕翻译的?

大家好,这里是和你们一起探索 AI 的花生~ 这几天互联网上出现的一类视频引起了大家的广泛关注和热烈讨论,视频的特点是可以“让人物说外语”,但形式并不是我们常见的视频配音,而是真的像他们自己就会说外语一样,口音毫无 AI 感,人物的嘴型也是一致的。 比如下面这段“郭德纲用英语说相声”的视频,如果不说,几乎看不出来这是 AI 处理的,因为视频中人物的嘴型与说出的英语是一致的,发音很真实,没有 AI 的生硬感,甚至语调音色都与郭德纲说中文时的语调音色是一样的,这些细节上的精准匹配使视频显得非常自然真实,让人不得不感叹