吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。最近,AI 圈刮起一股「让照片开口唱歌」的风潮。例如,让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。就在昨天,又有一家名为 Hedra 的公司前来踢馆,推出了基础模型 ——

机器之能报道

编辑:杨文

以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。

因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   

我们也欢迎读者投稿亲自实践的创新型用例。

最近,AI 圈刮起一股「让照片开口唱歌」的风潮。

例如,让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。

就在昨天,又有一家名为 Hedra 的公司前来踢馆,推出了基础模型 —— Character-1 。

关键是,人人免费可用。

图片

网友们已经玩疯了。

让女版马斯克唱安妮・海瑟薇写给狗仔队的 Rap:

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

让垃圾桶、土豆人开口说话:

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

也有网友开始制作动画片:

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

AI 电影制作人 @Uncanny_Harry 则用它制作了卡通角色 Dave,送上一份迟到的父亲节礼物,并称「这是我所见过的 AI 生成视频中最接近真实表演的作品」。

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

据他本人介绍,他先用 Midjourney 生成一张图片,然后使用 ElevenLabs 的声音转换技术,以及 Hedra,最终创造了 Dave 这一角色。

图片

由于效果相当惊艳,不少网友直呼:爱惨它了,口型同步令人惊叹。

图片

图片

-1-

傻瓜级玩法

据官方介绍,与其他竞品相比,Hedra 主要有三大优势:

免费体验,不过公测期间每条视频最长不超过30秒;

生成速度快,每分钟可生成 90 秒内容,前提是他们 H100 供应充足;

角色表情丰富,能够流畅地进行对话、歌唱、说唱。

其玩法也很简单。用户只需上传一张图片,再生成一段音频,就能让它开口说话或唱歌。

Hedra 链接:https://www.hedra.com/

打开上述链接,使用谷歌邮箱等注册登录。

进入操作界面后,我们生成或上传一段音频。

值得一提的是,目前该应用主要支持中文和英文,而且中文效果会更好。

我们上传一段搞笑段子音频。

图片

接着就是上传或者生成一张图片。官方还贴心地给出提示词指南。

为了生成效果最佳,提示词中尽量包括风格、角色特征、相机视角、背景场景以及光线效果等内容。

图片

例如,90s sitcom character,shoulders-up,in living room,soft lighting(90 年代情景喜剧角色,肩膀以上,客厅中,柔和光线)

图片

Anime woman,2d,close-up on face,forest at night,cinematic lighting(动漫女性,2D 风格,面部特写,夜晚森林背景,电影级照明)

图片

Woman, cyberpunk, matte blackarmor, dirty face, close-up, citynight, no people(女性,赛博朋克风格,哑光黑色盔甲,脏污的脸庞,特写镜头,城市夜景,无人)

图片

我们图省事,只输入:a beautiful girl,虽然提示词简单,但生成效果还不错。

图片

最后点击「Generate video」,稍等片刻即可生成一段视频。效果如下:

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

我们还让奥特曼说了一段脱口秀:

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

妖娆的「马斯克」唱英文歌:

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

-2-

挑战阿里 EMO

实际上,让照片开口说话、唱歌早不是什么新鲜事,去年爆火的类似产品就有 D-ID、Heygen ,还有两个月前上线的阿里 EMO。

打开通义千问 APP,在顶端的「频道」栏目中,找到「全民舞台 - 玩法升级」。

图片

如果想让照片跳舞,就选择「全民舞王」,若是想让其唱歌,则选择「全民唱演」。

「全面唱演」可以让照片生成老师语录、爆款热歌、网络热梗以及表情包等。

图片

我们从众多模板中选择一款,然后上传图片即可。

图片

我们看一下效果:

吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用

明明模仿的是皇后娘娘痛哭流涕的片段,但这生成的人物笑靥如花是怎么回事。

两相比较,Hedra 的表现似乎更胜一筹。

首先,Hedra 给足了用户自由。用户既可用它生成音频和图片,也能够上传现有的音频和图片,而阿里的 EMO 目前无法自定义音频,而且有时还无法上传图片,只能使用系统给定的模板。

其次,Hedra 生成速度极快,不到一分钟即可生成一段 30 秒的视频,而阿里的 EMO 生成一段 9 秒视频需要耗费 12 分钟。

最后,从画面上来看,Hedra 的口型基本能对上,还能根据语调生成对应的表情,就是脸部有时会变形。

以后我们会通过新专栏带来更多 AIGC 案例演示,也欢迎大家进群交流。

相关资讯

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品

Stability AI 近日发布新闻稿,宣布推出 Stable Audio2.0,可以基于用户输入的提示词,生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上,进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容,最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外,还提供了音频生成音频功能,基于用户上传的一小段音频内容,扩展生成、补充相关的音频内容。IT之家附上演示视频如下: 例如音乐家如果在创作某段音乐的时候“卡壳”了,可以上传某段

Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 Hugging

试了试Meta的最新语音生成器,逼真得有点毛骨悚然

机器之能报道编辑:吴昕这段《小红帽》故事中的所有音频都是 AI 生成的,你能听出来吗?机器之能报道编辑:吴昕这段《小红帽》故事中的所有音频都是 AI 生成的,你能听出来吗?试听地址: Audiobox Maker,你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。有了它,仅用几分钟的时间,机器之心也随意生成了关于五月天假唱热搜的对话:试听地址: Audiobox Maker ,即使是小白用户也可以设计、生成不同人物(比如小红帽、大灰狼和外婆)的声音文件,同时添加不