吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

作者：机器之能

2024-06-20 08:05

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。最近，AI 圈刮起一股「让照片开口唱歌」的风潮。例如，让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。就在昨天，又有一家名为 Hedra 的公司前来踢馆，推出了基础模型 ——

机器之能报道

编辑：杨文

以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。

因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。

我们也欢迎读者投稿亲自实践的创新型用例。

最近，AI 圈刮起一股「让照片开口唱歌」的风潮。

例如，让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。

就在昨天，又有一家名为 Hedra 的公司前来踢馆，推出了基础模型 —— Character-1 。

关键是，人人免费可用。

网友们已经玩疯了。

让女版马斯克唱安妮・海瑟薇写给狗仔队的 Rap：

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

让垃圾桶、土豆人开口说话：

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

也有网友开始制作动画片：

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

AI 电影制作人 @Uncanny_Harry 则用它制作了卡通角色 Dave，送上一份迟到的父亲节礼物，并称「这是我所见过的 AI 生成视频中最接近真实表演的作品」。

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

据他本人介绍，他先用 Midjourney 生成一张图片，然后使用 ElevenLabs 的声音转换技术，以及 Hedra，最终创造了 Dave 这一角色。

由于效果相当惊艳，不少网友直呼：爱惨它了，口型同步令人惊叹。

-1-

傻瓜级玩法

据官方介绍，与其他竞品相比，Hedra 主要有三大优势：

免费体验，不过公测期间每条视频最长不超过30秒；

生成速度快，每分钟可生成 90 秒内容，前提是他们 H100 供应充足；

角色表情丰富，能够流畅地进行对话、歌唱、说唱。

其玩法也很简单。用户只需上传一张图片，再生成一段音频，就能让它开口说话或唱歌。

Hedra 链接：https://www.hedra.com/

打开上述链接，使用谷歌邮箱等注册登录。

进入操作界面后，我们生成或上传一段音频。

值得一提的是，目前该应用主要支持中文和英文，而且中文效果会更好。

我们上传一段搞笑段子音频。

接着就是上传或者生成一张图片。官方还贴心地给出提示词指南。

为了生成效果最佳，提示词中尽量包括风格、角色特征、相机视角、背景场景以及光线效果等内容。

例如，90s sitcom character，shoulders-up，in living room，soft lighting（90 年代情景喜剧角色，肩膀以上，客厅中，柔和光线）

Anime woman，2d，close-up on face，forest at night，cinematic lighting（动漫女性，2D 风格，面部特写，夜晚森林背景，电影级照明）

Woman, cyberpunk, matte blackarmor, dirty face, close-up, citynight, no people（女性，赛博朋克风格，哑光黑色盔甲，脏污的脸庞，特写镜头，城市夜景，无人）

我们图省事，只输入：a beautiful girl，虽然提示词简单，但生成效果还不错。

最后点击「Generate video」，稍等片刻即可生成一段视频。效果如下：

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

我们还让奥特曼说了一段脱口秀：

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

妖娆的「马斯克」唱英文歌：

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

-2-

挑战阿里 EMO

实际上，让照片开口说话、唱歌早不是什么新鲜事，去年爆火的类似产品就有 D-ID、Heygen ，还有两个月前上线的阿里 EMO。

打开通义千问 APP，在顶端的「频道」栏目中，找到「全民舞台 - 玩法升级」。

如果想让照片跳舞，就选择「全民舞王」，若是想让其唱歌，则选择「全民唱演」。

「全面唱演」可以让照片生成老师语录、爆款热歌、网络热梗以及表情包等。

我们从众多模板中选择一款，然后上传图片即可。

我们看一下效果：

吊打阿里EMO？让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈，人人免费可用

明明模仿的是皇后娘娘痛哭流涕的片段，但这生成的人物笑靥如花是怎么回事。

两相比较，Hedra 的表现似乎更胜一筹。

首先，Hedra 给足了用户自由。用户既可用它生成音频和图片，也能够上传现有的音频和图片，而阿里的 EMO 目前无法自定义音频，而且有时还无法上传图片，只能使用系统给定的模板。

其次，Hedra 生成速度极快，不到一分钟即可生成一段 30 秒的视频，而阿里的 EMO 生成一段 9 秒视频需要耗费 12 分钟。

最后，从画面上来看，Hedra 的口型基本能对上，还能根据语调生成对应的表情，就是脸部有时会变形。

以后我们会通过新专栏带来更多 AIGC 案例演示，也欢迎大家进群交流。

相关标签：

AI 生成音频上传 Hedra

相关资讯

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以基于用户输入的提示词，生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。IT之家附上演示视频如下：例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 Hugging

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

机器之能报道编辑：吴昕这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？机器之能报道编辑：吴昕这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？试听地址： Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：试听地址： Audiobox Maker ，即使是小白用户也可以设计、生成不同人物（比如小红帽、大灰狼和外婆）的声音文件，同时添加不

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元从DeepSeek-V3发布谈大模型的技术突破与未来机遇 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机全网都在扒的DeepSeek团队，是清北应届生撑起一片天 GPT-4o最自私，Claude更慷慨！DeepMind发布全新「AI道德测试」 Just keep scaling！思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式奥特曼回应一切：宫斗、马斯克、ChatGPT两周年

标签云