快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

2024-10-03 04:56

感谢快手旗下可灵 AI 官方宣布，新增对口型功能，并面向所有用户开放 API 服务。在可灵 AI 生成人物视频后，上传音频，即可让视频人物口型和音频同步。可灵 1.0 及 1.5 模型生成的视频，只要满足视频画面的人脸条件，均支持对口型（目前仅支持人物类角色（真实 / 3D / 2D）进行对口型，动物类角色对口型暂不支持）。AI在线获悉，可灵 AI 正式面向所有用户开放 API 服务，支持在平台自助购买 API 资源包。官方表示，API 的效果与平台效果完全一致，1.5 模型和运动笔刷目前暂不支持 API，会尽快迭

感谢快手旗下可灵 AI 官方宣布，新增对口型功能，并面向所有用户开放 API 服务。

在可灵 AI 生成人物视频后，上传音频，即可让视频人物口型和音频同步。

可灵 1.0 及 1.5 模型生成的视频，只要满足视频画面的人脸条件，均支持对口型（目前仅支持人物类角色（真实 / 3D / 2D）进行对口型，动物类角色对口型暂不支持）。

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

AI在线获悉，可灵 AI 正式面向所有用户开放 API 服务，支持在平台自助购买 API 资源包。

官方表示，API 的效果与平台效果完全一致，1.5 模型和运动笔刷目前暂不支持 API，会尽快迭代上线。

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。 AI在线附相关链接：项目地址： G

如何使用 Gemini API 构建视频字幕生成器

译者 | 崔皓审校 | 重楼开篇在本教程中，你将使用 Google 的 Gemini API 构建人工智能驱动的字幕生成器。我们将创建一个名为“AI-Subtitle-Generator”的项目，该项目的前端使用 React，后端使用 Express。准备好了吗？

号称效果对标 Sora：快手视频生成大模型“可灵”开放邀测

感谢快手“可灵”视频生成大模型今日正式上线。官方表示，可灵大模型为快手 AI 团队自研，其采用 Sora 相似的技术路线，号称结合多项自研技术创新、效果对标 Sora。据介绍，可灵大模型具备如下优势：可生成大幅度的合理运动可模拟物理世界特性具备强大概念组合能力、想象力生成视频分辨率为 1080p，时长 2 分钟（帧率 30fps），支持自由调整宽高比IT之家从快手方面获悉，可灵大模型已在快影 App 开放邀测体验。此外，基于“可灵”大模型，未来还将有更多应用方向即将落地，近期将首发“AI 唱跳”新玩法，可以同时驱

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手从DeepSeek-V3发布谈大模型的技术突破与未来机遇 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机全网都在扒的DeepSeek团队，是清北应届生撑起一片天 OpenAI发布新年目标，Agent智能体或将迎来百模大战 Just keep scaling！思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式

标签云

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

相关资讯

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

如何使用 Gemini API 构建视频字幕生成器

号称效果对标 Sora：快手视频生成大模型“可灵”开放邀测