字节跳动展示 OmniHuman 多模态框架:图片 + 音频 = 逼真动画,半身全身均可生成

字节跳动表示,和一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1能够生成逼真的全身动画,且能将手势和面部表情与语音或音乐精准同步。

字节跳动的研究人员近日展示了一款 AI 模型,可以通过一张图片和一段音频生成半身、全身视频。

字节跳动表示,和一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1 能够生成逼真的全身动画,且能将手势和面部表情与语音或音乐精准同步

字节跳动在其 OmniHuman-lab 项目页面发布了多个测试视频,包括 AI 生成的 TED 演讲和一个会说话的阿尔伯特・爱因斯坦。

在周一发布的一篇论文中,字节跳动指出,OmniHuman-1 模型支持不同的体型和画面比例,从而使视频效果更自然。

据AI在线了解,字节跳动表示,OmniHuman-1 模型基于约 19000 小时的人类运动数据训练而成,能够在内存限制内生成任意长度的视频,并适应不同的输入信号。

研究人员还表示,OmniHuman-1 在真实性和准确性方面,超越了其他同类动画工具。目前,该工具暂不提供下载或有关服务。

相关资讯

字节跳动发布 AI 中文 IDE“Trae”:内置 GPT-4o,可帮助自动化开发

其支持AI问答、代码自动补全、基于Agent的AI编程等功能,可以帮助程序员自动化完成开发任务,并在一些项目中可以实现端到端开发,用户提问后能够直接生成完整的代码项目。

字节跳动回应“今年资本支出超 1500 亿元”:消息不准确

据路透社今日援引知情人士消息称,字节跳动今年计划投入超 1500 亿元人民币用于资本支出,其中大部分将用于AI领域。针对该报道,字节跳动回应称:“关于我们支出的匿名消息不准确。”

即梦 AI 上线 “动作模仿” 功能:照片 + 参考视频即可让人物动起来

用户从“数字人”入口进入,只需上传一张人物图片和一条参考视频,就能生成一条动态视频,让图片里的人物模拟参考视频中的人物动作,亦能实现情绪的一比一还原。