字节跳动展示 OmniHuman 多模态框架：图片 + 音频 = 逼真动画，半身全身均可生成

字节跳动表示，和一些只能生成面部或上半身动画的深度伪造技术不同，OmniHuman-1能够生成逼真的全身动画，且能将手势和面部表情与语音或音乐精准同步。

字节跳动的研究人员近日展示了一款 AI 模型，可以通过一张图片和一段音频生成半身、全身视频。

字节跳动表示，和一些只能生成面部或上半身动画的深度伪造技术不同，OmniHuman-1 能够生成逼真的全身动画，且能将手势和面部表情与语音或音乐精准同步。

字节跳动在其 OmniHuman-lab 项目页面发布了多个测试视频，包括 AI 生成的 TED 演讲和一个会说话的阿尔伯特・爱因斯坦。

在周一发布的一篇论文中，字节跳动指出，OmniHuman-1 模型支持不同的体型和画面比例，从而使视频效果更自然。

据AI在线了解，字节跳动表示，OmniHuman-1 模型基于约 19000 小时的人类运动数据训练而成，能够在内存限制内生成任意长度的视频，并适应不同的输入信号。

研究人员还表示，OmniHuman-1 在真实性和准确性方面，超越了其他同类动画工具。目前，该工具暂不提供下载或有关服务。

字节跳动发布 AI 中文 IDE“Trae”：内置 GPT-4o，可帮助自动化开发

其支持AI问答、代码自动补全、基于Agent的AI编程等功能，可以帮助程序员自动化完成开发任务，并在一些项目中可以实现端到端开发，用户提问后能够直接生成完整的代码项目。

1/20/2025 5:25:31 PM

清源

据路透社今日援引知情人士消息称，字节跳动今年计划投入超 1500 亿元人民币用于资本支出，其中大部分将用于AI领域。针对该报道，字节跳动回应称：“关于我们支出的匿名消息不准确。”

1/23/2025 6:31:05 PM

清源

用户从“数字人”入口进入，只需上传一张人物图片和一条参考视频，就能生成一条动态视频，让图片里的人物模拟参考视频中的人物动作，亦能实现情绪的一比一还原。

3/5/2025 3:53:26 PM

清源

资讯热榜

标签云

顶部