AI在线 AI在线

字节推出单图视频驱动模型 X-Portrait 2:一键生成相同表情神态,简化创作流程

作者:沛霖(实习)
2024-11-06 08:48
单图视频驱动技术,即只需一张静态照片和一段驱动视频,即可生成高质量、电影级的视频。

单图视频驱动技术,即只需一张静态照片和一段驱动视频,即可生成高质量、“电影级”的视频。

字节跳动智能创作团队推出最新单图视频驱动技术 X-Portrait 2,该模型不仅能保留原图的 ID,还能捕捉并迁移从细微到夸张的表情和情绪,简化了现有动作捕捉、角色动画和内容创作流程。

字节推出单图视频驱动模型 X-Portrait 2:一键生成相同表情神态,简化创作流程

▲ 左一图为原图、左一图右下为驱动视频,左二图为 X-Portrait 2 效果

不同于以往依赖人脸关键点检测的单图驱动方法,X-Portrait 2 构建了一个表情编码器模型,通过一种端到端自监督训练框架,能够从大量人像视频中自学习 ID 无关的运动隐式表征。

字节推出单图视频驱动模型 X-Portrait 2:一键生成相同表情神态,简化创作流程

▲ 左一为驱动视频截图,其他为生产效果

进一步将这个编码器与强大的生成式扩散模型相结合,即可生成流畅且富有表现力的视频。经过在大规模高质量表情视频上的训练,X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。

AI在线附项目地址:https://byteaigc.github.io/X-Portrait2/

相关标签:

相关资讯

消息称字节整合 AI 研发团队,AI Lab 即将全部并入 Seed

Seed 自成立就在不断吸纳来自字节内外的人才。除收拢搜索、AML、AI Lab等内部部门中大模型方向人才外,对外也在积极争抢人才。
4/16/2025 12:27:19 PM
清源

字节跳动豆包大模型掀起价格战:主力模型比行业低 99.3%,日均处理千亿级 Tokens

今日,字节跳动豆包大模型正式发布,宣布大模型价格进入“厘时代”。字节跳动火山引擎总裁谭待介绍称:经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理 1200 亿 Tokens 文本,生成 3000 万张图片。“大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有 0.0008 元 / 千 Tokens,0.8 厘就能处理 1500 多个汉字,比行业便宜 99.3%。”▲ 火山引擎总裁谭待公布豆包大模型定价,图源:字节跳动I
5/15/2024 10:46:06 AM
问舟

消息称字节将于 7 月 19 日首次大范围公布文生图 / 视频等 AI 模型进展

钛媒体 AGI 报道称,字节跳动团队将会在 7 月 19 日(本周五)首次大范围公布文生图、类 sora 新视频等全新人工智能(AI)模型技术进展,尤其在长视频、高动态方向上具备创新技术,或将直接对标 Sora 效果。消息人士表示,字节跳动内部将 AI 大模型设为集团 P0 最高级别的方向。此外抖音、剪映等内部多个团队也在研发 AI 视频模型应用,预计将在近期公布。字节跳动将在新加坡举办关于世界模型(World Models)探索的 AI 技术菁英论坛(ByteDance AI Luminary Talks)活动,
7/17/2024 10:48:46 AM
沛霖(实习)