字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

作者：沛霖（实习）

2024-11-06 08:48

单图视频驱动技术，即只需一张静态照片和一段驱动视频，即可生成高质量、电影级的视频。

单图视频驱动技术，即只需一张静态照片和一段驱动视频，即可生成高质量、“电影级”的视频。

字节跳动智能创作团队推出最新单图视频驱动技术 X-Portrait 2，该模型不仅能保留原图的 ID，还能捕捉并迁移从细微到夸张的表情和情绪，简化了现有动作捕捉、角色动画和内容创作流程。

字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

▲ 左一图为原图、左一图右下为驱动视频，左二图为 X-Portrait 2 效果

不同于以往依赖人脸关键点检测的单图驱动方法，X-Portrait 2 构建了一个表情编码器模型，通过一种端到端自监督训练框架，能够从大量人像视频中自学习 ID 无关的运动隐式表征。

字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

▲ 左一为驱动视频截图，其他为生产效果

进一步将这个编码器与强大的生成式扩散模型相结合，即可生成流畅且富有表现力的视频。经过在大规模高质量表情视频上的训练，X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。

AI在线附项目地址：https://byteaigc.github.io/X-Portrait2/

相关标签：

模型字节 XPortrait 2

相关资讯

字节跳动豆包大模型掀起价格战：主力模型比行业低 99.3%，日均处理千亿级 Tokens

字节跳动豆包大模型掀起价格战：主力模型比行业低 99.3%，日均处理千亿级 Tokens

今日，字节跳动豆包大模型正式发布，宣布大模型价格进入“厘时代”。字节跳动火山引擎总裁谭待介绍称：经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理 1200 亿 Tokens 文本，生成 3000 万张图片。“大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有 0.0008 元 / 千 Tokens，0.8 厘就能处理 1500 多个汉字，比行业便宜 99.3%。”▲ 火山引擎总裁谭待公布豆包大模型定价，图源：字节跳动I

消息称字节将于 7 月 19 日首次大范围公布文生图 / 视频等 AI 模型进展

消息称字节将于 7 月 19 日首次大范围公布文生图 / 视频等 AI 模型进展

钛媒体 AGI 报道称，字节跳动团队将会在 7 月 19 日（本周五）首次大范围公布文生图、类 sora 新视频等全新人工智能（AI）模型技术进展，尤其在长视频、高动态方向上具备创新技术，或将直接对标 Sora 效果。消息人士表示，字节跳动内部将 AI 大模型设为集团 P0 最高级别的方向。此外抖音、剪映等内部多个团队也在研发 AI 视频模型应用，预计将在近期公布。字节跳动将在新加坡举办关于世界模型（World Models）探索的 AI 技术菁英论坛（ByteDance AI Luminary Talks）活动，

搭载字节豆包大模型，smart首款豪华中型SUV精灵5即将发布

搭载字节豆包大模型，smart首款豪华中型SUV精灵5即将发布

近日，新奢智能纯电汽车品牌smart在官方渠道透露，旗下首款豪华中型SUV精灵#5将于8月28日在澳洲全球首秀。官方路透显示，精灵#5除了沿袭概念车的前瞻开拓性设计，在智能座舱方面，还通过与火山引擎深度合作，搭载字节跳动豆包大模型，为用户带来更加人性化、智能化的座舱新体验。smart精灵#5概念车首次亮相于2024年4月北京国际车展。梅赛德斯-奔驰全球设计团队以“感性·灵锐”的设计语言”对该款车型的外观进行了大胆方正、极具力量感的设计，也让精灵#5成为smart品牌有史以来最大尺寸的车型。除了设计上的突破，smar

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架阿里云与黑芝麻智能完成大模型车载芯片级适配类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手 AI模拟细胞，走向全新虚拟生命，斯坦福团队呼吁是时候走出全新的一步了

标签云