字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

作者：沛霖（实习）

2024-11-06 08:48

单图视频驱动技术，即只需一张静态照片和一段驱动视频，即可生成高质量、电影级的视频。

单图视频驱动技术，即只需一张静态照片和一段驱动视频，即可生成高质量、“电影级”的视频。

字节跳动智能创作团队推出最新单图视频驱动技术 X-Portrait 2，该模型不仅能保留原图的 ID，还能捕捉并迁移从细微到夸张的表情和情绪，简化了现有动作捕捉、角色动画和内容创作流程。

字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

▲ 左一图为原图、左一图右下为驱动视频，左二图为 X-Portrait 2 效果

不同于以往依赖人脸关键点检测的单图驱动方法，X-Portrait 2 构建了一个表情编码器模型，通过一种端到端自监督训练框架，能够从大量人像视频中自学习 ID 无关的运动隐式表征。

字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

▲ 左一为驱动视频截图，其他为生产效果

进一步将这个编码器与强大的生成式扩散模型相结合，即可生成流畅且富有表现力的视频。经过在大规模高质量表情视频上的训练，X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。

AI在线附项目地址：https://byteaigc.github.io/X-Portrait2/

消息称字节整合 AI 研发团队，AI Lab 即将全部并入 Seed

Seed 自成立就在不断吸纳来自字节内外的人才。除收拢搜索、AML、AI Lab等内部部门中大模型方向人才外，对外也在积极争抢人才。

4/16/2025 12:27:19 PM

清源

字节跳动豆包大模型掀起价格战：主力模型比行业低 99.3%，日均处理千亿级 Tokens

今日，字节跳动豆包大模型正式发布，宣布大模型价格进入“厘时代”。字节跳动火山引擎总裁谭待介绍称：经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理 1200 亿 Tokens 文本，生成 3000 万张图片。“大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有 0.0008 元 / 千 Tokens，0.8 厘就能处理 1500 多个汉字，比行业便宜 99.3%。”▲ 火山引擎总裁谭待公布豆包大模型定价，图源：字节跳动I

5/15/2024 10:46:06 AM

问舟

消息称字节将于 7 月 19 日首次大范围公布文生图 / 视频等 AI 模型进展

钛媒体 AGI 报道称，字节跳动团队将会在 7 月 19 日（本周五）首次大范围公布文生图、类 sora 新视频等全新人工智能（AI）模型技术进展，尤其在长视频、高动态方向上具备创新技术，或将直接对标 Sora 效果。消息人士表示，字节跳动内部将 AI 大模型设为集团 P0 最高级别的方向。此外抖音、剪映等内部多个团队也在研发 AI 视频模型应用，预计将在近期公布。字节跳动将在新加坡举办关于世界模型（World Models）探索的 AI 技术菁英论坛（ByteDance AI Luminary Talks）活动，

7/17/2024 10:48:46 AM

沛霖（实习）

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind

顶部

字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

相关资讯

消息称字节整合 AI 研发团队，AI Lab 即将全部并入 Seed

字节跳动豆包大模型掀起价格战：主力模型比行业低 99.3%，日均处理千亿级 Tokens

消息称字节将于 7 月 19 日首次大范围公布文生图 / 视频等 AI 模型进展