一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

作者：沛霖（实习）

2024-07-04 05:59

感谢商汤科技在世界人工智能大会（WAIC）上发布了首个“可控”人物视频生成大模型 Vimi，通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动。与图片表情控制类技术只能控制头部表情动作不同，商汤称 Vimi 不但可以实现精准的人物表情控制，还可实现在半身区域内控制照片中人物的自然肢体变化，并自动生成与人物相符的头发、服饰及背景变化。同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频，画面效果不会随着时间的变化而劣化或失真，满足娱乐

感谢商汤科技在世界人工智能大会（WAIC）上发布了首个“可控”人物视频生成大模型 Vimi，通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

与图片表情控制类技术只能控制头部表情动作不同，商汤称 Vimi 不但可以实现精准的人物表情控制，还可实现在半身区域内控制照片中人物的自然肢体变化，并自动生成与人物相符的头发、服饰及背景变化。

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频，画面效果不会随着时间的变化而劣化或失真，满足娱乐互动等需要长时间稳定视频生成需求。

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

Vimi 将完全面向 C 端用户开放使用，用户只需上传不同角度的高清人物图片，即可自动生成数字分身和不同风格的写真视频。

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

由 Vimi 生成的视频人物不再只是呆板的五官运动，而是搭配手势、肢体、头发等，形成更完整、统一的人物动作，让创作者可基于生成的视频素材进行剪辑和再创作。

商汤表示将在明日公布 Vimi 的更多细节，IT之家也会持续关注并带来跟进报道。

相关标签：

生成视频商汤 Vimi 人物

相关资讯

商汤科技：目前投建的国产化 AI 算力集群已拥有 5.4 万张 GPU，最高算力达 2 万 P

商汤科技：目前投建的国产化 AI 算力集群已拥有 5.4 万张 GPU，最高算力达 2 万 P

据界面新闻报道，在今日举办的 2024 REAL 科技大会上，商汤数字文娱事业部总经理栾青介绍称，目前商汤投建的国产化人工智能算力集群已拥有 5.4 万张 GPU，最高算力达 2 万 P。栾青表示，商汤正在上海临港投建全国最大规模人工智能数据中心，全国算力节点遍及上海、广州、重庆、深圳、福州等地。据AI在线此前报道，商汤截至 2024 年 6 月 30 日的半年报数据显示，2024 年上半年，集团总收入为 17.397 亿元，同比增长 21.4%。其中生成式 AI 收入为 10.512 亿元，同比大幅增长 255.

商汤发布日日新 5.0 大模型：推理上下文窗口 200K，号称对标 GPT-4 Turbo

商汤发布日日新 5.0 大模型：推理上下文窗口 200K，号称对标 GPT-4 Turbo

感谢4 月 23 日，商汤科技发布了日日新 5.0 大模型。据介绍，该模型采用 MOE 混合专家架构，在知识、数学、推理和代码能力方面大幅提升。该模型基于超过 10TB tokens 训练，具备 200K 推理上下文窗口（IT之家注：相当于 36.5 万个汉字），推理时上下文窗口达到 200K 左右，更号称“全面对标 GPT-4 Turbo”。其提供自然语言处理、图片生成、自动化数据标注、自定义模型训练等多种大模型及能力。文科能力方面，其在创意写作、推理总结等方面能力均有提升，可为教育、内容产业等垂直应用场景提供辅

商汤推出粤语版商量语言 / 多模态大模型，可深入理解粤语俚语、粤文化

商汤推出粤语版商量语言 / 多模态大模型，可深入理解粤语俚语、粤文化

感谢据商汤科技官方公众号，在 5 月 29 日香港举办的“商量粤语版发布会暨商汤科技十周年志庆启动礼”上，商汤宣布将免费向粤语区用户推出粤语大模型 Web 版及 App 版，“商量语言大模型粤语版”及“商量多模态大模型粤语版”即日起向企业用户开放 API。商汤科技董事长兼 CEO 徐立表示，“商汤科技十年前于香港成立，在这个地方推出商量粤语版，对我们来说有着重大的意义。凭借日日新大模型 5.0 系列的创新产品及其巨大潜力，我们致力推动香港人工智能生态系统的发展。”据介绍，商汤“日日新 5.0”（IT之家注：已于 4

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架阿里云与黑芝麻智能完成大模型车载芯片级适配类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手 AI模拟细胞，走向全新虚拟生命，斯坦福团队呼吁是时候走出全新的一步了

标签云