一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

2024-07-04 05:59

感谢商汤科技在世界人工智能大会（WAIC）上发布了首个“可控”人物视频生成大模型 Vimi，通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动。与图片表情控制类技术只能控制头部表情动作不同，商汤称 Vimi 不但可以实现精准的人物表情控制，还可实现在半身区域内控制照片中人物的自然肢体变化，并自动生成与人物相符的头发、服饰及背景变化。同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频，画面效果不会随着时间的变化而劣化或失真，满足娱乐

感谢商汤科技在世界人工智能大会（WAIC）上发布了首个“可控”人物视频生成大模型 Vimi，通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

与图片表情控制类技术只能控制头部表情动作不同，商汤称 Vimi 不但可以实现精准的人物表情控制，还可实现在半身区域内控制照片中人物的自然肢体变化，并自动生成与人物相符的头发、服饰及背景变化。

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频，画面效果不会随着时间的变化而劣化或失真，满足娱乐互动等需要长时间稳定视频生成需求。

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

Vimi 将完全面向 C 端用户开放使用，用户只需上传不同角度的高清人物图片，即可自动生成数字分身和不同风格的写真视频。

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

由 Vimi 生成的视频人物不再只是呆板的五官运动，而是搭配手势、肢体、头发等，形成更完整、统一的人物动作，让创作者可基于生成的视频素材进行剪辑和再创作。

商汤表示将在明日公布 Vimi 的更多细节，IT之家也会持续关注并带来跟进报道。

商汤Vimi相机改名显演包APP 已在各个应用商店正式上线

近日，商汤科技旗下的Vimi相机正式更名为显演包APP，并已在各大应用商店上线。站长之家了解到，显演包APP是一款专为创意十足、热爱表达的内容创作者设计的AI表演应用，具备强大的生成功能和活跃的创意社区。用户可以通过AI角色扮演功能，轻松演绎经典角色;利用AI变声器，实现声音的千变万化;还能在创意社区与其他创作者交流互动，碰撞出更多创意火花。

1/25/2025 9:22:00 AM

AI在线

商汤科技：目前投建的国产化 AI 算力集群已拥有 5.4 万张 GPU，最高算力达 2 万 P

据界面新闻报道，在今日举办的 2024 REAL 科技大会上，商汤数字文娱事业部总经理栾青介绍称，目前商汤投建的国产化人工智能算力集群已拥有 5.4 万张 GPU，最高算力达 2 万 P。栾青表示，商汤正在上海临港投建全国最大规模人工智能数据中心，全国算力节点遍及上海、广州、重庆、深圳、福州等地。据AI在线此前报道，商汤截至 2024 年 6 月 30 日的半年报数据显示，2024 年上半年，集团总收入为 17.397 亿元，同比增长 21.4%。其中生成式 AI 收入为 10.512 亿元，同比大幅增长 255.

9/6/2024 3:47:45 PM

沛霖（实习）

商汤发布日日新 5.0 大模型：推理上下文窗口 200K，号称对标 GPT-4 Turbo

感谢4 月 23 日，商汤科技发布了日日新 5.0 大模型。据介绍，该模型采用 MOE 混合专家架构，在知识、数学、推理和代码能力方面大幅提升。该模型基于超过 10TB tokens 训练，具备 200K 推理上下文窗口（IT之家注：相当于 36.5 万个汉字），推理时上下文窗口达到 200K 左右，更号称“全面对标 GPT-4 Turbo”。其提供自然语言处理、图片生成、自动化数据标注、自定义模型训练等多种大模型及能力。文科能力方面，其在创意写作、推理总结等方面能力均有提升，可为教育、内容产业等垂直应用场景提供辅

4/24/2024 7:30:24 PM

清源

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

相关资讯

商汤Vimi相机改名显演包APP 已在各个应用商店正式上线

商汤科技：目前投建的国产化 AI 算力集群已拥有 5.4 万张 GPU，最高算力达 2 万 P

商汤发布日日新 5.0 大模型：推理上下文窗口 200K，号称对标 GPT-4 Turbo