一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

感谢商汤科技在世界人工智能大会(WAIC)上发布了首个“可控”人物视频生成大模型 Vimi,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。与图片表情控制类技术只能控制头部表情动作不同,商汤称 Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,满足娱乐
感谢商汤科技在世界人工智能大会(WAIC)上发布了首个“可控”人物视频生成大模型 Vimi,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

与图片表情控制类技术只能控制头部表情动作不同,商汤称 Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。

一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,满足娱乐互动等需要长时间稳定视频生成需求。

一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

Vimi 将完全面向 C 端用户开放使用,用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。

一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

由 Vimi 生成的视频人物不再只是呆板的五官运动,而是搭配手势、肢体、头发等,形成更完整、统一的人物动作,让创作者可基于生成的视频素材进行剪辑和再创作。

商汤表示将在明日公布 Vimi 的更多细节,IT之家也会持续关注并带来跟进报道。

相关资讯

商汤Vimi相机改名显演包APP 已在各个应用商店正式上线

近日,商汤科技旗下的Vimi相机正式更名为显演包APP,并已在各大应用商店上线。 站长之家了解到,显演包APP是一款专为创意十足、热爱表达的内容创作者设计的AI表演应用,具备强大的生成功能和活跃的创意社区。 用户可以通过AI角色扮演功能,轻松演绎经典角色;利用AI变声器,实现声音的千变万化;还能在创意社区与其他创作者交流互动,碰撞出更多创意火花。

商汤科技:目前投建的国产化 AI 算力集群已拥有 5.4 万张 GPU,最高算力达 2 万 P

据界面新闻报道,在今日举办的 2024 REAL 科技大会上,商汤数字文娱事业部总经理栾青介绍称,目前商汤投建的国产化人工智能算力集群已拥有 5.4 万张 GPU,最高算力达 2 万 P。栾青表示,商汤正在上海临港投建全国最大规模人工智能数据中心,全国算力节点遍及上海、广州、重庆、深圳、福州等地。据AI在线此前报道,商汤截至 2024 年 6 月 30 日的半年报数据显示,2024 年上半年,集团总收入为 17.397 亿元,同比增长 21.4%。其中生成式 AI 收入为 10.512 亿元,同比大幅增长 255.

商汤发布日日新 5.0 大模型:推理上下文窗口 200K,号称对标 GPT-4 Turbo

感谢4 月 23 日,商汤科技发布了日日新 5.0 大模型。据介绍,该模型采用 MOE 混合专家架构,在知识、数学、推理和代码能力方面大幅提升。该模型基于超过 10TB tokens 训练,具备 200K 推理上下文窗口(IT之家注:相当于 36.5 万个汉字),推理时上下文窗口达到 200K 左右,更号称“全面对标 GPT-4 Turbo”。其提供自然语言处理、图片生成、自动化数据标注、自定义模型训练等多种大模型及能力。文科能力方面,其在创意写作、推理总结等方面能力均有提升,可为教育、内容产业等垂直应用场景提供辅