一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

感谢商汤科技在世界人工智能大会(WAIC)上发布了首个“可控”人物视频生成大模型 Vimi,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。与图片表情控制类技术只能控制头部表情动作不同,商汤称 Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,满足娱乐
感谢商汤科技在世界人工智能大会(WAIC)上发布了首个“可控”人物视频生成大模型 Vimi,通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

与图片表情控制类技术只能控制头部表情动作不同,商汤称 Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。

一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

同时 Vimi 可稳定生成 1 分钟的单镜头人物类视频,画面效果不会随着时间的变化而劣化或失真,满足娱乐互动等需要长时间稳定视频生成需求。

一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

Vimi 将完全面向 C 端用户开放使用,用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。

一张照片创造 1 分钟人物视频,商汤发布首个“可控”人物视频生成大模型 Vimi

由 Vimi 生成的视频人物不再只是呆板的五官运动,而是搭配手势、肢体、头发等,形成更完整、统一的人物动作,让创作者可基于生成的视频素材进行剪辑和再创作。

商汤表示将在明日公布 Vimi 的更多细节,IT之家也会持续关注并带来跟进报道。

相关资讯

商汤科技:目前投建的国产化 AI 算力集群已拥有 5.4 万张 GPU,最高算力达 2 万 P

据界面新闻报道,在今日举办的 2024 REAL 科技大会上,商汤数字文娱事业部总经理栾青介绍称,目前商汤投建的国产化人工智能算力集群已拥有 5.4 万张 GPU,最高算力达 2 万 P。栾青表示,商汤正在上海临港投建全国最大规模人工智能数据中心,全国算力节点遍及上海、广州、重庆、深圳、福州等地。据AI在线此前报道,商汤截至 2024 年 6 月 30 日的半年报数据显示,2024 年上半年,集团总收入为 17.397 亿元,同比增长 21.4%。其中生成式 AI 收入为 10.512 亿元,同比大幅增长 255.

商汤发布日日新 5.0 大模型:推理上下文窗口 200K,号称对标 GPT-4 Turbo

感谢4 月 23 日,商汤科技发布了日日新 5.0 大模型。据介绍,该模型采用 MOE 混合专家架构,在知识、数学、推理和代码能力方面大幅提升。该模型基于超过 10TB tokens 训练,具备 200K 推理上下文窗口(IT之家注:相当于 36.5 万个汉字),推理时上下文窗口达到 200K 左右,更号称“全面对标 GPT-4 Turbo”。其提供自然语言处理、图片生成、自动化数据标注、自定义模型训练等多种大模型及能力。文科能力方面,其在创意写作、推理总结等方面能力均有提升,可为教育、内容产业等垂直应用场景提供辅

商汤推出粤语版商量语言 / 多模态大模型,可深入理解粤语俚语、粤文化

感谢据商汤科技官方公众号,在 5 月 29 日香港举办的“商量粤语版发布会暨商汤科技十周年志庆启动礼”上,商汤宣布将免费向粤语区用户推出粤语大模型 Web 版及 App 版,“商量语言大模型粤语版”及“商量多模态大模型粤语版”即日起向企业用户开放 API。商汤科技董事长兼 CEO 徐立表示,“商汤科技十年前于香港成立,在这个地方推出商量粤语版,对我们来说有着重大的意义。凭借日日新大模型 5.0 系列的创新产品及其巨大潜力,我们致力推动香港人工智能生态系统的发展。”据介绍,商汤“日日新 5.0”(IT之家注:已于 4