可灵1.5模型新升级!行业首发人脸定制模型

出品 | 51CTO技术栈(微信号:blog51cto)近日,可灵1.5模型也迎来再次升级,支持在图生视频高品质模式下,使用多达六种运镜控制方式和运动笔刷功能。 最新数据显示,可灵AI用户已累计生成超5100万个视频和1.5亿张图片。 图片11月25日消息,快手可灵AI在全球上线业内首个视频模型定制功能,解决了AI视频生成中人物IP(知识产权)稳定性难题。

出品 | 51CTO技术栈(微信号:blog51cto)

近日,可灵1.5模型也迎来再次升级,支持在图生视频高品质模式下,使用多达六种运镜控制方式和运动笔刷功能。最新数据显示,可灵AI用户已累计生成超5100万个视频和1.5亿张图片。

图片图片

11月25日消息,快手可灵AI在全球上线业内首个视频模型定制功能,解决了AI视频生成中人物IP(知识产权)稳定性难题。目前,用户可在可灵AI web端使用该功能训练定制人脸模型,并参照该模型继续生成视频内容,满足用户创作多个包含同一人物镜头的诉求。

图片图片

如何在AI视频生成中保持人物尤其是面部的一致性,一直是业界难题。由于AI视频生成具有较强的随机性,同样的文字描述生成的主体,可能会产生不小的差异,让用户难以完成连续的故事创作。

早在10月底的一场论坛上,快手副总裁、大模型团队负责人张迪就曾表示,可灵AI将内测视频人脸模型功能,支持用户自助训练人脸模型,并使用该模型进行文生视频。

此次可灵AI的视频人脸模型功能,能够支持用户在可灵1.5模型上传多段多角度高清视频,简易快速地自助训练人脸模型。完成训练后,可在后续参考该人脸模型,进行5-10秒的文生视频,帮助创作者打造稳定人物IP角色,同时使单个镜头中的人脸更稳定、清晰。

相关资讯

提前 0.9 秒预测,Emo 机器人问世:能同步模仿你的面部表情

名为 Emo 的仿人机器人近日问世,它会观察你的面部表情,然后可以镜像模仿你的面部表情,达到你笑它也笑的效果。人工智能(AI)目前快速发展,现在固然可以在很大程度上模仿人类语言,不过放在实体机器人中,互动往往会产生“恐怖谷理论”(Uncanny Valley),一个重要的原因是机器人无法复制复杂的非语言暗示和举止。纽约哥伦比亚大学的霍德・利普森(Hod Lipson)及其同事们创造了一个名为 Emo 的机器人,它利用人工智能模型和高分辨率摄像头预测人们的面部表情,并试图复制这些表情。它能在某人微笑前约 0.9 秒预

微软推出 VASA-1 AI 框架,可即时生成 512x512 40FPS 逼真对口型人像视频

据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就能够生成精确逼真的对口型视频(生成念稿子的视频),据称在表情和头部动作方面特别自然。IT之家获悉,目前业界相关许多研究都集中在对口型上,而面部动态行为及头部运动情况通常被忽视,因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往面部生成技术的限制,研究人员利用了扩散 Transformer 模型,在整体面部动态和头部运动方面进行训练,该模型将所有可

AI 新研究可用手机检测中风:准确率达 82%,分析面部肌肉运动

来自皇家墨尔本大学(RMIT)生物医学工程师团和圣保罗州立大学的博士生 Guilherme Camargo de Oliveira 共同开发了一款基于 AI 的面部筛查工具,医护人员只需要借助智能手机,在几秒钟内就可以确定患者是否中风。▲ 博士生 Guilherme Camargo de Oliveira 与 RMIT 大学客座副教授 Nemuel Daniel Pah(画面中人物)展示了面部筛查工具该工具在检测中风方面的准确率达到了 82%,但不会取代中风的综合临床诊断测试,仅用于帮助更快地识别需要治疗的人。RM