出品 | 51CTO技术栈(微信号:blog51cto)
今天,可灵全系正式进入2.0时代了!
先来看看2.0动态质量、语义响应、画面美学等维度做了升级,直接看视频是最直观的:
要知道,可灵1.6表现已经相当能打,做到了文生图行业第一,文生视频行业第二的水平。
图片
根据发布会介绍,可灵AI全球用户规模突破2200万,过去的10个月里,其月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。
图片
而这次2.0的重磅发布,直接让可灵系列成为当之无愧的世界冠军——还是双料的。
- 在文生图模型方面,可图大模型对上最新的midjourney V7丝毫不虚,拥有307%的胜负比。
- 而在文生视频方面,可灵也是倍杀文生视频“始祖”Sora,达到了惊人的367%的胜负比!
(注:胜负比为100%时说明两个模型同样厉害)
图片
当然,对于可灵这样已经有庞大用户基础的产品来说,还是用户体验的声量最大。这就不得不提到可灵2.0一个非常重大的突破——一个全新的AI交互理念,MVL,让AI生视频的可控性满到爆表了。
MVL让AI更好地进入人类的想象世界,多模态编辑震撼登场
据快手盖坤介绍,在本次2.0模型迭代中,Multi-modal Visual Language(MVL),让用户能够结合图像参考、视频片段等多模态信息,将脑海中的多维度复杂创意,直接高效地传达给AI。
图片
这样说可能比较抽象,一个视频就全get了。
Prompt以前要吭哧吭哧写半天,而人类和AI的颗粒度还对不齐。有了MVL,不用再形容主角是什么样的容貌、戴什么样的帽子,直接是A戴着B这样的帽子,出现在C这个场景中即可,AI就能轻松生成我们需要的内容。
基于MLV的思想,可灵开发并正式推出了多模态编辑。简单地说,我们在GPT-4o里玩的换脸、换物品,得到了视频级的完美实现。
感觉真是万物皆可换,就一句话的事,小姐姐面前的杯子、美食都能神奇地改变,甚至人物的妆容、造型也都能随心切换。
可灵2.0大师版的多维升级:语义响应、动态质量、画面美学更好了
全新的可灵2.0大师版,针对生视频模型的痛点进行了“精准升级”。
先来看看语义的遵循方面,2.0的情绪表现力更强了,仿佛AI新修了一堂表演大师课!
镜头环绕也表现地更贴切了!
在动态质量上,不仅减少了AI生视频常有的动作崩坏,而且还对动作精准度、速度等细节上有了提升。看看这个可灵2.0生成的野猪追赶,更加身临其境,让人有紧迫感。
最后,在画面上,快手可灵希望用户能生成更美、更真实的视频画面。
相比可灵1.6,2.0的生成更有大片质感、细节更丰富、画风保持更好、角色演绎也更加生动了。
最后,可灵2.0发布即上线,大家可以玩起来了!
https://app.klingai.com/cn/
图片