地表最强，全面第一！可灵2.0多模态编辑震撼全场！开辟视频模型的“新语言”，Prompt的门槛被砍没了！

2025-04-15 06:07

出品 | 51CTO技术栈（微信号：blog51cto）今天，可灵全系正式进入2.0时代了！先来看看2.0动态质量、语义响应、画面美学等维度做了升级，直接看视频是最直观的：要知道，可灵1.6表现已经相当能打，做到了文生图行业第一，文生视频行业第二的水平。图片根据发布会介绍，可灵AI全球用户规模突破2200万，过去的10个月里，其月活用户量增长25倍，累计生成超过1.68亿个视频及3.44亿张图片。

出品 | 51CTO技术栈（微信号：blog51cto）

今天，可灵全系正式进入2.0时代了！

先来看看2.0动态质量、语义响应、画面美学等维度做了升级，直接看视频是最直观的：

地表最强，全面第一！可灵2.0多模态编辑震撼全场！开辟视频模型的“新语言”，Prompt的门槛被砍没了！

要知道，可灵1.6表现已经相当能打，做到了文生图行业第一，文生视频行业第二的水平。

图片

根据发布会介绍，可灵AI全球用户规模突破2200万，过去的10个月里，其月活用户量增长25倍，累计生成超过1.68亿个视频及3.44亿张图片。

图片

而这次2.0的重磅发布，直接让可灵系列成为当之无愧的世界冠军——还是双料的。

在文生图模型方面，可图大模型对上最新的midjourney V7丝毫不虚，拥有307%的胜负比。
而在文生视频方面，可灵也是倍杀文生视频“始祖”Sora，达到了惊人的367%的胜负比！

（注：胜负比为100%时说明两个模型同样厉害）

图片

当然，对于可灵这样已经有庞大用户基础的产品来说，还是用户体验的声量最大。这就不得不提到可灵2.0一个非常重大的突破——一个全新的AI交互理念，MVL，让AI生视频的可控性满到爆表了。

MVL让AI更好地进入人类的想象世界，多模态编辑震撼登场

据快手盖坤介绍，在本次2.0模型迭代中，Multi-modal Visual Language（MVL），让用户能够结合图像参考、视频片段等多模态信息，将脑海中的多维度复杂创意，直接高效地传达给AI。

图片

这样说可能比较抽象，一个视频就全get了。

Prompt以前要吭哧吭哧写半天，而人类和AI的颗粒度还对不齐。有了MVL，不用再形容主角是什么样的容貌、戴什么样的帽子，直接是A戴着B这样的帽子，出现在C这个场景中即可，AI就能轻松生成我们需要的内容。

地表最强，全面第一！可灵2.0多模态编辑震撼全场！开辟视频模型的“新语言”，Prompt的门槛被砍没了！

基于MLV的思想，可灵开发并正式推出了多模态编辑。简单地说，我们在GPT-4o里玩的换脸、换物品，得到了视频级的完美实现。

地表最强，全面第一！可灵2.0多模态编辑震撼全场！开辟视频模型的“新语言”，Prompt的门槛被砍没了！

感觉真是万物皆可换，就一句话的事，小姐姐面前的杯子、美食都能神奇地改变，甚至人物的妆容、造型也都能随心切换。

可灵2.0大师版的多维升级：语义响应、动态质量、画面美学更好了

全新的可灵2.0大师版，针对生视频模型的痛点进行了“精准升级”。

先来看看语义的遵循方面，2.0的情绪表现力更强了，仿佛AI新修了一堂表演大师课！

镜头环绕也表现地更贴切了！

在动态质量上，不仅减少了AI生视频常有的动作崩坏，而且还对动作精准度、速度等细节上有了提升。看看这个可灵2.0生成的野猪追赶，更加身临其境，让人有紧迫感。

最后，在画面上，快手可灵希望用户能生成更美、更真实的视频画面。

相比可灵1.6，2.0的生成更有大片质感、细节更丰富、画风保持更好、角色演绎也更加生动了。

最后，可灵2.0发布即上线，大家可以玩起来了！

https://app.klingai.com/cn/

图片

「Sora平替」来了！一键生成5秒视频，还免费，我们实测：很顶！

机器之能报道编辑：山茶花人家主打一个免费，还要啥自行车。自 Sora 发布以来，AI 圈掀起一场轰轰烈烈的文生视频革命。例如，Lightricks 推出生成式 AI 视频讲故事平台 LTX Studio，Genmo 融资 3000 万美元躬身入局，还有上周谷歌兴奋发布的 Veo…… 无一例外，都打着「对标 Sora」的旗号。最近，AI 文生视频领域又迎踢馆者 ——Viva，号称「让每一刻都栩栩如生」。该应用不仅可以文生视频、图生视频，还支持 4K 分辨率放大功能。其中文生视频可生成 5 秒视频，图生视频则为 4 秒

5/21/2024 5:19:00 PM

机器之能