达摩院跨入 AIGC 深水区，发布一站式 AI 视频创作平台「寻光」

年初，OpenAI 推出文本-视频生成模型 Sora，只需输入提示文本描述，或输入一张图片，Sora 就能生成类似电影大片的逼真场景视频，前所未有的新奇观感，让大众直呼「现实不存在了」。惊叹之余，Sora 所展现出的神奇「魔法」，也让业界意识到 AI 视频生成在高清晰度、高保真度、高质量方面的巨大潜力与价值。此后，AI 视频生成模型摇身一变成为科技圈新的宠儿，并一改之前大语言模型一家独大的格局为两者的分庭抗礼。

年初，OpenAI 推出文本-视频生成模型 Sora，只需输入提示文本描述，或输入一张图片，Sora 就能生成类似电影大片的逼真场景视频，前所未有的新奇观感，让大众直呼「现实不存在了」。

惊叹之余，Sora 所展现出的神奇「魔法」，也让业界意识到 AI 视频生成在高清晰度、高保真度、高质量方面的巨大潜力与价值。

此后，AI 视频生成模型摇身一变成为科技圈新的宠儿，并一改之前大语言模型一家独大的格局为两者的分庭抗礼。

「Sora热」开始席卷全球，直到现在，国内外相关的 AI 视频生成模型或产品工具都将 Sora 奉为业界标杆，沿着一条类 Sora、比肩 Sora、超越 Sora 的道路狂奔。

但不可否认，相较于大语言模型的「狂飙」，目前 AI 视频生成技术还处于早期阶段，距离「ChatGPT」式的爆发仍有一段距离。即便强大如 Sora，也并非完美，在技术端依旧存在着许多未解的问题与挑战。

为此，在当下，如何利用大模型技术的强大能力，破解 AI 视频生成领域的难题，更大程度上地释放 AI 生产力，助推 AI 视频生成再往前进一步，是业界在不断思考和探索的重心。

前几天，在世界人工智能大会上，阿里达摩院发布了一站式 AI 视频创作平台——寻光，似乎为 AI 视频生成的发展带来了新的范式。

可控编辑、一致性难以实现，现有 AI 工作流亟待重塑

关注 Sora 的业界从业者应该都知道几个月前的著名「打假贴」事件。

简单来说，当时 Sora 一经发布，OpenAI 为了展示其强大能力和维持话题热度，邀请了一些专业创作者、行业 KOL 等试用 Sora，并时不时放出双方合作生成的创意视频，吸引大众目光。

其中，有一个合作方是来自于多伦多的 Shy Kids 团队，他们使用 Sora 制作的《Air Head（气球人）》短片，因为创意新颖、将艺术与 AI 技术的完美结合，得到了大众的一致赞美，更有甚者将之称为「Sora 史上最佳短片作品」。

可是令人意想不到的是，后来制作团队发文称，《Air Head》并非由 Sora 一键生成，在实际的制作过程中，有大量的视觉效果是经过人工后期编辑而成，才呈现出最终效果。

达摩院跨入 AIGC 深水区，发布一站式 AI 视频创作平台「寻光」

据他们介绍，整个短片是由多个视频片段组成的，但是在生成不同的视频片段时，很难保证主角始终是个长着黄色气球脑袋的人，有时候气球上会自动「长出」一张人脸，或者依照常识给主角安装一个不符合剧情的脑袋，等等，bug多到创作人员频频吐槽「生成过程很难控制」。

另外，还有角色对象一致性的问题。

在短片中，主角的衣服和那顶标志性的黄色气球脑袋充斥着剧情的始终，「丝滑」到看不出这是由多个视频片段组成的。但实际上，Sora 并不能够保证不同分镜头之间的主体一致性，仅仅依靠输入提示词，就想让主角的衣服和气球颜色保持一致根本不可行。这也是为什么后期需要那么多的人工参与。

彼时新闻一出，业界在感到震惊之余，也意识到，即便是 Sora，生成内容都需要大量的人工参与，难以为这些问题提供良好的解决方案，那么可想而知在整个领域中这些问题的普遍性。

的确如此。

据达摩院视觉技术实验室高级算法专家陈威华介绍，在寻光平台的研发过程中，团队对当下的一众现有视频创作工具进行了大量的调研，并走访了许多视频创作者，对目前业界存在的问题汇总、分析之后发现，当前在 AI 视频生成领域，对于生成内容的可控编辑、一致性等问题是创作过程中的重要需求，也是当前算法面临的最大挑战。

「现有 AI 工作流亟待重塑。」

在他看来，如今各种视频生成大模型已经让大家感受到了 AI 技术带来的福利，给短视频制作提供了各种各样的素材。而在素材齐全之后，接下来要做的就是进一步提升视频制作的效率，解决视频后期编辑中存在的各种问题。

而这也正是达摩院推出寻光平台的初衷。

「我们的目标是用 AI 能力去重塑传统视频制作的整个流程，打造 AI 时代的全新视频工作流。寻光视频创作平台，最大的特点是让用户实现对视频内容的精准控制，同时可以保持多个视频中角色和场景的一致性。」陈威华说道。

「让编辑像操作PPT一样简洁直观，容易上手」

在发布现场，陈威华形容寻光平台的推出，会对当前的视频创作工作流进行优化，使得 AI 视频生成的工作范式发生新的变革，「让编辑像操作 PPT 一样简洁直观，容易上手」。

达摩院跨入 AIGC 深水区，发布一站式 AI 视频创作平台「寻光」

那么，寻光平台具体是怎么做到的呢？其实可以通过几个关键词来认识它。

一个是「一站式 AI 视频创作平台」，如何理解？

大家都知道，当前市面上存在各种各样的 AI 视频生成工具，但是仔细看下来，当创作者想要创作一个视频时，可能需要不同的工具来生成文字、图片、分镜头等素材，最后再把它们汇总放在一起，生成最终的视频。但在这个过程中，创作者往往需要在不同工具间流转，获取不同的素材，不仅耗时，而且容易出错，对创作者来说十分不友好。

而有了寻光平台，直接可以一步到位，不再需要再多个平台中间来回「转场」。

比如，用户在创作时，从剧本创作、分镜生成到素材编辑等全套操作，都可以在寻光平台上完成。另外，通过工作流整合提升了创作全流程的效率，支持对生成及上传素材进行丰富的 AI 编辑，提供人物控制、场景控制、风格迁移、运镜控制、目标新增/消除/修改等十多种 AI 编辑功能，让视频中的元素和对象精准可控。

达摩院跨入 AIGC 深水区，发布一站式 AI 视频创作平台「寻光」