清华守业团队帮你造梦，Idea秒变微影戏，最长可达数十分钟！

机器之能报道编辑：Cardinal开创性地将多模型智能体合作技巧引入视频范围，只需要输出一句话，Dream Factory 就会主动生成残缺的脚本和视频。它是脚本作者，亦是视频导演。AI 生成视频场景、情节单一是当下大模型的通病随着大模型的飞速发展，笔墨生成视频范围迅速火爆。然而，目前的笔墨生成视频通常是一句话生成单场景、单情节的视频，即使是头部视频大模型发布的东京佳人、雪地幼犬等视频 Demo，亦逃不开单场景、单情节的限制。在实际应用过程中，用户更需要的是多场景、多情节、有故事性的视频，将笔墨生成多场景、多情节

机器之能报道

编辑：Cardinal

开创性地将多模型智能体合作技巧引入视频范围，只需要输出一句话，Dream Factory 就会主动生成残缺的脚本和视频。它是脚本作者，亦是视频导演。

AI 生成视频场景、情节单一是当下大模型的通病

随着大模型的飞速发展，笔墨生成视频范围迅速火爆。然而，目前的笔墨生成视频通常是一句话生成单场景、单情节的视频，即使是头部视频大模型发布的东京佳人、雪地幼犬等视频 Demo，亦逃不开单场景、单情节的限制。在实际应用过程中，用户更需要的是多场景、多情节、有故事性的视频，将笔墨生成多场景、多情节、有故事性的视频是该范围的必然发展趋势。

清华守业团队帮你造梦，Idea秒变微影戏，最长可达数十分钟！

让大模型像一支团队一样合作运行

每一个大模型均为一个独立的智能体或“大脑”，随着大模型的飞速发展，其正在为各行各业全面赋能。然而，在复杂任务中，大模型“单兵作战”已经无法直接满足需求，多模型智能体合作框架的产生成为了新的解决方案。该框架使用智能体合作/事情流技巧扩展大语言模型的多模态能力，类似于现实社会的企业组织运行，其打造了一支由多个大模型组成的 AI 团队。

清华守业团队帮你造梦，Idea秒变微影戏，最长可达数十分钟！

清华守业团队帮你造梦，Idea 秒变微影戏

来自清华守业协会的本科大四学生谢之非以及卢森堡大学博士研究员 Daniel Tang 等团队开创性地将多模型智能体合作技巧引入视频范围，打造“ Dream Factory ”产品。通过对不同大模型赋予不同的角色和分工定义，创建高效合作的事情流，实现一键式将一句话生成多情节、多场景的“微影戏”视频。只需要输出一句话，Dream Factory 就会主动生成残缺的脚本和视频。它是脚本作者，亦是视频导演。

情形一：输出一句话或一段话，选择所需的视频长度后，Dream Factory 将发挥自主创作能力，主动生成残缺的脚本和视频。例如输出“中世纪战士打败巨龙保卫家园”，生成的视频 Demo 如下：

清华守业团队帮你造梦，Idea秒变微影戏，最长可达数十分钟！

视频链接：https://mp.weixin.qq.com/s/KYj-09JnfPsYjEgZM1W2ug

情形二：输出一段固定文本，由 Dream Factory 将固定文本直接生成对应的视频，例如输出一段演讲稿后，生成的视频 Demo 如下：

清华守业团队帮你造梦，Idea秒变微影戏，最长可达数十分钟！

视频链接：https://mp.weixin.qq.com/s/KYj-09JnfPsYjEgZM1W2ug

除了多模型智能体合作技巧，Dream Factory 还引入了全新的长短期记忆数据库、数十个 Prompt 控制因子设计以及镜头-语音组合单元等技巧，保持了大模型和视频的稳定性、前后统一性以及流畅性。Dream Factory 生成的视频长度最长可达到数十分钟，保持场景、角色、主题的高度一致。目前，该团队的相关论文即将发布。

让每一个人都能一键式生成微影戏

他们致力于通过AI重新定义视频制作，让每一个人都可以一键式制作动画、短视频、宣传片、微影戏等，让每一个Idea都可立即成为Video，助力每一个创作的梦想。同时，这也是一个来自于清华学生守业团队的梦。

让每一个人都能有一支自己的AI团队

长远来看，他们致力于打造大模型事情流平台，通过将事情流模块化、标准化，用户可以自定义事情流的运行及各环节所需的智能体，实现自定义的多模型智能体合作。让我们拭目以待！

了解 Dream Factory 后续进展，这里有传送门：http://dreamfactory.yaphet.cn/.

微博ID：DreamFactoryTech

{{userData.name}}已认证

清华守业团队帮你造梦，Idea秒变微影戏，最长可达数十分钟！

2个月不见，人形机器人Walker S会叠衣服了

钉钉AIGC实践！如何用AI一键安排工作台使用图标？

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！