清华创业团队帮你造梦,Idea秒变微电影,最长可达数十分钟!

机器之能报道编辑:Cardinal开创性地将多模型智能体协作技术引入视频领域,只需要输入一句话,Dream Factory 就会自动生成完整的剧本和视频。它是剧本作者,亦是视频导演。AI 生成视频场景、情节单一是当下大模型的通病 随着大模型的飞速发展,文字生成视频领域迅速火爆。然而,目前的文字生成视频通常是一句话生成单场景、单情节的视频,即使是头部视频大模型发布的东京佳人、雪地幼犬等视频 Demo,亦逃不开单场景、单情节的限制。在实际应用过程中,用户更需要的是多场景、多情节、有故事性的视频,将文字生成多场景、多情节

机器之能报道

编辑:Cardinal

开创性地将多模型智能体协作技术引入视频领域,只需要输入一句话,Dream Factory 就会自动生成完整的剧本和视频。它是剧本作者,亦是视频导演。

AI 生成视频场景、情节单一是当下大模型的通病 

随着大模型的飞速发展,文字生成视频领域迅速火爆。然而,目前的文字生成视频通常是一句话生成单场景、单情节的视频,即使是头部视频大模型发布的东京佳人、雪地幼犬等视频 Demo,亦逃不开单场景、单情节的限制。在实际应用过程中,用户更需要的是多场景、多情节、有故事性的视频,将文字生成多场景、多情节、有故事性的视频是该领域的必然发展趋势。 

图片

让大模型像一支团队一样协作运转 

每个大模型均为一个独立的智能体或“大脑”,随着大模型的飞速发展,其正在为各行各业全面赋能。然而,在复杂任务中,大模型“单兵作战”已经无法直接满足需求,多模型智能体协作框架的产生成为了新的解决方案。该框架使用智能体协作/工作流技术扩展大语言模型的多模态能力,类似于现实社会的企业组织运转,其打造了一支由多个大模型组成的 AI 团队。 

图片

清华创业团队帮你造梦,Idea 秒变微电影

来自清华创业协会的本科大四学生谢之非以及卢森堡大学博士研究员 Daniel Tang 等团队开创性地将多模型智能体协作技术引入视频领域,打造“ Dream Factory ”产品。通过对不同大模型赋予不同的角色和分工定义,创建高效协作的工作流,实现一键式将一句话生成多情节、多场景的“微电影”视频。只需要输入一句话,Dream Factory 就会自动生成完整的剧本和视频。它是剧本作者,亦是视频导演。 

情形一:输入一句话或一段话,选择所需的视频长度后,Dream Factory 将发挥自主创作能力,自动生成完整的剧本和视频。例如输入“中世纪战士打败巨龙保卫家园”,生成的视频 Demo 如下: 

清华创业团队帮你造梦,Idea秒变微电影,最长可达数十分钟!

视频链接:https://mp.weixin.qq.com/s/KYj-09JnfPsYjEgZM1W2ug

情形二:输入一段固定文本,由 Dream Factory 将固定文本直接生成对应的视频,例如输入一段演讲稿后,生成的视频 Demo 如下: 

清华创业团队帮你造梦,Idea秒变微电影,最长可达数十分钟!

视频链接:https://mp.weixin.qq.com/s/KYj-09JnfPsYjEgZM1W2ug

除了多模型智能体协作技术,Dream Factory 还引入了全新的长短期记忆数据库、数十个 Prompt 控制因子设计以及镜头-语音组合单元等技术,保持了大模型和视频的稳定性、前后统一性以及流畅性。Dream Factory 生成的视频长度最长可达到数十分钟,保持场景、角色、主题的高度一致。目前,该团队的相关论文即将发布。

让每个人都能一键式生成微电影 

他们致力于通过AI重新定义视频制作,让每个人都可以一键式制作动画、短视频、宣传片、微电影等,让每个Idea都可立即成为Video,助力每一个创作的梦想。同时,这也是一个来自于清华学生创业团队的梦。 

让每个人都能有一支自己的AI团队 

长远来看,他们致力于打造大模型工作流平台,通过将工作流模块化、标准化,用户可以自定义工作流的运转及各环节所需的智能体,实现自定义的多模型智能体协作。让我们拭目以待! 

了解 Dream Factory 后续进展,这里有传送门:http://dreamfactory.yaphet.cn/.

微博ID:DreamFactoryTech

相关资讯

10 倍速度提升,新版 Dream Machineds 可在 20 秒内极速生成高质量 AI 视频

科技媒体 The Decoder 昨日(10 月 1 日)发布博文,报道称 Luma AI 升级推出 1.6 版 Dream Machine,AI 视频生成速度快 10 倍。Luma AI 简介Luma AI 是一家专注于人工智能技术的公司,主要提供视频生成和 3D 捕捉的解决方案。Dream Machine 简介Dream Machine 是一个先进的文本转视频生成器,用户可以通过输入文本来创建引人注目的视频。这项技术旨在激发创意,帮助用户实现更大的创作潜力。官方介绍如下:梦想机器让每个人都可以在迄今为止无法进入

模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected] 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力

120 秒生成 120 帧,视频模型 Dream Machine 开放测试免费试用

Luma AI 在 X 平台宣布,视频模型 Dream Machine 开放测试,可进行免费试用。IT之家附 Dream Machine 地址:  AI 称 Dream Machine 可以从文本和图像生成“高质量”的视频。Dream Machine 可在 120 秒生成 120 帧,目前单个视频最长为 5 秒;生成的视频具有逼真的流畅运动、电影摄影和戏剧效果;还可以匹配摄像机运动,创造出“惊艳”的画面。Luma AI 也提到了目前模型存在的问题,比如切换视角时汽车会变形,狗的运动没有用到爪子,显示文字会有问题(将