机器之能报道
编辑:Cardinal
开创性地将多模型智能体合作技巧引入视频范围,只需要输出一句话,Dream Factory 就会主动生成残缺的脚本和视频。它是脚本作者,亦是视频导演。
AI 生成视频场景、情节单一是当下大模型的通病
随着大模型的飞速发展,笔墨生成视频范围迅速火爆。然而,目前的笔墨生成视频通常是一句话生成单场景、单情节的视频,即使是头部视频大模型发布的东京佳人、雪地幼犬等视频 Demo,亦逃不开单场景、单情节的限制。在实际应用过程中,用户更需要的是多场景、多情节、有故事性的视频,将笔墨生成多场景、多情节、有故事性的视频是该范围的必然发展趋势。
让大模型像一支团队一样合作运行
每一个大模型均为一个独立的智能体或“大脑”,随着大模型的飞速发展,其正在为各行各业全面赋能。然而,在复杂任务中,大模型“单兵作战”已经无法直接满足需求,多模型智能体合作框架的产生成为了新的解决方案。该框架使用智能体合作/事情流技巧扩展大语言模型的多模态能力,类似于现实社会的企业组织运行,其打造了一支由多个大模型组成的 AI 团队。
清华守业团队帮你造梦,Idea 秒变微影戏
来自清华守业协会的本科大四学生谢之非以及卢森堡大学博士研究员 Daniel Tang 等团队开创性地将多模型智能体合作技巧引入视频范围,打造“ Dream Factory ”产品。通过对不同大模型赋予不同的角色和分工定义,创建高效合作的事情流,实现一键式将一句话生成多情节、多场景的“微影戏”视频。只需要输出一句话,Dream Factory 就会主动生成残缺的脚本和视频。它是脚本作者,亦是视频导演。
情形一:输出一句话或一段话,选择所需的视频长度后,Dream Factory 将发挥自主创作能力,主动生成残缺的脚本和视频。例如输出“中世纪战士打败巨龙保卫家园”,生成的视频 Demo 如下:
视频链接:https://mp.weixin.qq.com/s/KYj-09JnfPsYjEgZM1W2ug
情形二:输出一段固定文本,由 Dream Factory 将固定文本直接生成对应的视频,例如输出一段演讲稿后,生成的视频 Demo 如下:
视频链接:https://mp.weixin.qq.com/s/KYj-09JnfPsYjEgZM1W2ug
除了多模型智能体合作技巧,Dream Factory 还引入了全新的长短期记忆数据库、数十个 Prompt 控制因子设计以及镜头-语音组合单元等技巧,保持了大模型和视频的稳定性、前后统一性以及流畅性。Dream Factory 生成的视频长度最长可达到数十分钟,保持场景、角色、主题的高度一致。目前,该团队的相关论文即将发布。
让每一个人都能一键式生成微影戏
他们致力于通过AI重新定义视频制作,让每一个人都可以一键式制作动画、短视频、宣传片、微影戏等,让每一个Idea都可立即成为Video,助力每一个创作的梦想。同时,这也是一个来自于清华学生守业团队的梦。
让每一个人都能有一支自己的AI团队
长远来看,他们致力于打造大模型事情流平台,通过将事情流模块化、标准化,用户可以自定义事情流的运行及各环节所需的智能体,实现自定义的多模型智能体合作。让我们拭目以待!
了解 Dream Factory 后续进展,这里有传送门:http://dreamfactory.yaphet.cn/.
微博ID:DreamFactoryTech