字节跳动 AI 助手豆包被曝开启视频生成内测

《科创板日报》称,字节跳动旗下大模型 AI 助手豆包正式推出视频生成内测,支持图片文字一键成片、动态运镜和多镜头一致性、风格比例随意挑选。
感谢继快手、商汤、Minimax 等公司后,字节跳动正式杀入 AI 视频生成领域。

《科创板日报》称,字节跳动旗下大模型 AI 助手豆包正式推出视频生成内测,支持图片文字一键成片、动态运镜和多镜头一致性、风格比例随意挑选。

据火山引擎总裁谭待介绍,豆包视频生成大模型支持多风格多比例的一致性多镜头生成,可应用在电商营销、动画教育、城市文旅、微剧本等领域。他表示,无论是语义理解能力,多个主体运动的复杂交互画面,还是多镜头切换的内容一致性,豆包视频生成大模型均达到业界先进水平。

此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。有创作者在抢鲜体验豆包视频生成模型时发现,其生成的视频不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。

据火山引擎介绍,豆包视频生成模型基于 DiT 架构,通过高效的 DiT 融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。豆包视频生成模型具备专业级光影布局和色彩调和,画面视觉极具美感和真实感。

深度优化的 Transformer 结构,则大幅提升了豆包视频生成的泛化能力,支持 3D 动画、2D 动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。

目前豆包视频生成模型 Pixeldance 和 Seaweed 已在火山引擎开启邀测,企业可通过火山引擎官网邀测报名入口提交测试申请。AI在线注意到,即梦 AI 已经接入了豆包视频生成模型,正在进行小范围内测。

相关阅读:

  • 《豆包大模型发布视频生成模型,语义理解精准、画质高保真》

  • 《豆包视频生成大模型正式发布,首次突破多主体互动难关》

  • 《字节跳动豆包视频生成大模型发布:首次突破多主体互动难关,支持多风格多比例的一致性多镜头生成》

相关资讯

大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘

大模型的性价比之战已经来到了新的阶段。5月15日,2024火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”:豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens,相当于三本《三国演义》的输入量。谭待认为,降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中,许多企业已经从探索尝试大模型,到成功将大模型与核心

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。在这个过程中

耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声音特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”英文语音也可生成,且依然能“复