全部标签

豆包大模型

真·打字P图！字节发布新模型SeedEdit，一句话爆改世界名画，可免费体验

一句话实时P图，网友又能整活了。字节豆包大模型又又又上新了！ 11 月 11 日，字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit，主打一句话轻松 P 图。
应用
- 3
- 0
机器之心11月11日
LeCun赞转！类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究揭秘

视频生成模型虽然可以生成一些看似符合常识的视频，但被证实目前还无法理解物理规律！自从 Sora 横空出世，业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示，基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。
应用
- 4
- 0
机器之心11月8日
字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。
工程
- 1
- 0
机器之心11月7日
终于拿到内测！豆包-PixelDance真是字节视频生成大杀器

「火山爆发，震撼天地。」这八个字会在你的头脑中触发怎样的影像？是否与下面的视频类似？提示词：火山喷发，升起巨大蘑菇云，岩浆顺着山体往下流，镜头拉近，岩浆正在火山口跳动冒出。这段 10 秒的视频是豆包视频生成模型基于以上提示词想象创造的。可以说这段视频的拟真度非常高，并且有着娴熟的运镜，足以放入任何影视作品中。有着剪映、即梦等视频创作工具的字节跳…
应用
- 10
- 0
机器之心9月29日
大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

2024 火山引擎 AI 创新巡展上海站于近日举办，活动展示了豆包大模型在综合评分、语音识别等方面的效果提升，还发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR ，提供了语音识别能力支持。Seed-ASR 是一款 ASR（自动语音识别）成果。它能准确转录各种语音信号，识别不同语言、方言、口音。对于人名、生词，Seed-ASR 也能结合文本语音等上下文，实现更准确转录。该成…
应用
- 16
- 0
机器之心8月22日
1篇Outstanding、5篇Oral！字节跳动今年ACL这么猛？来直播间聊聊！

本周学术界瞩目的焦点，无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者，大家汇聚一堂，共同探讨和分享最新学术成果。官方公布的数据显示，本届 ACL 共收到近 5000 篇论文投稿，其中 940 篇被主会录用，168 篇工作入选大会口头报告（Oral），录取率低于 3.4%，这当中，字节跳动共有 5 篇成果中选 Oral。在 8 月 14 日下午的 Paper Aw…
应用
- 20
- 0
机器之心8月15日
日均tokens使用量超5000亿，AI生图玩法猛猛上新：豆包大模型为什么越来越「香」了？

2024 年的 AI 图像生成技术，又提升到了一个新高度。技术的飞速迭代，让这一领域的商业化落地进入加速阶段。前有 Midjourney v6 史诗级更新，后有开源巨头 Stable Diffusion 3 独领风骚，而 DALL・E 3 背靠 ChatGPT 这棵「大树」，也收获了众多用户的关注。当然了，在这条赛道上，来自国内的选手毫不逊色。近日，国产大模型「顶流」—— 字节跳动豆包大模型，迎来…
应用
- 25
- 0
机器之心7月29日
耳朵没错，是声响太真了，字节豆包语音合成成果Seed-TTS技巧揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样，连发音瑕疵也能生成出来，尤其在学习模仿人类说话方面，相似性和自然度均有很好表现。举例来说，将一段语音提供给 Seed-TTS，它就能按文本生成全新语音，且带上原素材的声响特征。原素材（Prompt）：Seed-TTS 生成的中文语音：突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩…
应用
- 5
- 0
机器之心6月26日
字节豆包、武大提出 CAL：通过视觉相干的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇实质，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]当前主流的视觉说话模型（VLM）主要鉴于大说话模型（LLM）进一步微…
工程
- 6
- 0
机器之心6月17日
大模型价格进入“厘”时代，豆包大模型定价每千tokens仅0.8厘

大模型的性价比之战已经来到了新的阶段。5月15日，2024火山引擎FORCE原动力大会上，火山引擎总裁谭待宣布，字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”：豆包通用模型pro-32k版，推理输入价格0.0008元/千tokens，较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens，相当于三本《三国演义》的输入量。谭待认为，降低…
应用
- 29
- 0
机器之心5月15日