豆包大模型

百万tokens仅需8毛,不蒸馏造出世界一流大模型,豆包全新1.5Pro不走捷径

马上就要进入蛇年了,国内的 AI 厂商们却完全没有闲下来的意思,正在春节前扎堆发布各自的新一代大模型。 本周一,豆包刚刚上线了全新的实时语音功能,可说是在中文语音对话方面做到了断崖式领先,为终端用户带来了智商与情商双高的实时语音助手和聊天伙伴。 第二天,月之暗面与 DeepSeek 都各自推出了可比肩满血版 o1 的推理模型,吸引了中外无数眼球。

百万 tokens 降至 0.8 元后,消息称字节跳动豆包大模型毛利率达 50%

据界面新闻今日援引多个知情人士消息称,字节跳动旗下的豆包大模型在去年大幅降价后,毛利率仍然为正。

豆包大模型披露2024技术进展,亮相7个月综合能力全面对齐GPT-4o

12月30日,字节豆包大模型对外披露2024全领域技术进展。 距5月15日首次亮相仅7个月,豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面模型能力均已跨入国际第一梯队。 豆包大模型团队表示,“从孩童般学语,到懵懂看世界,到为创作者绘出想象中的奇幻梦境,一切依然处于最早期。

豆包视觉理解模型惊艳亮相:首次评测就排名全球第二

12 月 18 日-19 日,火山引擎 FORCE 原动力大会・冬正式在上海举行。本次大会最引人关注的看点,无疑就是豆包大模型家族的全线升级,以及全新豆包视觉理解模型的发布

豆包说要「普惠」,于是大模型处理图片按「厘」计价了

这段时间,OpenAI 宣告连续 12 轮轰炸,让 2024 年底的大模型领域热闹起来了。 但坚持每个凌晨看直播的话会发现,越到后面的发布越平淡,内心的波动也越少了。 今年的大模型就卷到这里了吗?

抖音副总裁李亮:希望用更低成本推动 AI 技术普惠和应用发展

在昨日举行的火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,为企业提供多模态大模型能力。千 tokens 输入价格仅为 3 厘,一元钱就可处理 284 张 720P 的图片,官方宣称比行业价格便宜 85%。

代码大模型考卷升级!字节开源FullStack Bench,首次覆盖全栈编程超11类真实场景

代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级。 12月5日,字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench,在业界首次囊括编程全栈技术中超11类真实场景,覆盖16种编程语言,包含3374个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。 代码评估基准是衡量大模型编程能力的标准工具,也是推动模型优化的关键驱动力。

真·打字P图!字节发布新模型SeedEdit,一句话爆改世界名画,可免费体验

一句话实时P图,网友又能整活了。 字节豆包大模型又又又上新了! 11 月 11 日,字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit,主打一句话轻松 P 图。

字节豆包通用图像编辑模型SeedEdit开启测试 用户可一句话轻松改图

11月11日,字节在豆包大模型团队官网上公布最新通用图像编辑模型SeedEdit。 SeedEdit支持一句话轻松改图,包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作,通过简单的自然语言即可驱动模型编辑任意图像。 目前,该模型已经在豆包PC端及即梦网页端开启测试。

LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘

视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律! 自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。 图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。 面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。 在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。

字节跳动 AI 助手豆包被曝开启视频生成内测

《科创板日报》称,字节跳动旗下大模型 AI 助手豆包正式推出视频生成内测,支持图片文字一键成片、动态运镜和多镜头一致性、风格比例随意挑选。

终于拿到内测!豆包-PixelDance真是字节视频生成大杀器

「火山爆发,震撼天地。」这八个字会在你的头脑中触发怎样的影像?是否与下面的视频类似?                           提示词:火山喷发,升起巨大蘑菇云,岩浆顺着山体往下流,镜头拉近,岩浆正在火山口跳动冒出。这段 10 秒的视频是豆包视频生成模型基于以上提示词想象创造的。可以说这段视频的拟真度非常高,并且有着娴熟的运镜,足以放入任何影视作品中。有着剪映、即梦等视频创作工具的字节跳动,正式宣告进军 AI 视频生成领域。那是在本周二,「2024 火山引擎 AI 创新巡展」来到了深圳。这一巡展上,字节跳

大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!

2024 火山引擎 AI 创新巡展上海站于近日举办,活动展示了豆包大模型在综合评分、语音识别等方面的效果提升,还发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR ,提供了语音识别能力支持。Seed-ASR 是一款 ASR(自动语音识别)成果。它能准确转录各种语音信号,识别不同语言、方言、口音。对于人名、生词,Seed-ASR 也能结合文本语音等上下文,实现更准确转录。该成果目前已被集成进豆包 APP 、火山引擎相关服务模块中。本文介绍了 Seed-ASR 技术亮点 —— 高精度识别、大容量

1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!

本周学术界瞩目的焦点,无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者,大家汇聚一堂,共同探讨和分享最新学术成果。官方公布的数据显示,本届 ACL 共收到近 5000 篇论文投稿,其中 940 篇被主会录用,168 篇工作入选大会口头报告(Oral),录取率低于 3.4%,这当中,字节跳动共有 5 篇成果中选 Oral。在 8 月 14 日下午的 Paper Awards 环节,字节跳动旗下成果《G-DIG: Towards Gradient-based DIverse and h

日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?

2024 年的 AI 图像生成技术,又提升到了一个新高度。技术的飞速迭代,让这一领域的商业化落地进入加速阶段。前有 Midjourney v6 史诗级更新,后有开源巨头 Stable Diffusion 3 独领风骚,而 DALL・E 3 背靠 ChatGPT 这棵「大树」,也收获了众多用户的关注。当然了,在这条赛道上,来自国内的选手毫不逊色。近日,国产大模型「顶流」—— 字节跳动豆包大模型,迎来一场集中放送:在 2024 火山引擎 AI 创新巡展成都站活动上,豆包大模型团队公布了豆包大模型的最新进展,以及文生图模

耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声音特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”英文语音也可生成,且依然能“复

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。在这个过程中