豆包视觉理解模型惊艳亮相:首次评测就排名全球第二

12 月 18 日-19 日,火山引擎 FORCE 原动力大会・冬正式在上海举行。本次大会最引人关注的看点,无疑就是豆包大模型家族的全线升级,以及全新豆包视觉理解模型的发布

12 月 18 日-19 日,火山引擎 FORCE 原动力大会・冬正式在上海举行。本次大会最引人关注的看点,无疑就是豆包大模型家族的全线升级,以及全新豆包视觉理解模型的发布。

图片 2

豆包视觉理解模型拥有业界领先的内容识别能力、理解和推理能力以及更细腻的视觉描述能力。它相当于是给大模型加入了一双眼睛,从而可以像人类一样认识现实世界、理解现实世界。这无疑拓展了人类与大模型交互的形式和应用场景。

就在火山引擎 Force 大会后,智源研究院发布最新一期大模型评测结果,在视觉语言模型评测中,豆包视觉理解模型排名全球第二,成绩仅次于 GPT-4o。特别是在中文的通用知识、文字识别中,豆包表现突出,相比国外模型有较大优势。

20241219161112

正如生物进化出眼睛,是物种爆发过程中的一个关键因素,为 AI 加上双眼的视觉理解大模型,也将为人工智能生态的丰富性和多样化发展奠定基础。

豆包视觉理解大模型,这些能力行业领先

分析了视觉理解对于大模型的重要性,我们再看这次火山引擎发布的豆包视觉理解模型,其在各方面的领先性,则又是为视觉理解模型的发展探索到了新的天花板。

比如,首先豆包视觉理解大模型拥有更强的内容识别能力,不仅可以识别图像中的物体、形状、类别,要素,还能理解物体之间的关系、空间布局、和场景的整体含义。

比如在发布会的演示中,豆包视觉理解模型可以根据影子的形状识别出这是什么动物的影子,还能根据画面中光线穿过薄雾的美丽景象判断出这是丁达尔效应,并且解释背后的原理。此外我们生活中不太了解的物品,也可以通过豆包视觉理解模型进行拍照识别,从而知道这是什么。

20241219103707

同时豆包视觉理解模型还拥有行业领先的 OCR 能力,可以实现图片文本信息的精确提取与理解,包括纯文本图像的文字抽取、日常图像的文字抽取以及表格图像的内容抽取等。

不仅如此,它还可以更好地基于指令进行视觉内容识别,并对中国传统文化信息有更强的理解。

对视觉内容的识别只是第一步,接下来,豆包视觉理解模型还具有更强的理解和推理能力。它可以轻松应对更复杂的图片推理任务,模型在表格图像、数学问题、代码图像等复杂推理场景下展示了更强大的性能,同时进行参考问答、总结摘要、以及进行数学、逻辑、代码等推理。

例如它支持多类型图表内容提取,快速精准地提取图表内容;同时能够准确理解 prompt,“随心百变”的格式化输出。实现轻松获取关键信息,提高图表分析效率。

chart01.2024-12-19 16_15_28

再比如下面这个案例,豆包视觉理解模型可以识别一张食物图片和一张微波炉使用指南的表格,就能准确判断图片中的事务在微波炉中加热多长时间就可以食用。

videoframe_8173 (1)

不仅如此,豆包视觉理解模型还拥有更细腻的视觉描述能力。它可以可以基于图像信息,更细腻地描述图像呈现的内容,并可根据图像内容和状态进行产品介绍、宣传文章、视频脚本、故事诗歌等多种文体的创作。

例如有公司生产了一款文创产品,打算送给客户,就可以直接使用豆包视觉理解模型基于文创产品的图像来创作暖心的祝福语。

20241219160710

或者它还可以根据你的指令,对画面的细节进行描述,例如在一张女生夜晚放孔明灯的图像中,可以圈选画面中的孔明灯,询问豆包视觉理解模型“画圈的地方放的是什么灯?古代啥时候会放呢?”豆包就会给出确切的回答和科普。

再比如,它可以对多张美食图片进行多维度信息的提取,然后快速精准地剖析菜品特色,并细致入微洞察餐厅的环境格调、服务质量等要素,然后帮用户写一篇关于美食和餐厅的点评内容。

图片 1

又或者它还可以帮我们写朋友圈文案,根据多张图片联合进行灵感提取,捕捉用户心中想要表达的核心情感和关键元素,理解用户对于朋友圈文案的风格、语气、字数等各种要求,然后写出各种风格的朋友圈文案。

图片 2

豆包大模型家族全面升级,深入赋能千行百业发展

可以看到,目前豆包视觉理解模型所呈现出的技术成熟度、创新性以及实际使用的体验都达到了让人惊艳的水平,而之所以能够实现这样的行业领先,背后其实还是得益于字节跳动在基础模型方面全方位、大力度的坚决投入。

我们知道,字节跳动自研的豆包大模型是今年 5 月在火山引擎春季 Force 原动力大会上正式发布,而在此之前,它已经经过一年时间的迭代和市场验证,并通过火山引擎对外提供服务。此后豆包大模型快读迭代,目前已经构成了行业里能力最全面的大模型家族,包括通用模型 pro、通用模型 lite、语音识别模型、语音合成模型、文生图模型等,再加上这次的视觉理解模型,每一款模型都有其擅长的业务类型和应用场景,为用户提供了丰富的选择。

而在本次火山引擎冬季 FORCE 原动力大会上,豆包大模型家族也迎来了全面升级。豆包通用模型 pro 已全面对齐 GPT-4o,使用价格仅为后者的 1/8;音乐模型从生成 60 秒的简单结构,升级到生成 3 分钟的完整作品;文生图模型 2.1 版本,更是在业界首次实现精准生成汉字和一句话 P 图的产品化能力,该模型已接入即梦 AI 和豆包 App。

20241219161102

不仅如此,本次大会上,豆包 3D 生成模型也首次亮相。该模型与火山引擎数字孪生平台 veOmniverse 结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

图片 3

字节跳动在大会上还宣布,2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。

豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。

火山引擎总裁谭待在会上如此说。

20241219161039

对于大模型产品来说,除了需要企业端大规模、高强度的技术和资源投入,在市场端也需要与之匹配的使用量。

就像谭待曾经所说的,“只有大的使用量,才能打磨出好模型。”毕竟只有大的使用量,才能真正打通商业上的闭环,同时也能为大模型的迭代升级提供源源不断的数据支撑。

而根据本次冬季 Force 原动力大会上公布的数据,截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍。

这意味着豆包大模型的能力正在被 C 端市场充分验证,大模型应用正在向各行各业加速渗透。

而在大模型应用场景生态的建设上,豆包大模型也走在了行业前面。和众多行业客户共创,让豆包大模型赋能众多领域,包括智能终端、汽车、金融、消费和互联网等领域。

根据最新的消息,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。

与企业生产力相关的场景,豆包大模型也获得了众多企业客户青睐:最近 3 个月,豆包大模型在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍,学习教育等场景也有大幅增长。

具体来看,小米的小爱语音助手于豆包大模型合作,提升了语音能力、知识储备和性能效率,华硕 a 豆系列笔记本则与豆包大模型合作,带来了为豆叮 AI 助手应用,招商银行基于扣子和豆包大模型搭建了可以推荐餐饮优惠门店的“掌上生活”bot,以及能汇总市场行情的“财富看点”bot……

相信随着豆包视觉理解模型的推出,未来豆包大模型将会开拓更加广泛的应用领域。

最后值得一提的是,本次大会上,火山引擎还升级了火山方舟、扣子和 HiAgent 三款平台产品,帮助企业构建好自身的 AI 能力中心,高效开发 AI 应用。

其中,火山方舟发布了大模型记忆方案,并推出 prefix cache 和 session cache API,降低延迟和成本。火山方舟还带来全域 AI 搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。

图片 4

结语

据麦肯锡报告分析,大模型的价值创造潜力惊人,到 2030 年,有望在全球推动 49 万亿人民币的经济增量。而目前,从技术创新到商业落地,大模型已经在为我们的日常工作生活和各行业的 AI 转型提供了动能。

就像谭待所说的:

今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族,火山引擎希望帮助企业做好 AI 创新,驶向更美好的未来。

相关资讯

大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘

大模型的性价比之战已经来到了新的阶段。5月15日,2024火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”:豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens,相当于三本《三国演义》的输入量。谭待认为,降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中,许多企业已经从探索尝试大模型,到成功将大模型与核心

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。在这个过程中

耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声音特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”英文语音也可生成,且依然能“复