字节跳动

1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!

本周学术界瞩目的焦点,无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者,大家汇聚一堂,共同探讨和分享最新学术成果。官方公布的数据显示,本届 ACL 共收到近 5000 篇论文投稿,其中 940 篇被主会录用,168 篇工作入选大会口头报告(Oral),录取率低于 3.4%,这当中,字节跳动共有 5 篇成果中选 Oral。在 8 月 14 日下午的 Paper Awards 环节,字节跳动旗下成果《G-DIG: Towards Gradient-based DIverse and h

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提高训练效率的关键。近日,字节跳动豆包大模型团队与香港大学联合提出了 ByteCheckpoint。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统,相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效

B站AI课几秒出总结,划词就给解释,这个「AI学习搭子」真香

在 ChatGPT 走红之后,本着「打不过就加入」的心态,很多职场人学起了 AI。但遗憾的是,不少人走了弯路,甚至还被某些「199」的课程割了韭菜。其实,学 AI 这事儿并不难。读文章、看视频、啃论文都是很好的学习方式。当然,还是有不少读者吐槽,学 AI 就像当年学英语一样,总会遇到一些让人头疼的「生词」,读论文比做阅读理解还麻烦,视频课程也不知道哪个适合自己,浪费了不少时间。AI 学习路上遇到的这些「绊脚石」,皆因你缺少一个学习搭子。我们随机打开「AI在线」的一篇文章,有人可能在第一句就卡住了:AlphaGo 是

字节大模型同传智能体,一出手就是媲美人类的同声传译水平

无论是语速超快、发音复杂的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅自然地给出准确而地道的翻译结果。近年来,人工智能(Aritificial Intelligence, AI),尤其是以大语言模型(Large Language Models, LLMs)为代表的 AI 正以惊人的速度发展,这些模型在多种自然语言处理任务中展现了卓越的能力。然而,尽管在许多领域取得了突破,代表着人类顶尖语言水平的同声传译(Simultaneous Interpretation, SI)依然是一个未被完全

李飞飞所创 World Labs 估值或超 10 亿美元;传字节将于 19 日公布文生图/视频等 AI 模型进展丨AI情报局

今日融资快报李飞飞旗下AI初创企业World Labs估值已超10亿美元英国《金融时报》报道,著名华裔计算机科学家李飞飞创办的World Labs估值已经赶超10亿美元。 该创企主要利用类似人类的视觉数据处理技术,使AI具备高级推理能力。 据知情人士透露,从今年4月成立至今,World Labs已经进行了两轮融资,投资方包括顶级科技投资者Andreessen Horowitz和AI基金Radical Ventures。

字节跳动筋斗云人才计划开启

GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

字节跳动大模型团队成果 Depth Anything V2 现已被苹果官方收入 Core ML 模型库。本文介绍了 Depth Anything 系列成果的研发历程、技术挑战与解决方法,分享了团队对于 Scaling Laws 在单一视觉任务方面的思考。值得一提的是,Depth Anything V1 与 V2 两个版本论文一作是团队实习生。近日,字节跳动大模型团队开发的成果 Depth Anything V2 ,入选苹果公司 Core ML 模型库,目前已呈现在开发者相关页面中。Depth Anything 是一

耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声音特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?”英文语音也可生成,且依然能“复

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected] 在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokeniz

字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑

通过高保真合成语音与真人语音无异。首先来听一段《凡人修仙传》:你猜的没错,这段有声书并非来自某个专业制作团队,而是一个 AI 模型 Seed-TTS,而这个模型则是来自字节跳动的 Seed Team。TTS 是指文本转语音,这是一种具备诸多妙用的技术,像是让个人智能助理说话、为视频或游戏配音、辅助视障人士、制作有声书等等。对于 TTS 技术研发者来说,流畅自然的表达一直以来都是值得追求的重要目标。字节跳动 Seed Team 发布的 Seed-TTS 不只是一个模型,而是一整个模型系列。论文标题:Seed-TTS:

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。在这个过程中

现在起,真正的强者敢于直面「扣子」的「模型广场」

实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜?字节版 GPTs “扣子”上线后,五年级小学生都能创建自己的英语外教。“扣子”有一个相当大的优势,就是支持国内知名大语言模型作为底座,还免费,许多 “AI bot" 孕育而生。不过,无限续杯也有烦恼。“学霸”这么多,挑谁最合适?看跑分?不太懂,也飘渺。要不,大家现场"全开麦“ PK一下?“扣子”已经把舞台搭好。一个相当刺激的新功能“模型广场”,上线了。一、“模型广场”:评测玩出盲盒的乐趣“扣子”支持国内多个知名主流大语言模型作为底座,最新名

闷声狂奔一年,字节大模型的进阶之路

2024 年初,字节跳动 CEO 梁汝波在年会中提到,公司层面的半年度技术回顾里,2023 年才出现 GPT 相关讨论。 作为对比,业内做得比较好的大模型创业公司基本在 2018 年到 2021 年之间已经创立。 简而言之,这场由 Open AI 在 2022 年底发布 ChatGPT 3.5 而掀起的“大模型”盛宴,字节没有成为最早的“入场嘉宾”。

大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘

大模型的性价比之战已经来到了新的阶段。5月15日,2024火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”:豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens,相当于三本《三国演义》的输入量。谭待认为,降低成本是推动大模型快进到“价值创造阶段”的一个关键因素。过去一年时间中,许多企业已经从探索尝试大模型,到成功将大模型与核心

字节开源大模型量化新思路,2-bit量化模型精度齐平fp16

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]随着深度学习大语言模型的越来越火爆,大语言模型越做越大,使得其推理成本也水涨船高。模型量化,成为一个热门的研究课题。近日,字节跳动语音团队推出一个全新的量化思路,抛弃传统的量化范式,从数学

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

最近,扩散模型(Diffusion Model)在图像生成领域取得了显著的进展,为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果,扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列扩散模型蒸馏算法来加速扩散模型的推理过程。这些方法大致可以分为两类:i) 轨迹保持蒸馏;ii) 轨迹重构蒸馏。然而,这两类方法会分别受到效果天花板有限或者或输出域变化这两个问题的限制。为了解决这些问题,字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。

还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和内容重点不同,展示出与横屏视频数据不同的特性。针对这一不同,字节跳动技术团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义,论文已入选 CVPR2024。视频 demo 展示、数据特性演示以及竖屏视频类别分类,请见 :,对视频内容的分类、特征提取,以及推荐等有着重要的作用。竖屏视频是目前社交媒体平

被误解的「中文版Sora」背后,字节跳动有哪些技术?

2024 开年,OpenAI 就在生成式 AI 领域扔下了重磅炸弹:Sora。这几年,视频生成领域的技术迭代持续加速,很多科技公司也公布了相关技术进展和落地成果。在此之前,Pika、Runway 都曾推出过类似产品,但 Sora 放出的 Demo,显然以一己之力抬高了视频生成领域的标准。在今后的这场竞争中,哪家公司将率先打造出超越 Sora 的产品,仍是未知数。国内这边,目光聚集于一众科技大厂。此前有消息称,字节跳动在 Sora 发布之前就研发出了一款名为 Boximator 的视频生成模型。Boximator 提