ByteDance Research

大规模实用化量子化学计算曙光显现，ByteDance Research开源工具集ByteQC

真实化学体系包含大量的微观粒子，其精确的严格计算需要指数高的复杂度，对这些体系的模拟一直是材料、制药和催化等领域的难点和前沿。为了解决这一问题，近日字节跳动 ByteDance Research 团队开发并开源了 ByteQC —— 基于 GPU 加速的大规模量子化学计算工具集。该工具集使用强大的 GPU 算力，大幅度加速了常见的量子化学算法，同时结合领域内前沿的量子嵌入方法实现了量子化学「黄金标准」精度下的大规模量子化学体系的模拟。

3/5/2025 7:38:00 PM

机器之心

年末惊喜！ByteDance Research视频理解大模型「眼镜猴」正式发布

最近，ByteDance Research 的视频理解大模型眼镜猴（Tarsier）迎来了巨大更新，发布了第二代模型 Tarsier2 及相关技术报告。研究团队此前发布的 Tarsier-7B/34B 在视频描述领域已经是最强开源模型，仅次于闭源模型 Gemini-1.5-Pro 和 GPT-4o。那么这次新版 Tarsier2 又会带给我们什么样的惊喜呢？

1/25/2025 8:20:00 PM

机器之心

2分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

2025 被称为 Agent 元年，新年伊始，ByteDance Research 就推出了一款基于强化学习的智能体应用：论文检索智能体。它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。繁琐冗长的论文调研，现在，只需要两分钟。

1/23/2025 5:33:00 PM

机器之心

ByteDance Research登Nature子刊：AI+冷冻电镜，揭示蛋白质动态

2024 年的诺贝尔化学奖颁发给了在结构生物学领域取得重大成就的 David Baker 团队和 AlphaFold 团队，激发了 AI for science 领域新的研究热潮。近两年科学界一个饱受争议的命题是：“AlphaFold 是否终结了结构生物学？ ” 首先，AlphaFold 之类的结构预测模型的训练数据正是来自于以 X 射线、冷冻电镜（cryo-EM）等为代表的传统结构解析方法。

11/12/2024 1:09:00 PM

机器之心

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

最近，ByteDance Research 的第二代机器人大模型 —— GR-2，终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性，预示着机器人大模型技术将爆发出巨大潜力和无限可能。GR-2 官方项目页面： GR-2：百炼出真金和许多大模型一样，GR-2 的训练包括预训练和微调两个过程。如果把机器人和人做比较，预训练过程就好像是人类的 “婴儿期”。而 GR-2 的婴儿期与其他机器人截然不同。在预训练的过程中，GR-2 在互联网的海洋中遨游。它在 3800 万个互联网视频片段上进行生成式训练，

10/9/2024 2:35:00 PM

机器之心

填补AlphaFold3空白，字节跳动提出物理引导的方法让蛋白质动起来

世界是变化的，分子是运动的，从预测静态单一结构走向动态构象分布是揭示蛋白质等生物分子功能的重要一步。探索蛋白质的构象分布，能帮助理解蛋白质与其他分子相互作用的生物过程；识别蛋白质表面下的潜在药物位点，描绘各个亚稳态之间的过渡路径，有助于研究人员设计出具有更强特异性和效力的目标抑制剂和治疗药物。但传统的分子动力学模拟方法昂贵且耗时，难以跨越长的时间尺度，从而观察到重要的生物过程。近年来的深度学习蛋白质结构预测模型在这个问题上也同样碰壁，往往只能预测静态单一结构，包括最近再次登上 Nature 的 AlphaFold

5/29/2024 3:18:00 PM

机器之心

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

还在苦苦寻找开源的机器人大模型？试试RoboFlamingo！近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接规划底层动作序列呢？对此，ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

1/17/2024 2:37:00 PM

机器之心

字节具身智能新成果：用大规模视频数据训练GR-1，复杂任务轻松应对

如何利用大规模的视频数据来帮助机器人学习复杂任务？最近 GPT 模型在 NLP 领域取得了巨大成功。GPT 模型首先在大规模的数据上预训练，然后在特定的下游任务的数据上微调。大规模的预训练能够帮助模型学习可泛化的特征，进而让其轻松迁移到下游的任务上。但相比自然语言数据，机器人数据是十分稀缺的。而且机器人数据包括了图片、语言、机器人状态和机器人动作等多种模态。为了突破这些困难，过去的工作尝试用 contrastive learning [1] 和 masked modeling [2] 等方式来做预训练以帮助机器人更

12/29/2023 11:49:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型