北京智源人工智能研究院

一脑多机！智源的新发布，让不同机器人轻松协作

3 月 29 日，智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能，为构建具身智能开源统一生态加速场景应用提供底层技术支持。开源链接如下：具身多模态大脑模型 RoboBrainGitHub：：： ShareRobotGitHub：：：打造感知 - 认知 - 决策 - 行动闭环在具身场景中，长程操作任务是机器人执行复杂任务的核心能力之一。具身大脑 RoboBrain 融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力，通过将抽象指令映射为具象动作序列，增强长程操作任务的能力。

4/1/2025 12:06:00 PM

机器之心

具身智能最佳形态是什么？它是通往AGI必由之路？八位头部玩家、学者现身说法

ChatGPT-4 被认为是人工智能技术发展的重要节点，语言大模型之后的多模态大模型初步显现了世界模型的影子。大模型最终将通过硬件与物理世界产生交互。人工智能的应用实现从数字世界到物理世界的扩展，具身智能是非常关键的技术方向。那么，具身智能应该依循何种发展路径，当前的技术水平处在什么阶段，发展过程中遇到了哪些瓶颈和难题，在应用场景上如何切入，离未来规模应用还有多远，身处在技术变革浪潮中的我们又该何去何从？4 月 27 日，北京智源人工智能研究院院长王仲远在中关村论坛年会未来「人工智能先锋论坛」上，和七位具身智能领域

4/30/2024 3:36:00 PM

机器之心

向数字世界AGI迈进！智能体已经从头开玩「荒野大镖客 2」了

通用计算机控制信息革命产生了数字世界，数字世界为大模型的诞生提供了数据，也最容易实现通用人工智能（AGI）。向数字世界 AGI 迈进，北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC)，即智能体需要像人一样看屏幕，通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里，人工智能研究以游戏为场景，而 GCC 将为通用人工智能研究提供场景，也将进一步促进大模型和 AI Agents 的落地与产业化。为此，研究团队提出通用计算机控制

3/13/2024 2:54:00 PM

机器之心

BAAI、北大&港中文团队提出 SegVol：通用且可交互的医学体素分割模型

编辑 | ScienceAI上周，北京智源人工智能研究院（BAAI）、北京大学和香港中文大学的研究团队开源了 SegVol 医学通用分割模型。与过去一些很棒的 Medical SAM 工作不同，SegVol 是第一个能够同时支持 box，point 和 text prompt 进行任意尺寸原分辨率的 3D 体素分割模型。作为一个便捷的通用分割工具，研究人员将 SegVol 代码和模型开源到 GitHub:BAAI-DCAI/SegVol，欢迎大家使用。目前开源的模型权重文件包括（1）使用 96k CTs 预训练 2

11/28/2023 2:20:00 PM

ScienceAI

让大模型自主探索开放世界，北大&智源提出训练框架LLaMA-Rider

大语言模型因其强大而通用的语言生成、理解能力，展现出了成为通用智能体的潜力。与此同时，在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此，大语言模型如何适配开放世界是一个重要的研究问题。北京大学和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider，该方法赋予了大模型在开放世界中探索任务、收集数据、学习策略的能力，助力智能体在《我的世界》（Minecraft）中自主探索获取知识并学习解决各种任务，提升智能体自主能力和通用性。

11/7/2023 2:41:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练