北京智源人工智能研究院
具身智能最佳形态是什么?它是通往AGI必由之路?八位头部玩家、学者现身说法
ChatGPT-4 被认为是人工智能技术发展的重要节点,语言大模型之后的多模态大模型初步显现了世界模型的影子。大模型最终将通过硬件与物理世界产生交互。人工智能的应用实现从数字世界到物理世界的扩展,具身智能是非常关键的技术方向。那么,具身智能应该依循何种发展路径,当前的技术水平处在什么阶段,发展过程中遇到了哪些瓶颈和难题,在应用场景上如何切入,离未来规模应用还有多远,身处在技术变革浪潮中的我们又该何去何从?4 月 27 日,北京智源人工智能研究院院长王仲远在中关村论坛年会未来「人工智能先锋论坛」上,和七位具身智能领域
向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了
通用计算机控制信息革命产生了数字世界,数字世界为大模型的诞生提供了数据,也最容易实现通用人工智能(AGI)。向数字世界 AGI 迈进,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里,人工智能研究以游戏为场景,而 GCC 将为通用人工智能研究提供场景,也将进一步促进大模型和 AI Agents 的落地与产业化。为此,研究团队提出通用计算机控制
BAAI、北大&港中文团队提出 SegVol:通用且可交互的医学体素分割模型
编辑 | ScienceAI上周,北京智源人工智能研究院(BAAI)、北京大学和香港中文大学的研究团队开源了 SegVol 医学通用分割模型。与过去一些很棒的 Medical SAM 工作不同,SegVol 是第一个能够同时支持 box,point 和 text prompt 进行任意尺寸原分辨率的 3D 体素分割模型。作为一个便捷的通用分割工具,研究人员将 SegVol 代码和模型开源到 GitHub:BAAI-DCAI/SegVol,欢迎大家使用。目前开源的模型权重文件包括(1)使用 96k CTs 预训练 2
让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider
大语言模型因其强大而通用的语言生成、理解能力,展现出了成为通用智能体的潜力。与此同时,在开放式的环境中探索、学习则是通用智能体的重要能力之一。因此,大语言模型如何适配开放世界是一个重要的研究问题。北京大学和北京智源人工智能研究院的团队针对这个问题提出了 LLaMA-Rider,该方法赋予了大模型在开放世界中探索任务、收集数据、学习策略的能力,助力智能体在《我的世界》(Minecraft)中自主探索获取知识并学习解决各种任务,提升智能体自主能力和通用性。
- 1