资讯列表

GTA6预告片播放过亿,AI三巨头也能秒变GTA匪帮

GTA 新出的游戏预告片看了吗?据说,这个预告片已经破了三项吉尼斯世界纪录,观看次数已经破亿。但如果告诉你,AI 三巨头也可以成为 GTA 里的人物,你还能认出他们吗?AI 三巨头:Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio。 这张 GTA 风格的合照是腾讯用一个名为 FaceStudio 的 AI 模型合成的,其特点是人物辨识度非常高,把用途广泛的「AI 写真」技术又往前推了一步。在人工智能技术迅速发展的今天,AI 写真照已经成为 AI 技术应用的一个热门方向。在 AI

真实再现生物脊柱功能,老鼠机器人也能像杰瑞一样灵活,Science Robotics 发布老鼠机器人最新研究成果

12 月 7 日,国际知名学术期刊《Science Robotics》发表来自德国慕尼黑工业大学和中山大学的研究团队的研究文章——「Lateral Flexion of a Compliant Spine Improves Motor Performance in a Bio-Inspired Mouse Robot」。论文链接:。研究的核心创新在于引入了可变形的柔性脊柱,大幅提升了机器人的运动灵活性和效率。这一重大突破不仅推动了具有脊柱的足式机器人设计领域的发展,同时也为运动控制的相关研究提供了全新的视角和可能性

首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下

想要迈向通用人工智能,必须要构建一个能够理解人类生活的真实世界,并掌握丰富技能的具身通用智能体。今年以来,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型(Multi-modal Large Language Model)在自然语言处理、视觉理解、机器人等任务上取得了显著的成功,但这类模型都是基于二维图片文本数据训练得到,在理解三维世界和与三维世界交互方面能力欠缺。为解决这一问题,北京通用人工智能研究院联合北京大学、卡耐基梅隆大学和清华大学的研究人员提出了首个三维世

NeurIPS 2023 | 腾讯AI Lab 18篇入选论文解读

NeurIPS 2023(Neural Information Processing Systems)神经信息处理系统大会是当前全球最负盛名的AI学术会议之一,将于12月10日在美国新奥尔良召开。根据官网邮件显示,本届会议共有12343篇有效论文投稿,接收率为 26.1%,高于 2022 年的 25.6%。今年腾讯 AI Lab 共有18篇论文入选,包含一篇 Spotlight,内容涵盖机器学习、计算机视觉、自然语言处理等方向,以及AI在科研、游戏等领域的融合探索。以下为论文概览。机器学习1.    GADBenc

联想王传东:AI PC 时代正在到来

“这样一场变革浪潮,需要充满想象力和创造力的人去推动,作为全栈智能领导厂商和全球 PC 第一品牌,我们将率先启动联想 AI PC 先锋行动,与 AI PC 生态先锋和创意先锋共同开启一起联想 AI PC 系列活动,不负 AI,共赴山海。”12 月 7 日,在以 “AI 新生态 智启新元年” 为主题的首届 AI PC 产业创新论坛上,联想集团副总裁、中国区首席市场官王传东重磅发布 “联想 AI PC 先锋行动”,加速推动 AI PC 落地,让 AI PC 惠及每一个人。该行动主题为 “一起联想 AI PC”,共包括两

浙大开发DeepSorption:晶态多孔材料吸附性能深度学习框架

编辑 | 紫萝空间转录组学 (ST) 技术可检测单个细胞中的 mRNA 表达,同时保留其二维 (2D) 空间坐标,使研究人员能够研究转录组在组织中的空间分布;然而,对多个 ST 切片进行联合分析并将它们对齐以构建组织的三维 (3D) 堆栈仍然是一个挑战。近日,来自中国科学技术大学、合肥综合性国家科学中心和北京生命科学研究所(NIBS)的研究团队,提出了用于 ST 数据分析的深度学习空间架构表征 (SPACEL)。SPACEL 包含三个模块——Spoint、Splane 和 Scube——涵盖了 ST 数据的三个分析

浙大开发DeepSorption:专家知识共学习的晶态多孔材料吸附性能深度学习框架

编辑 | ScienceAI近日,浙江大学杭州国际科创中心生物与分子智造研究院邢华斌教授团队和陈华钧教授团队瞄准多孔吸附剂材料的精准智造,开发出专家知识共学习的晶态多孔材料吸附性能端对端深度学习框架 DeepSorption,有效提升多孔材料吸附性能的预测精度与速度,并实现了原子尺度的可解释性。这一成果以《Direct prediction of gas adsorption via spatial atom interaction learning》为题,于 2023 年 11 月 3 日发表在《Nature C

谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」

机器之能报道编辑:吴昕又是一个不眠之夜,神仙扎堆献技。当地时间 12 月 6 日,谷歌 CEO Sundar Pichai 官宣 Gemini 1.0 版正式上线。在此之前,这款被谷歌寄予厚望对抗 OpenAI 的武器,发布时间一直被拖延。未曾料到,来得如此猝不及防。研发负责人、谷歌 DeepMind CEO Demis Hassabis 代表 Gemini 团队在发布会上正式推出大模型 Gemini,它拥有「视觉」和「听觉」,还有学习和推理能力。作为谷歌迄今为止最强大、最全面的模型,在大多数基准测试中, Gemi

谷歌大杀器终于来了,最大规模Gemini震撼发布:真超GPT4,三大版本,手机直接可用

时代变了?迄今为止规模最大,能力最强的谷歌大模型来了。当地时间 12 月 6 日,谷歌 CEO 桑达尔・皮查伊官宣 Gemini 1.0 版正式上线。这次发布的 Gemini 大模型是原生多模态大模型,是谷歌大模型新时代的第一步,它包括三种量级:能力最强的 Gemini Ultra,适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。现在,谷歌的类 ChatGPT 应用 Bard 已经升级到了 Gemini Pro 版本,实现了更为高级的推理、规划、理解等能力,同时继续保持免费

小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%

对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。Meta四月份发布的「分割一切模型(SAM)」效果,它能很好地自动分割图像中的所有内容Segment Anything 的关键特征是基于提示的视觉 Transformer(ViT)模型,该模型是在一个包含来自 1100 万张图像的超过 10 亿个掩码的视觉数据集 SA-1B 上训练的,可以分割给定图像上的任何目标。这种能力使得 SAM 成为视觉领域的基础模型,并在超出视觉之外的领域也能产生应

思维链提出者Jason Wei:关于大模型的6个直觉

大模型究竟从下一个词预测任务中学到了什么呢?还记得 Jason Wei 吗?这位思维链的提出者还曾共同领导了指令调优的早期工作,并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 参与 ChatGPT 的开发工作。机器之心曾经报道过他为年轻 AI 研究者提供的一些建议。近日,他以客座讲师的身份为斯坦福的 CS 330 深度多任务学习与元学习课程讲了一堂课,分享了他对大型语言模型的一些直观认识。目前斯坦福尚未公布其演讲视频,但他本人已经在自己的博客上总结了其中的主要内

苹果为自家芯片打造开源框架MLX,实现Llama 7B并在M2 Ultra上运行

苹果的这个新框架 MLX 不仅拥有 PyTorch 风格的 API,还为开发者提供了很多经典示例(比如 Llama、LoRa、Stable Diffusion 和 Whisper)。2020 年 11 月,苹果推出 M1 芯片,其速度之快、功能之强大一时令人惊艳。2022 年苹果又推出了 M2,今年 10 月,M3 芯片正式登场。苹果在发布芯片的同时,也非常注重在其芯片上训练和部署 AI 模型的能力。苹果推出的 ML Compute 可用于在 Mac 上进行 TensorFlow 模型的训练。PyTorch 则支持

弥合2D和3D生成领域之间的次元壁,X-Dreamer实现高质量的文本到3D生成

本文介绍了一个名为 X-Dreamer 的框架,它主要由 CG-LoRA 和 AMA 损失两种关键创新组成,实现了弥合 text-to-2D 和 text-to-3D 间的领域差距,实现了高质量的 3D 生成。近年来,在预训练的扩散模型 [1, 2, 3] 的开发推动下,自动 text-to-3D 内容创建取得了重大进展。其中,DreamFusion [4] 引入了一种有效的方法,该方法利用预训练的 2D 扩散模型 [5] 从文本中自动生成 3D 资产,从而无需专门的 3D 资产数据集。DreamFusion 引入

LLaMA 开源背后:一场永远改变硅谷的AI军备内幕

机器之能报道编辑:SiaOpenAI 内部的戏剧性事件让世界第一次看到了那些将决定AI未来人的激烈争斗。事实上,在此之前,硅谷已经发生了一场鲜为人知但激烈的竞争,旨在争夺这项技术的控制权。《纽约时报》采访了80多位高管、科学家和企业家,《纽约客》采访了微软和OpenAI两家 CTO,分别从不同角度讲述了一个关于野心、恐惧和金钱的幕后故事。在 OpenAI 于 2022 年 11 月推出 ChatGPT 的六周后,Meta 首席 AI 科学家 Yann LeCun 从纽约飞往硅谷参加 Meta 的例行管理会议。在总部

为了保持 AI 未来的开放性,Meta 和 IBM 发起联盟

编辑 | 白菜叶Meta、IBM 以及数十家初创公司和研究人员成立了一个联盟,捍卫更加开放和协作的人工智能开发方法,并与 OpenAI 和谷歌就该技术的未来展开了辩论与对抗。哲学辩论已成为人工智能未来的中心战场,人们越来越担心微软支持的 OpenAI 和谷歌将独自支撑这项对我们日常生活变得越来越重要的技术。IBM 首席执行官 Arvind Krishna 在周二宣布成立人工智能联盟的声明中表示:「这是定义人工智能未来的关键时刻。」ChatGPT 的创建者 OpenAI 和 Google 捍卫了大型语言模型的闭源系统

线上开售!大模型时代的向量数据库 AI 技术论坛圆满收官

致力于助力大模型技术升级的“大模型时代的向量数据库”——机器之心 AI 技术论坛日前圆满收官。活动当日,北京海淀文津国际酒店论坛现场门庭若市,来自全国十余个城市的 200 多名参会者亲临现场,在 21 位向量数据库技术专家的带领下,系统拆解了向量数据库的关键技术,向量数据库、向量模型和知识库的应用场景和最佳实践,并用两个技术实操来巩固所学知识,一起高效完成了大模型技术升级。来看看现场的精彩瞬间吧!活动现场大家一同探讨了向量数据库和知识库的最佳落地场景、向量数据库的未来、RAG 和向量数据库的关系、个人如何在大模型时

微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了

大模型的效果好不好,有时候对齐调优很关键。但近来很多研究开始探索无微调的方法,艾伦人工智能研究所和华盛顿大学的研究者用「免调优」对齐新方法超越了使用监督调优(SFT)和人类反馈强化学习(RLHF)的 LLM 性能。我们知道,仅在无监督文本语料库上预训练的基础大语言模型(LLM)通常无法直接用作开源域的 AI 助手(如 ChatGPT)。因此,为了让这些基础的 LLM 成为有用且无害的 AI 助手,研究人员往往使用指令调优和偏好学习对它们进行微调。先来看下指令调优的定义,它是一种监督微调(SFT)过程,主要使用人工注

分割一切「3D高斯」版来了:几毫秒完成3D分割、千倍加速

有了上海交大和华为提出的 SAGA,辐射场中的交互式 3D 分割任务实现起来会更快、效果更好。今年 4 月,Meta 发布「分割一切(SAM)」AI 模型,这项成果不仅成为很多 CV 研究者心中的年度论文,更是在 ICCV 2023 上斩获最佳论文提名 。「分割一切」实现了 2D 分割的「既能」和「又能」,可以轻松地执行交互式分割和自动分割,且能泛化到任意新任务和新领域。现在,这种思路也延展到了 3D 分割领域。辐射场中的交互式 3D 分割一直是个备受关注的课题,在场景操作、自动标注和 VR 等多个领域均有潜在应用