资讯列表
全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步
具身智能,首先就是要共用 AI。过去一年,生成式人工智能发展的核心关键词,就是「大」。人们逐渐接受了强化学习先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮,庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细,模型就能了解到更全面的世界知识,从而拟合出更加智能的结果。那么,为什么人工智能的进展还没有转化成科幻片中那种全能管家机器人呢?能清理桌子、叠衣服、做早餐的机器人在哪里?一个重要的原因是机器人领域很难「大力出奇迹」,生成式 AI 的文字或图片训练数据在网络上就能轻
物理与 AI 的融合,中国科学院大气物理研究所物理耦合图神经网络,提升降水预报技巧
编辑 | ScienceAI大模型时代,纯数据驱动的气象、气候模型效果逐渐追赶甚至赶超数值模式。然而,目前气象、气候大模型也仍然存在不少问题。比如物理一致性不高、辐散风预报效果不好等等,这些问题限制了对于降水等复杂天气气候现象的预测能力。目前,将物理、大气动力与深度学习模型结合成为提升模型能力,解决目前瓶颈问题的一条重要途径。近日,中国科学院大气物理研究所黄刚研究员团队基于地球系统数值模拟装置(寰)的数据和算力支持,从物理变量耦合关系角度出发,结合图神经网络对多变量进行物理软约束,提升了数值模式的降水预报技巧,在物
未来五年AI如何改变各学科?从LLM到AI蛋白设计、医疗保健......
2019—2023 年《Nature Machine Intelligence》封面编辑 | X五年前(2019 年 1 月),《Nature Machine Intelligence》创刊。当然,就人工智能(AI)而言,五年前似乎是一个不同的时代。1 月 24 日,Nature Machine Intelligence 杂志在《Anniversary AI reflections》(周年人工智能反思)专题中,再次联系并采访了近期在期刊发表评论和观点文章的作者,请他们从各自所在领域中举例说明人工智能如何改变科学过程
ComfyUI 傻瓜整合包发布!一键安装,SD 进阶自学必备!
大家好我是花生~
上周赛博佛祖秋葉 Aki 发布了针对 ComfyUI 的整合安装包,让这款原本偏专业的 AI 绘画工具对初学者来说更容易上手使用了,我也安装试用了一下,的确非常方便,今天就为大家详细介绍一下整合包的用法 ~
ComfyUI 相关教程:一、ComfyUI 简介
ComfyUI 本体 Github 主页:
ComfyUI 和大家熟知的 WebUI 一样,都是 Stable Diffusion 的一种用户界面,可以实现文生图、图生图、图像处理、AI 视频生成等操作。但 ComfyUI 是节点式模块化的
药物-靶标亲和力预测,上科大团队开发了一种Transformer编码器和指纹图谱相结合的方法
编辑 | 萝卜皮药物与靶标之间的结合亲和力的预测对于药物发现至关重要。然而,现有方法的准确性仍需提高。另一方面,大多数深度学习方法只关注非共价(非键合)结合分子系统的预测,而忽略了在药物开发领域越来越受到关注的共价结合的情况。上海科技大学的研究团队提出了一种新的基于注意力的模型,称为 TEFDTA (Transformer Encoder and Fingerprint combined Prediction method for Drug-Target Affinity),来预测键合和非键合药物-靶标相互作用的结
视频里有前男友?谷歌最新AI视频生成器 Lumiere,轻松让他消失
机器之能报道编辑:SIA最喜欢的视频里有前男友?现在,你可以轻松将他删除了。事实再次证明,AI 生成视频技术的发展速度令人瞠目。过去几个月,我们一直挣扎在 AI 生成的威尔·史密斯吃意大利面的尴尬场景里,以至于一段再正常不过的吃面场景被视为视频生成领域的“图灵测试”。今天,谷歌又研发出全新的时空扩散模型 Lumiere,将 AI 视频生成水准推向新高度。法语里, Lumiere 意思是启蒙者。Lumiere 几乎集齐了常见视频生成和编辑功能,也是迄今为止我们所见过的最先进的视频生成器。Lumiere 会根据用户自然
AI国际顶会ICLR 2024结果揭晓,蚂蚁集团11篇论文入选
近日,人工智能顶会之一ICLR 2024录用结果揭晓,蚂蚁集团有11篇论文被收录,其中1篇为Oral,3篇为Spotlight,7篇为Poster,蚂蚁集团在AI学术领域的进展受到关注。(图:蚂蚁集团的《长视频中的多粒度噪声关联学习》被收录为Oral论文)ICLR组委会今年共收到了7262篇论文投稿,录用率约为31%。其中,1.2%被录用为Oral论文,作者获得10分钟的口头演讲,5%被录用为Spotlight论文,获得4分钟的聚光灯展示;Poster论文则以海报形式展示。论文的重要性按此三类递减。每年,ICLR
《幻兽帕鲁》爆火,大厂坐不住了:这游戏是AI设计的?
疑似用 AI 卷设计,遭同行炮轰。最近,很多社交网络平台都被一款开放世界生存游戏刷了屏。《幻兽帕鲁》(Palworld)是当下最热门的话题之一,它在 1 月 19 日于 Steam 上线抢先体验版本,24 小时之内销量就超过了 200 万份,几天之内就突破了 600 万。在 1 月 23 日,幻兽帕鲁的 Steam 历史在线峰值就达到了 185 万人,超越了《CS 2》,成为了 Steam 历史在线玩家峰值第二的游戏。在幻兽帕鲁的游戏世界中,玩家可以自由收集神奇的生物「帕鲁」,派他们进行战斗、建造、采矿,工业生产等
大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一
去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。如你我所知,在大型语言模型(LLM)的运行逻辑中,随着规模大小的增加,语言生成的质量会随着提高。不过,这也导致了推理延迟的增加,从而对实际应用构成了重大挑战。从系统角度来看,LLM 推理主要受内存限制,主要延迟瓶颈源于加速器的内存带宽而非算术计算。这一瓶颈是自回归解码的顺序性所固有的,其中每次前向传递都需要将完整的模型参数从
买个机器人端茶倒水有希望了?Meta、纽约大学造了一个OK-Robot
如果有个这样的机器人,你几点回家?「xx,去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中,很多家庭成员都不免被支使干这种活儿。甚至有时候,宠物狗也难以幸免。但人总有支使不动的时候,宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。最近,纽约大学、Meta 研发出的一款机器人学会了这个技能。你只需要对它说,「把桌子上的玉米片拿到床头柜上」,它就能自己找到玉米片,并规划出路线和相应的动作,顺利完成任务。此外,它还能帮你整理东西或扔垃圾。这个机器人名叫 OK-Robot,由来自纽约大学、Meta
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024
能够有效实现多模态交叉提示跟踪。目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。然而,现有的多模态跟踪任务也面临两个主要问题:由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关
画个框、输入文字,面包即刻出现:AI开始在3D场景「无中生有」了
现在,通过文本提示和一个 2D 边界框,我们就能在 3D 场景中生成对象。看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托盘上画个框,然后在文本框中输入文本「在托盘上添加意大利面包」,魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。房间的地板上看起来太空荡了,想加个凳子,只需在你中意的地方框一下,然后输入文本「在地板上添加一个矮凳」,一张凳子就出现了:相同的操作方式,在圆桌上添加一个茶杯:玩具旁边摆放一只手提包统统都可以:我们可以从以上示例看出,新生成的目标可以插在场景中的任意位置,还能很好地与原
Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测
AI 理解视频不能依靠在像素空间中预测。在互联网文本数据即将枯竭之际,很多 AI 研究者将目光转向了视频。但如何让 AI 理解视频数据成了新的难题。在 2024 世界经济论坛的一次会谈中,图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 被问到了这个问题。他认为,虽然这个问题还没有明确的答案,但适合用来处理视频的模型并不是我们现在大范围应用的生成模型。而且新的模型应该学会在抽象的表征空间中预测,而不是在像素空间中。一起参与讨论的还有斯坦福大学教授、Coursera 联合创始人 Daphne Kolle
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Anything 凭借强大的性能在社交网络上引起了广泛讨论,试用者无不称奇。甚至有试用者发现它还能正确处理埃舍尔(M.C.Escher)那充满错觉的绘画艺术(启发了《纪念碑谷》等游戏和艺术):从水上到水下,丝滑切换:更好的深度模型也得到了效果更好的以深度为条件的 Contr
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数
性能与 Mamba 一样,但所需训练步骤数却少 2.2 倍。状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色,成为了基于注意力的 Transformer 架构的一大有力替代架构。近期也有一些研究者在探索将 SSM 和 Mamba 与其它方法组合起来创造更强大的架构,比如机器之心曾报告过《Mamba 可以替代 Transformer,但它们也能组合起来使
有了这块活地板,成为VR届的「街溜子」
给 VR 系统加了新维度。还记得电视剧《三体》里面汪淼他们用来打游戏的 V 装具吗?和最近苹果发布的 Vision Pro 相比,这套近未来的虚拟现实(VR)设备还多了感应服和「跑步机」等一些组件。很明显的是,除非脑后插管,只有进行从头到脚、所有感官全覆盖,你才能在 VR 设备里充分感受模拟世界的乐趣。然而在可预见的未来,所有此类解决方案都将存在一些不可忽视的缺点。价格是最大的挑战,单买一个 Apple Vision Pro 就要花费 2.5 万人民币,其他可以预见的问题还包括占地面积和噪音。不过在此之前,我们得先
无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用
随着人工智能技术的发展,以 GPT-4 为代表的大语言模型依靠其强大的能力正在对社会产生深远的影响。与此同时,大模型本身的安全性问题也变得尤为重要。如何确保大语言模型可以和人类的价值、真实的意图相一致,防止模型被滥用、输出有害的信息,这是大模型安全治理的核心问题。之前的大多数对齐方法需要收集新数据重新训练模型,然而对训练数据质量要求高以及优化模型参数耗时耗力是对齐中的痛点。除此之外,待对齐的价值观可能是动态变化的,这进一步给大模型价值观对齐带来了挑战。有鉴于此,上海交通大学生成式人工智能实验室 GAIR 迅速采取行
ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集
作者 | 田宇编辑 | 白菜叶近年来,人工智能模型的公平性问题受到了越来越多的关注,尤其是在医学领域,因为医学模型的公平性对人们的健康和生命至关重要。高质量的医学公平性数据集对促进公平学习研究非常必要。现有的医学公平性数据集都是针对分类任务的,而没有可用于医学分割的公平性数据集,但是医学分割与分类一样都是非常重要的医学 AI 任务,在某些场景分割甚至优于分类,因为它能够提供待临床医生评估的器官异常的详细空间信息。在最新的研究中,哈佛大学(Harvard University)的Harvard-Ophthalmolo