资讯列表
大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一
去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术论文,还提供了新的版本。如你我所知,在大型语言模型(LLM)的运行逻辑中,随着规模大小的增加,语言生成的质量会随着提高。不过,这也导致了推理延迟的增加,从而对实际应用构成了重大挑战。从系统角度来看,LLM 推理主要受内存限制,主要延迟瓶颈源于加速器的内存带宽而非算术计算。这一瓶颈是自回归解码的顺序性所固有的,其中每次前向传递都需要将完整的模型参数从
买个机器人端茶倒水有希望了?Meta、纽约大学造了一个OK-Robot
如果有个这样的机器人,你几点回家?「xx,去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中,很多家庭成员都不免被支使干这种活儿。甚至有时候,宠物狗也难以幸免。但人总有支使不动的时候,宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。最近,纽约大学、Meta 研发出的一款机器人学会了这个技能。你只需要对它说,「把桌子上的玉米片拿到床头柜上」,它就能自己找到玉米片,并规划出路线和相应的动作,顺利完成任务。此外,它还能帮你整理东西或扔垃圾。这个机器人名叫 OK-Robot,由来自纽约大学、Meta
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024
能够有效实现多模态交叉提示跟踪。目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。然而,现有的多模态跟踪任务也面临两个主要问题:由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关
画个框、输入文字,面包即刻出现:AI开始在3D场景「无中生有」了
现在,通过文本提示和一个 2D 边界框,我们就能在 3D 场景中生成对象。看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托盘上画个框,然后在文本框中输入文本「在托盘上添加意大利面包」,魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。房间的地板上看起来太空荡了,想加个凳子,只需在你中意的地方框一下,然后输入文本「在地板上添加一个矮凳」,一张凳子就出现了:相同的操作方式,在圆桌上添加一个茶杯:玩具旁边摆放一只手提包统统都可以:我们可以从以上示例看出,新生成的目标可以插在场景中的任意位置,还能很好地与原
Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测
AI 理解视频不能依靠在像素空间中预测。在互联网文本数据即将枯竭之际,很多 AI 研究者将目光转向了视频。但如何让 AI 理解视频数据成了新的难题。在 2024 世界经济论坛的一次会谈中,图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 被问到了这个问题。他认为,虽然这个问题还没有明确的答案,但适合用来处理视频的模型并不是我们现在大范围应用的生成模型。而且新的模型应该学会在抽象的表征空间中预测,而不是在像素空间中。一起参与讨论的还有斯坦福大学教授、Coursera 联合创始人 Daphne Kolle
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Anything 凭借强大的性能在社交网络上引起了广泛讨论,试用者无不称奇。甚至有试用者发现它还能正确处理埃舍尔(M.C.Escher)那充满错觉的绘画艺术(启发了《纪念碑谷》等游戏和艺术):从水上到水下,丝滑切换:更好的深度模型也得到了效果更好的以深度为条件的 Contr
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数
性能与 Mamba 一样,但所需训练步骤数却少 2.2 倍。状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色,成为了基于注意力的 Transformer 架构的一大有力替代架构。近期也有一些研究者在探索将 SSM 和 Mamba 与其它方法组合起来创造更强大的架构,比如机器之心曾报告过《Mamba 可以替代 Transformer,但它们也能组合起来使
有了这块活地板,成为VR届的「街溜子」
给 VR 系统加了新维度。还记得电视剧《三体》里面汪淼他们用来打游戏的 V 装具吗?和最近苹果发布的 Vision Pro 相比,这套近未来的虚拟现实(VR)设备还多了感应服和「跑步机」等一些组件。很明显的是,除非脑后插管,只有进行从头到脚、所有感官全覆盖,你才能在 VR 设备里充分感受模拟世界的乐趣。然而在可预见的未来,所有此类解决方案都将存在一些不可忽视的缺点。价格是最大的挑战,单买一个 Apple Vision Pro 就要花费 2.5 万人民币,其他可以预见的问题还包括占地面积和噪音。不过在此之前,我们得先
无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用
随着人工智能技术的发展,以 GPT-4 为代表的大语言模型依靠其强大的能力正在对社会产生深远的影响。与此同时,大模型本身的安全性问题也变得尤为重要。如何确保大语言模型可以和人类的价值、真实的意图相一致,防止模型被滥用、输出有害的信息,这是大模型安全治理的核心问题。之前的大多数对齐方法需要收集新数据重新训练模型,然而对训练数据质量要求高以及优化模型参数耗时耗力是对齐中的痛点。除此之外,待对齐的价值观可能是动态变化的,这进一步给大模型价值观对齐带来了挑战。有鉴于此,上海交通大学生成式人工智能实验室 GAIR 迅速采取行
ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集
作者 | 田宇编辑 | 白菜叶近年来,人工智能模型的公平性问题受到了越来越多的关注,尤其是在医学领域,因为医学模型的公平性对人们的健康和生命至关重要。高质量的医学公平性数据集对促进公平学习研究非常必要。现有的医学公平性数据集都是针对分类任务的,而没有可用于医学分割的公平性数据集,但是医学分割与分类一样都是非常重要的医学 AI 任务,在某些场景分割甚至优于分类,因为它能够提供待临床医生评估的器官异常的详细空间信息。在最新的研究中,哈佛大学(Harvard University)的Harvard-Ophthalmolo
AI4Science还是伪命题吗?两年后workshop组织者重新审视AI4Science
DALL⋅E 想象的 2023 年 AI for Science(与AI4Science目前的发展类似:图像不完美,许多单词拼写错误)。作者 | AI4Science workshop组织者编辑 | ScienceAI2021年,一群热血青年提出了要把AI4Science(AI for Science)带入机器学习顶会NeurIPS。什么?AI4Science是一门学科吗?是不是靠着AI蹭热点?各种质疑声接踵而来。这些质疑和不解也反映在了第一届AI4Science workshop的较为平淡的群众参与度上。时过境迁
和特斯拉竞速、能站立、会开门...... 明星四足轮腿机器人要商业化了
机器之能报道编辑:吴昕大部分轮腿结合的机器人仍然只活跃在研究领域,目前也只有少数轮腿机器人平台,能够进入商业化阶段的更是凤毛麟角。提到四足机器人,很多人首先想到的是波士顿动力的 Spot 机器人狗。实际上,基于苏黎世联邦理工学院机器人系统实验室( Robotic Systems Lab,RSL )技术的四足机器人一直不输于波士顿动力。比如,已经商业化的 ANYmal 四足机器人。已经商业化的ANYmal 四足机器人正在某工厂执行自主检查任务。该机器人已经部署到了马来西亚国家石油公司、壳牌石油、西门子能源、巴斯夫等公
2023京东零售技术年度盘点
过去一年,围绕开放生态建设、低价心智等主要方向,京东零售技术团队持续攻坚。从百亿补贴、调整流量分配机制为用户提供低价品质好货,到简化商家进驻流程、优化商家体验,带动商家数量增长和平台生态活跃,再到将大模型结合到内部大量业务场景,探索效率提升……快速响应、助力业务的同时,京东零售技术团队继续夯实增强自身能力、探索创新。我们选取了11项有代表性的技术成果,与大家分享。供应链创新技术入围行业最高奖项 京东长期致力于通过前沿的数智化技术和算法,提高供应链效率。2023年,智能供应链团队提出并应用了端到端库存管理技术和可解释
SD WebUI 中也能用上实时绘画了!支持接入PS/Blender 等设计工具
大家好,这里是和你们一起探索 AI 绘画的花生~
之前为大家介绍过 AI 绘画工具 Krea,它可以根据手绘的草图实时生成完整的画面,可以让我们更精准地控制图像效果,对电商、产品、游戏概念等设计领域来说非常有帮助。之前为大家推荐过一种在 ComfyUI 中免费实现 AI 实时绘画的方式,今天就再为大家推荐另一种在 Stable Diffusion WebUI 中实现实时绘画的方法。一、插件简介
SD WebUI 的实时绘画功能需要借助一个插件实现,这个插件是上周由 B 站 AI 绘画博主@朱尼酱推出,支持文生图、图
IP-Adapter!让AI绘画垫图效率提高10倍的新一代神器
都是“垫图”,谁能还原你心中的图
“垫图”这个概念大家肯定都不陌生,此前当无法准确用 prompt 描述心中那副图时,最简单的办法就是找一张近似的,然后 img2img 流程启动,一切搞定。
更多垫图干货:可 img2img 简单的同时,也有它绕不过去的局限性,比如对 prompt 的还原度不足、生成画面多样性弱,特别是当需要加入 controlnet 来进行多层控制时,参考图、模型、controlnet 的搭配就需要精心挑选,不然出图效果常常让人当场裂开…
但现在,我们有了新的“垫图”神器——IP-Adapter
可实现稳定且大的信号响应变化,吉林大学团队开发了一种差分钙钛矿半球形光电探测器
编辑 | 萝卜皮具有智能功能的先进光电探测器,有望在未来技术中发挥重要作用。然而,在有限数量的像素内完成复杂的检测任务仍然具有挑战性。吉林大学的研究团队报告了一种差分钙钛矿半球形光电探测器,用作智能成像和位置跟踪的智能定位器。钙钛矿半球形光电探测器具有高外量子效率(~1000%)和低噪声(10^−13 A Hz^−0.5),可实现稳定且大的信号响应变化。通过计算机算法分析仅 8 个像素的差分光响应,可以在低成本、无透镜的设备几何结构中实现彩色成像的能力和 4.7 nm 的计算光谱分辨率。通过机器学习模拟不同施加偏置
优于SOTA方法,语言模型结合几何深度学习技术,望石智慧开发3D分子生成模型Lingo3DMol
编辑 | X分子生成是 AI 助力小分子新药研发的核心技术。望石智慧始终专注于分子生成技术的开发。就在前几天,望石智慧的研究团队推出了 Lingo3DMol,用于在给定口袋 3D 结构的情况下生成小分子配体的 3D 结构。方法结合了语言模型和几何深度学习技术。研究人员在传统的 SMILES 分子表征的基础上,开发了新的分子表示方法 FSMILES。此外,研究训练了一个单独的非共价相互作用预测器,为生成模型提供必要的结合模式信息。Lingo3DMol 可以有效地穿越类似药物的化学空间,防止异常结构的形成。Lingo
罗氏制药和GRCEH团队开发可解释机器学习方法,用于分析治疗性抗体的免疫突触和功能表征
编辑 | 萝卜皮治疗性抗体广泛用于治疗严重疾病。它们中的大多数会改变免疫细胞并在免疫突触内发挥作用。指导体液免疫反应的重要细胞间相互作用。尽管生成并评估了许多抗体设计,但缺乏用于系统抗体表征和功能预测的高通量工具。德国环境健康研究中心(German Research Center for Environmental Health)和罗氏制药(Roche)的研究团队,开发了一个全面的开源框架 scifAI(单细胞成像流式细胞术 AI),用于对成像流式细胞术 (IFC) 数据进行预处理、特征工程和可解释的预测机器学习。