资讯列表
挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径
对 SSM 感兴趣的研究者不妨读一下这篇博士论文。在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多注意力机制的高效变体,但收效甚微。最近,一项名为「Mamba」的研究似乎打破了这一局面,它在语言建模方面可以媲美甚至击败 Transformer。这都要归功于作者提出的一种新架构 —— 选择性状态空间模型( sele
Softmax注意力与线性注意力的优雅融合,Agent Attention推动注意力新升级
来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。近年来,视觉 Transformer 模型得到了极大的发展,相关工作在分类、分割、检测等视觉任务上都取得了很好的效果。然而,将 Transformer 模型应用于视觉领域并不是一件简单的事情。与自然语言不同,视觉图片中的特征数量更多。由于 Softmax 注意力是平方复杂度,直接进行全局自注意力的计算往往会带来过高的计算量。针对这一问题,先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计算量。例如,设计稀疏注
一篇综述,看穿基础模型+机器人的发展路径
基础模型 (Foundation Models) 已经在过去几年里重塑了自然语言处理 (NLP) 和计算机视觉 (CV) 研究的格局,那么基础模型能为机器人带来怎样的可能性?这篇综述或许有你想要的答案。机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍
无问芯穹夏立雪:目标将大模型算力成本压缩四个数量级,为算力市场带来增量
算力不足仍然是制约通用人工智能发展的重要因素。GPU Utils 今年 8 月的一份数据显示,全球目前 H100 等效算力的供给缺口达到 43 万张。在解决算力不足的问题上,除了抢购和囤积英伟达,更多的方案正在浮出水面。清华系创业公司无问芯穹,是这个赛道上的一个答题者。不久前,机器之心介绍了来自无问芯穹(Infinigence AI)、清华大学和上海交通大学的联合团队所提出的一种新方法 FlashDecoding 。这项工作不仅能将 GPU 推理提速 2-4 倍,还能同时支持 NVIDIA 和 AMD 的 GPU
自己发基准自己第一,Anyscale行为惹社区吐槽
前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。第二天就收获 AI 社区的大量吐槽,原因是排行榜的「基准甚至没有得到很好的校准」。这是 Anyscale 这家初创公司正在经历的事情。Anyscale 是一家专注分布式计算领域的美国初创公司,虽然创立仅三年时间,但却收获了不少的关注。首先就是 Anyscale 旗下开源项目 Ray 带来的光环。Ray 是一个开源的分布式计算框架,可以将 AI/ML 和 Python 的 workload 从单机拓展至多台计算机上,从而提高 w
无限新衣服零元购,阿里Outfit Anyone实现真人百变换装
不实际试穿,就能尝试各种服饰,虚拟试衣技术让「QQ秀」升级成了真人版,为时尚行业打开了新世界的大门。然而,现有的虚拟试衣方法在逼真性和细节上的一致性方面还存在挑战。虽然扩散模型在创造高品质和真实感图像方面表现出众,但在虚拟试衣等特定场景中,它们在维持控制力和一致性方面还有待提高。Outfit Anyone 利用了一种创新的双流条件扩散模型,有效地解决了这些问题,能够精确地处理服装的变形效果,实现更加逼真的试穿体验。Outfit Anyone 最大的特点是其极强的适应性和广泛的应用范围,不仅能调整以适应不同的姿势和体
NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界
在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。人类的感知不仅由客观刺激塑造,而且深受过往经验的影响,这些共同促成了大脑中的复杂活动。在认知神经科学领域,解码大脑活动中的视觉信息成为了一项关键任务。功能性磁共振成像(fMRI)作为一种高效的非侵入性技术,在恢复和分析视觉信息,如图像类别方面发挥着重要作用。然而,由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性,这一任务面临着不小的挑战。针对
智能澎湃,大有可为——机器之心2023年度榜单揭晓
人工智能发展史上有几个重要的年份:比如 1956、2012…… 如今又多了个 2023 。这一年,ChatGPT 引爆的「百模大战」在国内外科技领域打响,没有一家公司敢在这样一个充满变革机遇的时间窗口松懈。与此同时,基于大模型打造应用的创业者也迎来了新的机遇,ChatGPT、Midjourney、Pika Lab等现象级应用已经足以让他们感受到大模型尚未完全爆发的潜力,也让他们感觉自己身处各种新的现象级应用爆发的前夕。在无数科研人员、从业者的努力下,2023 年中国人工智能领域已经诞生了一些新的成果,这些人的努力值
OpenAI计划新一轮融资,估值超1000亿美元
OpenAI 将成为仅次于字节、SpaceX 的全球第三大初创公司。大语言模型技术领先的 OpenAI,马不停蹄又要融资了。本周五据彭博社报道,OpenAI 正在开始讨论讨论筹集新一轮融资,估值将达到超过 1000 亿美元。这笔交易将为 OpenAI 这个 ChatGPT 提出者的融资历程再添上重要一笔。有匿名知情人士表示,可能参与本轮融资的投资者们已在参与初步讨论。其表示,本轮融资的条款、估值和时间安排等细节尚未最终确定,且仍可能继续发生变化。根据 CBInsights 的数据,如果该轮融资按照计划进行,将使 O
量子计算凛冬将至,LeCun:现实冷酷,炒作太多
距离技术成熟永远「还差五年」?「量子计算,寒冬将至了?」本周五,AI 先驱 Yann LeCun 的一番言论引发了人们的讨论。这位 AI 领域的著名学者表示,量子计算正在进入一个艰难时刻。与此同时,很多科技领域专家认为,目前的量子计算技术进步很多趋向于炒作,距离实际应用仍然很遥远。对此,很多人同样持有悲观态度。让我们看看 IEEE 的这篇文章是怎么说的:量子计算机革命可能比许多人想象的更遥远、更有限。一直以来,量子计算机都被期许为一种能够解决广泛问题的强大工具,可应用的方向包括金融建模、优化物流和加速机器学习。量子
CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?
苹果这项新工作将为未来 iPhone 加入大模型的能力带来无限想象力。近年来,GPT-3、OPT 和 PaLM 等大型语言模型(LLM)在广泛的 NLP 任务中表现出了强大的性能。不过,这些能力伴随着大量计算和内存推理需求,毕竟大型语言模型可能包含数千亿甚至万亿参数,使得高效加载和运行变得有挑战性,尤其是在资源有限的设备上。当前标准的应对方案是将整个模型加载到 DRAM 中进行推理,然而这种做法严重限制了可以运行的最大模型尺寸。举个例子,70 亿参数的模型需要 14GB 以上的内存才能加载半精度浮点格式的参数,这超
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA
OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态任务的能力,如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。论文地址:: 体验地址: 体验地址:,阿里多模态大模型 mPLUG-Owl 迎来大升级,通过模态协
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
Meta的视频合成新框架又给了我们一点小小的震撼。就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图像编辑和内容创建应用。基于图像的生成模型所取得的成就基础上,下一个挑战的领域必然是为其增加「时间维度」,从而实现轻松而富有创意的视频编辑。一种直接策略是使用图像模型逐帧处理视频,然而,生成式图像编辑本身就具有高变异性—
Midjourney V6迎来大升级:网友惊呼生成效果太逼真
和 DALL-E 3 等图像生成模型相比,谁的效果会更好呢?你真的会被 Midjourney V6 alpha 版本测试的生成效果震撼到。输入提示:「电影镜头,一个 50 岁留着灰胡子、穿着棕色夹克、戴着红色围巾的黑人男子站在一个 20 岁左右的白人女子旁边,她穿着深蓝和乳白色千鸟格外套,戴着黑色针织帽。午夜,他们走在街道中央,被路灯柔和的橙色光芒照亮。」图源:,v 5.2 的生成效果肉眼可见的差距,人物脸部细节刻画的不是很细致,衣服纹理、褶皱表现的很少:Midjourney V6 生成雨中的马斯克:图源::图源:
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。论文链接:: 代码实现: 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩
大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?
这就是2024年的新趋势吗?近日,一项名为 AppAgent 的创新技术引起了广泛关注。简单来说,AppAgent 的智能代理能力可以用于操作任何 App,它在 50 个复杂手机任务上展示了强大的能力。AppAgent 幕后团队来自腾讯,相关技术论文也已经公布。论文地址::,这项技术通过引入一种基于大型语言模型(LLMs)的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。与传统的智能助手如 Siri 不同,AppAgent 不依赖于系统后端访问,而是通过模拟人类的点击和滑动等操作,直接与手机应
arXiv大升级,论文网页版本直接看
很快就将扩展到所有论文。今年 10 月,著名预印版论文平台 arXiv 宣布获得 1000 万元捐款,现在版本大升级来了。本周四,arXiv 宣布了一项更新,正式加入论文 HTML 版本。消息一出,立刻引来了学界的欢呼,有人发现 arXiv 也已经准备好了暗黑模式:arXiv 是计算机科学、物理学、数学、生物学等学术领域常用论文预印本网站,创立于 1991 年。一直以来,arXiv 上论文的显示方式都以 pdf 格式为主,用户通常需要「下载 PDF(Download PDF)」来查看论文内容。现在,arXiv 宣布
AAAI 2024 | 测试时领域适应的鲁棒性得以保证,TRIBE在多真实场景下达到SOTA
测试时领域适应(Test-Time Adaptation)的目的是使源域模型适应推理阶段的测试数据,在适应未知的图像损坏领域取得了出色的效果。然而,当前许多方法都缺乏对真实世界场景中测试数据流的考虑,例如:测试数据流应当是时变分布(而非传统领域适应中的固定分布)测试数据流可能存在局部类别相关性(而非完全独立同分布采样)测试数据流在较长时间里仍表现全局类别不平衡近日,华南理工、A*STAR 和港中大(深圳)团队通过大量实验证明,这些真实场景下的测试数据流会对现有方法带来巨大挑战。该团队认为,最先进方法的失败首先是由于