牛津光计算论文登Nature正刊,分析帕金森患者步态准确率达92.2%
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文第一作者为牛津大学 Harish Bhaskaran 院士课题组…- 16
- 0
统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
本文引入了 Transfusion,这是一种可以在离散和连续数据上训练多模态模型的方法。一般来说,多模态生成模型需要能够感知、处理和生成离散元素(如文本或代码)和连续元素(如图像、音频和视频数据)。在离散模态领域,以预测下一个词为目标的语言模型占据主导地位,而在生成连续模态方面,扩散模型及其泛化形式则是当前最先进技术。研究者一直试图将语言模型与扩散模型结合,一种方法是直接扩展语言模型,使其能够利用…- 13
- 0
ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]论文一作兰宇时为南洋理工大学(NTU)博士生,导师为 Chen Ch…- 17
- 0
ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文第一作者为密歇根州立大学计算机系博士生张益萌,贾景晗,两人均为O…- 11
- 0
如何让等变神经网络可解释性更强?试试将它分解成「简单表示」
神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 —— 当图像发生平移时,情况不会发生变化。等变神经网络(equivariant neural network)可为学习这些不变或等变函数提供一个灵活的框架。而要研究等变神经网络,可使用表示论(representation theory)这种数学工具。(请注意,「表示」这一数学…- 23
- 0
用AI自动设计智能体,数学提分25.9%,远超手工设计
基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。基础模型 (FM) 如 GPT 和 Claude ,正在成为通用智能体的强有力支持,被越来越多的用于多种推理和规划任务。然而,在解决问题时,需要的智能体通常是具有多个组件的复合智能体系统,而不是单片模型查询 。此外,为了使智能体能够解决复杂的现实世界任务,它们通常需要访问外部工具,例如搜索引擎、代码执行和数据库查询。因此,人们提出…- 15
- 0
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型处理的信息更多,例如长文档、长视频,这种能力同样为更多现实世界的应用程序提供了所需的功能。然而,目前面临的问题是一…- 12
- 0
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产…- 18
- 0
浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]该论文作者均来自于浙江大学李玺教授团队,论文第一作者为博士生苏伟同学…- 8
- 0
大模型终端部署新趋势:硬件直接支持混合矩阵乘法
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]在人工智能领域,模型参数的增多往往意味着性能的提升。但随着模型规模的…- 18
- 0
机器人策略学习的Game Changer?伯克利提出Body Transformer
过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT)。本文要介绍的 Body Transformer(BoT) 则是非常适合机器人策略学习的 Transformer 变体。我们知道,物理智能体在执行动作的校正和稳定时,往往会根据其感受到的外部刺激的位置给出空间上的响应。比如人类对这些刺激的响应…- 11
- 0
给RAG系统做一次全面「体检」,亚马逊开源RAGChecker诊断工具
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]亚马逊上海人工智能研究院成立于 2018 年,已成为深度学习研究领域…- 12
- 0
Nature子刊 | 基于内生复杂性,自动化所新类脑网络构筑人工智能与神经科科学的桥梁
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本篇工作发表在《Nature Computational Scien…- 18
- 0
英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
小模型崛起了。上个月,Meta 发布了 Llama 3.1 系列模型,其中包括 Meta 迄今为止最大的 405B 模型,以及两个较小的模型,参数量分别为 700 亿和 80 亿。Llama 3.1 被认为是引领了开源新时代。然而,新一代的模型虽然性能强大,但部署时仍需要大量计算资源。因此,业界出现了另一种趋势,即开发小型语言模型 (SLM),这种模型在许多语言任务中表现足够出色,部署起来也非常便…- 20
- 0
大神Karpathy:我给大模型「SQL注入」攻击,简直不要太轻松
大模型的安全性,可以说是「有很大进步空间」。AI 大牛 Andrej Karpathy 又来科普知识了,这次的主题是「利用特殊 token 对 LLM 进行类 SQL 注入的攻击」。所谓 SQL 注入攻击,它是一种网络攻击技术。攻击者通过将恶意的 SQL 语句插入到应用程序的输入字段中,诱使后台数据库执行这些恶意的 SQL 语句。此类攻击通常利用应用程序对用户输入的处理不当,比如没有正确地对输入进…- 8
- 0
两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调
互相检查,让小模型也能解决大问题。众所周知,LLM 很强大,但执行复杂推理的能力还不够强。举个例子,在 GSM8K 数据集上,Mistral-7B 即使使用思维链(CoT)等技术,也只能达到 36.5% 的准确度。尽管微调确实也能有效地提升推理能力,但大多数 LLM 依靠的微调数据都是经过 GPT-4 等更强大模型蒸馏过的,甚至可能原本就是这些强大模型合成的。同时,研究者们也在积极开发一种能提供辅…- 21
- 0
数十年来首次取得进展,陶哲轩高徒、赵宇飞高徒突破组合数学难题
近期,一个数十年来未解决的数学难题首次取得了进展。推动这项进展的是来自加州大学洛杉矶分校的研究生 James Leng 和麻省理工学院数学研究生 Ashwin Sah、哥伦比亚大学助理教授 Mehtaab Sawhney。其中James Leng 师从著名数学家陶哲轩,Ashwin Sah 师从离散数学大牛赵宇飞。论文地址:,需要从算术级数说起。等差数列的前 n 项和称为一个等差级数,也称为算术级…- 9
- 0
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。和以往一眼就能识破是 AI 生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。然而,视频大语言模型(LLM)惊艳表现的背后离不开庞大且经过精细标注的视频数据集,这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新…- 15
- 0
新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性
用 FlexAttention 尝试一种新的注意力模式。理论上,注意力机制就是你所需要的一切。然而在实际操作中,我们还需要优化像 FlashAttention 这样的注意力机制的实现。尽管这些融合的注意力机制大大提高了性能,且支持长上下文,但这种效率的提升也伴随着灵活性的丧失。对于机器学习研究人员来说,这就像是一种「软件彩票」—— 如果你的注意力变体不适合现有的优化内核,你将面临运行缓慢和 CUD…- 21
- 0
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
混合专家,也得术业有专攻。对于目前的混合模态基础模型,常用的架构设计是融合特定模态的编码器或解码器,但这种方法存在局限:无法整合不同模态的信息,也难以输出包含多种模态的内容。为了克服这一局限,Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transfor…- 26
- 0
投机采样会损失大语言模型的推理精度吗?
Mitchell Stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善,包括 Lookahead Decoding、REST、Medusa 和 EAGLE,投机采样显著加快了大型语言模型 (LLM) 的推理过程。一个重要的问题是:LLM 中的投机采样会损害原始模型的准确性吗?先说答案:不会。标准的投机采样算法是无损的,本文将通过数学分析和实验来证明这一点…- 32
- 0
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提高训练效率的关键。近日,字节跳动豆包大模型团队与香港大学联合提出了 ByteCheckpoint。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和…- 16
- 0
八问八答搞懂Transformer内部运作原理
七年前,论文《Attention is all you need》提出了 transformer 架构,颠覆了整个深度学习领域。如今,各家大模型都以 transformer 架构为基础,但 transformer 内部运作原理,仍是一个未解之谜。去年,transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期,Sakana AI 发表了一篇题为《T…- 13
- 0
AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]文章的第一作者是上海交通大学博士研究生赵峻图(主页:),他的研究方向…- 4
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!