工程

牛津光计算论文登Nature正刊，分析帕金森患者步态准确率达92.2%
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文第一作者为牛津大学 Harish Bhaskaran 院士课题组…
工程
- 16
- 0
机器之心8月28日
统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者
本文引入了 Transfusion，这是一种可以在离散和连续数据上训练多模态模型的方法。一般来说，多模态生成模型需要能够感知、处理和生成离散元素（如文本或代码）和连续元素（如图像、音频和视频数据）。在离散模态领域，以预测下一个词为目标的语言模型占据主导地位，而在生成连续模态方面，扩散模型及其泛化形式则是当前最先进技术。研究者一直试图将语言模型与扩散模型结合，一种方法是直接扩展语言模型，使其能够利用…
工程
- 13
- 0
机器之心8月26日
ECCV 2024 | 引入DiT的原生3D通用框架，适用任意神经场、秒级生成
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]论文一作兰宇时为南洋理工大学（NTU）博士生，导师为 Chen Ch…
工程
- 17
- 0
机器之心8月26日
ECCV 2024 | 机器遗忘之后，扩散模型真正安全了吗？
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文第一作者为密歇根州立大学计算机系博士生张益萌，贾景晗，两人均为O…
工程
- 11
- 0
机器之心8月26日
如何让等变神经网络可解释性更强？试试将它分解成「简单表示」
神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 —— 当图像发生平移时，情况不会发生变化。等变神经网络（equivariant neural network）可为学习这些不变或等变函数提供一个灵活的框架。而要研究等变神经网络，可使用表示论（representation theory）这种数学工具。（请注意，「表示」这一数学…
工程
- 23
- 0
机器之心8月23日
用AI自动设计智能体，数学提分25.9%，远超手工设计
基于 ADAS 所发现的智能体的性能大大优于最先进的手工设计的基线。基础模型 (FM) 如 GPT 和 Claude ，正在成为通用智能体的强有力支持，被越来越多的用于多种推理和规划任务。然而，在解决问题时，需要的智能体通常是具有多个组件的复合智能体系统，而不是单片模型查询。此外，为了使智能体能够解决复杂的现实世界任务，它们通常需要访问外部工具，例如搜索引擎、代码执行和数据库查询。因此，人们提出…
工程
- 15
- 0
机器之心8月22日
支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频
现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型处理的信息更多，例如长文档、长视频，这种能力同样为更多现实世界的应用程序提供了所需的功能。然而，目前面临的问题是一…
工程
- 12
- 0
机器之心8月21日
多模态模型评测框架lmms-eval发布！全面覆盖，低成本，零污染
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产…
工程
- 18
- 0
机器之心8月21日
浙大李玺团队：指代表达理解新方法，ScanFormer粗到细迭代消除视觉冗余
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]该论文作者均来自于浙江大学李玺教授团队，论文第一作者为博士生苏伟同学…
工程
- 8
- 0
机器之心8月20日
大模型终端部署新趋势：硬件直接支持混合矩阵乘法
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]在人工智能领域，模型参数的增多往往意味着性能的提升。但随着模型规模的…
工程
- 18
- 0
机器之心8月19日
机器人策略学习的Game Changer？伯克利提出Body Transformer
过去几年间，Transformer 架构已经取得了巨大的成功，同时其也衍生出了大量变体，比如擅长处理视觉任务的 Vision Transformer（ViT）。本文要介绍的 Body Transformer（BoT）则是非常适合机器人策略学习的 Transformer 变体。我们知道，物理智能体在执行动作的校正和稳定时，往往会根据其感受到的外部刺激的位置给出空间上的响应。比如人类对这些刺激的响应…
工程
- 11
- 0
机器之心8月19日
给RAG系统做一次全面「体检」，亚马逊开源RAGChecker诊断工具
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]亚马逊上海人工智能研究院成立于 2018 年，已成为深度学习研究领域…
工程
- 12
- 0
机器之心8月18日
Nature子刊 | 基于内生复杂性，自动化所新类脑网络构筑人工智能与神经科科学的桥梁
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本篇工作发表在《Nature Computational Scien…
工程
- 18
- 0
机器之心8月18日
英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强
小模型崛起了。上个月，Meta 发布了 Llama 3.1 系列模型，其中包括 Meta 迄今为止最大的 405B 模型，以及两个较小的模型，参数量分别为 700 亿和 80 亿。Llama 3.1 被认为是引领了开源新时代。然而，新一代的模型虽然性能强大，但部署时仍需要大量计算资源。因此，业界出现了另一种趋势，即开发小型语言模型 (SLM)，这种模型在许多语言任务中表现足够出色，部署起来也非常便…
工程
- 20
- 0
机器之心8月16日
大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松
大模型的安全性，可以说是「有很大进步空间」。AI 大牛 Andrej Karpathy 又来科普知识了，这次的主题是「利用特殊 token 对 LLM 进行类 SQL 注入的攻击」。所谓 SQL 注入攻击，它是一种网络攻击技术。攻击者通过将恶意的 SQL 语句插入到应用程序的输入字段中，诱使后台数据库执行这些恶意的 SQL 语句。此类攻击通常利用应用程序对用户输入的处理不当，比如没有正确地对输入进…
工程
- 8
- 0
机器之心8月16日
两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调
互相检查，让小模型也能解决大问题。众所周知，LLM 很强大，但执行复杂推理的能力还不够强。举个例子，在 GSM8K 数据集上，Mistral-7B 即使使用思维链（CoT）等技术，也只能达到 36.5% 的准确度。尽管微调确实也能有效地提升推理能力，但大多数 LLM 依靠的微调数据都是经过 GPT-4 等更强大模型蒸馏过的，甚至可能原本就是这些强大模型合成的。同时，研究者们也在积极开发一种能提供辅…
工程
- 21
- 0
机器之心8月16日
数十年来首次取得进展，陶哲轩高徒、赵宇飞高徒突破组合数学难题
近期，一个数十年来未解决的数学难题首次取得了进展。推动这项进展的是来自加州大学洛杉矶分校的研究生 James Leng 和麻省理工学院数学研究生 Ashwin Sah、哥伦比亚大学助理教授 Mehtaab Sawhney。其中James Leng 师从著名数学家陶哲轩，Ashwin Sah 师从离散数学大牛赵宇飞。论文地址：，需要从算术级数说起。等差数列的前 n 项和称为一个等差级数，也称为算术级…
工程
- 9
- 0
机器之心8月15日
给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA
自从 Sora 发布以来，AI 视频生成领域变得更加「热闹」了起来。过去几个月，我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。和以往一眼就能识破是 AI 生成的模型不太一样，这批视频大模型可能是我们所见过的「最好的一届」。然而，视频大语言模型（LLM）惊艳表现的背后离不开庞大且经过精细标注的视频数据集，这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新…
工程
- 15
- 0
机器之心8月11日
新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性
用 FlexAttention 尝试一种新的注意力模式。理论上，注意力机制就是你所需要的一切。然而在实际操作中，我们还需要优化像 FlashAttention 这样的注意力机制的实现。尽管这些融合的注意力机制大大提高了性能，且支持长上下文，但这种效率的提升也伴随着灵活性的丧失。对于机器学习研究人员来说，这就像是一种「软件彩票」—— 如果你的注意力变体不适合现有的优化内核，你将面临运行缓慢和 CUD…
工程
- 21
- 0
机器之心8月11日
混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合
混合专家，也得术业有专攻。对于目前的混合模态基础模型，常用的架构设计是融合特定模态的编码器或解码器，但这种方法存在局限：无法整合不同模态的信息，也难以输出包含多种模态的内容。为了克服这一局限，Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transfor…
工程
- 26
- 0
机器之心8月11日
投机采样会损失大语言模型的推理精度吗？
Mitchell Stern 等人于 2018 年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善，包括 Lookahead Decoding、REST、Medusa 和 EAGLE，投机采样显著加快了大型语言模型 (LLM) 的推理过程。一个重要的问题是：LLM 中的投机采样会损害原始模型的准确性吗？先说答案：不会。标准的投机采样算法是无损的，本文将通过数学分析和实验来证明这一点…
工程
- 32
- 0
机器之心8月9日
Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效
伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkpoint）系统在训练过程中负责状态的存储和恢复，已经成为克服训练故障、保障训练进度和提高训练效率的关键。近日，字节跳动豆包大模型团队与香港大学联合提出了 ByteCheckpoint。这是一个 PyTorch 原生，兼容多个训练框架，支持 Checkpoint 的高效读写和…
工程
- 16
- 0
机器之心8月8日
八问八答搞懂Transformer内部运作原理
七年前，论文《Attention is all you need》提出了 transformer 架构，颠覆了整个深度学习领域。如今，各家大模型都以 transformer 架构为基础，但 transformer 内部运作原理，仍是一个未解之谜。去年，transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期，Sakana AI 发表了一篇题为《T…
工程
- 13
- 0
机器之心8月7日
AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]文章的第一作者是上海交通大学博士研究生赵峻图（主页：），他的研究方向…
工程
- 4
- 0
机器之心8月6日