工程 - AI在线

Meta探索大模型记忆层，扩展至1280亿个参数，优于MoE

预训练语言模型通常在其参数中编码大量信息，并且随着规模的增加，它们可以更准确地回忆和使用这些信息。对于主要将信息编码为线性矩阵变换权重的密集深度神经网络来说，参数大小的扩展直接与计算和能量需求的增加相关。语言模型需要学习的一个重要信息子集是简单关联。

轻松进行动态图异常检测，南洋理工提出GeneralDyG

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

轨迹跟踪误差直降50％，清华汪玉团队强化学习策略秘籍搞定无人机

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

AAAI 2025｜时间序列演进也是种扩散过程？基于移动自回归的时序扩散预测模型

图学习新突破：一个统一框架连接空域和频域

AAAI 2025 | 开放世界的深伪检测，北交大团队：解决好无配对数据挑战很重要

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

人能逆向思维，LLM 也可以吗？北卡罗来纳大学教堂山分校与谷歌最近的一项研究表明，LLM 确实可以，并且逆向思维还能帮助提升 LLM 的正向推理能力！论文一作 Justin Chih-Yao Chen 的推文简单来说，正向思维就是从问题开始，一步步地得出答案；而逆向思维则是先从一个预测答案开始，逆推到原始问题。

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

BLT 在许多基准测试中超越了基于 token 的架构。最近几天，来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了，在 Hacker News 上受到广泛讨论。有人表示，非常期待这项研究取得成功，这样就可以和 tokenizer 拜拜了！