工程

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本篇论文的第一作者是清华大学交叉信息院的二年级硕士生许融武。主要指导…
工程
- 6
- 0
机器之心8月6日
错误率从10%降至0.01%，领英全面分享LLM应用落地经验
随着大型语言模型（LLM）技术日渐成熟，各行各业加快了 LLM 应用落地的步伐。为了改进 LLM 的实际应用效果，业界做出了诸多努力。近期，领英（LinkedIn）团队分享了他们在构建生成式 AI 产品的过程中总结的宝贵经验。领英表示基于生成式人工智能构建产品并非一帆风顺，他们在很多地方都遇到了困难。以下是领英博客原文。过去六个月，我们 LinkedIn 团队一直在努力开发一种新的人工智能体验，试…
工程
- 7
- 0
机器之心8月6日
LLM可解释性的未来希望？稀疏自编码器是如何工作的，这里有一份直观说明
简而言之：矩阵 → ReLU 激活 → 矩阵在解释机器学习模型方面，稀疏自编码器（SAE）是一种越来越常用的工具（虽然 SAE 在 1997 年左右就已经问世了）。机器学习模型和 LLM 正变得越来越强大、越来越有用，但它们仍旧是黑箱，我们并不理解它们完成任务的方式。理解它们的工作方式应当大有助益。SAE 可帮助我们将模型的计算分解成可以理解的组件。近日，LLM 可解释性研究者 Adam Karv…
工程
- 23
- 0
机器之心8月5日
70倍极致压缩！大模型的检查点再多也不怕
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]该论文的作者均来自于华为诺亚实验室，第一作者为李文硕，通讯作者为王云…
工程
- 7
- 0
机器之心8月5日
延迟交互模型，为什么是下一代RAG的标配？
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]张颖峰：英飞流联合创始人，多年搜索、AI、Infra基础设施开发经历…
工程
- 7
- 0
机器之心8月5日
小技巧大功效，「仅阅读两次提示」让循环语言模型超越Transformer++
在当前 AI 领域，大语言模型采用的主流架构是 Transformer。不过，随着 RWKV、Mamba 等架构的陆续问世，出现了一个很明显的趋势：在语言建模困惑度方面与 Transformer 较量的循环大语言模型正在快速进入人们的视线。令人兴奋的是，这些架构在推理期间使用了恒定量的内存。不过，受制于有限的内存，循环语言模型（LM）无法记忆并使用长上下文中的所有信息，这导致了上下文学习（in-c…
工程
- 11
- 0
机器之心8月4日
首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]文章作者皆为来自剑桥大学语言技术实验室，一作为三年级博士生刘胤宏，导…
工程
- 11
- 0
机器之心8月4日
苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住了
偷懒才能更好地工作。Llama 3.1 刚刚发布，你是否已经尝试了呢？就算你的个人计算机是最近的顶尖配置，运行其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率，研究者想出了多种多样的方法，但其中很多都会让模型牺牲一些准确度。近日，苹果和 Meta AI 的一个研究团队提出了一种新方法，可在保证准确度不明显下降的同时，将 Llama 2 预填充阶段的推理速度提升到原来的 2 倍以…
工程
- 10
- 0
机器之心8月2日
斯坦福大学学生创建的alphaXiv平台促进arXiv论文交流，可以发「弹幕」
探索alphaXiv，一个斯坦福大学学生创建的开放讨论论坛，让您可以在arXiv论文上直接发布问题和评论，促进学术交流。
工程
- 27
- 0
机器之心8月1日
SELF-GUIDE方法：提升语言模型特定任务能力的自生成数据策略
AIxiv专栏介绍SELF-GUIDE方法，该方法通过语言模型自生成数据来提升特定任务的性能，减少对高质量人工数据的依赖。
工程
- 21
- 0
机器之心8月1日
ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG…
工程
- 9
- 0
机器之心7月31日
「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]论文的第一作者是香港中文大学（深圳）数据科学学院二年级博士生袁尤良，…
工程
- 5
- 0
机器之心7月30日
1890美元，就能从头训练一个还不错的12亿参数扩散模型
只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研究者使用最先进的方法，也需要在 8×H100 GPU 上训练一个多月的时间。此外，训练大模型也对数据集提出了挑战，这些数据基本以亿为单位…
工程
- 4
- 0
机器之心7月29日
损坏不可逆？英特尔13/14代酷睿桌面CPU崩溃后续，不会召回
最近一段时间，部分使用英特尔第 13/14 代酷睿台式机处理器的游戏玩家遇到了一些麻烦。他们反馈称，这些处理器在运行虚拟引擎（Unreal Engine）游戏时会出现崩溃。比如使用了虚拟引擎 5.3 的《泰坦之路》（Path of Titans），它的开发商 Alderon Games 提供了弹出窗口，以警告可能的游戏崩溃。从下图可以看到，游戏由于英特尔酷睿 i7 13700K 处理器而意外终止。…
工程
- 45
- 0
机器之心7月28日
Llama 对决 GPT：AI 开源拐点已至?｜智者访谈
人工智能的卓越发展源于对技术与产业本质的洞察机器之心全新视频栏目「智者访谈」邀请领域专家，洞悉 AI 核心技术与行业趋势为从业者量身打造深化行业认知，激发创新思考与智者同行，共创 AI 未来
工程
- 14
- 0
机器之心7月28日
反转了？在一场新较量中，号称替代MLP的KAN只赢一局
KAN 在符号表示中领先，但 MLP 仍是多面手。多层感知器 (Multi-Layer Perceptrons，MLP) ，也被称为全连接前馈神经网络，是当今深度学习模型的基本组成部分。MLP 的重要性无论怎样强调都不为过，因为它是机器学习中用于逼近非线性函数的默认方法。然而，MLP 也存在某些局限性，例如难以解释学习到的表示，以及难以灵活地扩展网络规模。KAN（Kolmogorov–Arnold…
工程
- 18
- 0
机器之心7月27日
万亿token！史上最大多模态数据集诞生
开源多模态大模型或将开始腾飞。值此 Llama 3.1 占领各大头条之际，又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。对大模型来说，数据集的重要性无需多言，甚至可以说没有大型数据集就不可能有大模型。现在正是多模态大模型（LMM）发展正盛的时候，规模足够大的优质且开源的多模态数据集已经成为该领域的一大「刚需」。不过，相比于开源的文本数据集，现有的开源多模态数据集都比较小…
工程
- 17
- 0
机器之心7月27日
ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文第一作者皮仁杰是香港科技大学三年级博士生，师从张潼教授和周晓方教…
工程
- 8
- 0
机器之心7月27日
彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本工作由来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的 R…
工程
- 5
- 0
机器之心7月26日
OpenAI深夜突发SearchGPT！进军大模型搜索，谷歌、Perplexity危
最近，整个 AI 领域真是越发的卷了！除了大模型发布不断，也在不断带来新的产品体验。刚刚，OpenAI 正式发布了自己的大模型搜索产品 SearchGPT。Sam Altman 在 X 上表示：我们认为搜索功能还有改进的空间。我们推出一个名为 SearchGPT 的新原型产品。我们将从中学习，使其变得更好，然后将该技术集成到 ChatGPT 中，使其实时且最大限度地发挥作用。目前，OpenAI 正…
工程
- 20
- 0
机器之心7月26日
只需两步，让大模型智能体社区相信你是秦始皇
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文由上海交通大学与百川智能共同完成，第一作者鞠天杰是上海交通大学网…
工程
- 14
- 0
机器之心7月25日
RLHF不够用了，OpenAI设计出了新的奖励机制
OpenAI 的新奖励机制，让大模型更听话了。自大模型兴起以来，使用强化学习从人类反馈（RLHF）中微调语言模型一直是确保 AI 准确遵循指令的首选方法。为了确保 AI 系统安全运行并与人类价值观保持一致，我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是，收集这些常规和重复任务的人类反馈通常效率不高。此外，如果安全政策发生变化，已经收集的反馈可能会…
工程
- 15
- 0
机器之心7月25日
TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本论文第一作者杜超群是清华大学自动化系 2020 级直博生。导师为黄…
工程
- 17
- 0
机器之心7月25日
数学大统一理论里程碑进展：几何朗兰兹猜想获证明，论文超800页
历经三十年的努力，数学家已经成功证明了一个名为「朗兰兹纲领（Langlands program）」的宏大数学愿景的主要部分。一个由 9 位数学家组成的团队成功证明了几何朗兰兹猜想（Geometric Langlands Conjecture），这是现代数学领域涉及范围最广的范式之一。马克斯・普朗克数学研究所的著名数学家 Peter Scholze（他并未参与此证明）说：这项证明是三十年辛苦研究所到…
工程
- 12
- 0
机器之心7月24日