ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本篇论文的第一作者是清华大学交叉信息院的二年级硕士生许融武。主要指导…- 6
- 0
错误率从10%降至0.01%,领英全面分享LLM应用落地经验
随着大型语言模型(LLM)技术日渐成熟,各行各业加快了 LLM 应用落地的步伐。为了改进 LLM 的实际应用效果,业界做出了诸多努力。近期,领英(LinkedIn)团队分享了他们在构建生成式 AI 产品的过程中总结的宝贵经验。领英表示基于生成式人工智能构建产品并非一帆风顺,他们在很多地方都遇到了困难。以下是领英博客原文。过去六个月,我们 LinkedIn 团队一直在努力开发一种新的人工智能体验,试…- 7
- 0
LLM可解释性的未来希望?稀疏自编码器是如何工作的,这里有一份直观说明
简而言之:矩阵 → ReLU 激活 → 矩阵在解释机器学习模型方面,稀疏自编码器(SAE)是一种越来越常用的工具(虽然 SAE 在 1997 年左右就已经问世了)。机器学习模型和 LLM 正变得越来越强大、越来越有用,但它们仍旧是黑箱,我们并不理解它们完成任务的方式。理解它们的工作方式应当大有助益。SAE 可帮助我们将模型的计算分解成可以理解的组件。近日,LLM 可解释性研究者 Adam Karv…- 23
- 0
70倍极致压缩!大模型的检查点再多也不怕
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]该论文的作者均来自于华为诺亚实验室,第一作者为李文硕,通讯作者为王云…- 7
- 0
延迟交互模型,为什么是下一代RAG的标配?
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]张颖峰:英飞流联合创始人,多年搜索、AI、Infra基础设施开发经历…- 7
- 0
小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++
在当前 AI 领域,大语言模型采用的主流架构是 Transformer。不过,随着 RWKV、Mamba 等架构的陆续问世,出现了一个很明显的趋势:在语言建模困惑度方面与 Transformer 较量的循环大语言模型正在快速进入人们的视线。令人兴奋的是,这些架构在推理期间使用了恒定量的内存。不过,受制于有限的内存,循环语言模型(LM)无法记忆并使用长上下文中的所有信息,这导致了上下文学习(in-c…- 11
- 0
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]文章作者皆为来自剑桥大学语言技术实验室,一作为三年级博士生刘胤宏,导…- 11
- 0
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
偷懒才能更好地工作。Llama 3.1 刚刚发布,你是否已经尝试了呢?就算你的个人计算机是最近的顶尖配置,运行其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率,研究者想出了多种多样的方法,但其中很多都会让模型牺牲一些准确度。近日,苹果和 Meta AI 的一个研究团队提出了一种新方法,可在保证准确度不明显下降的同时,将 Llama 2 预填充阶段的推理速度提升到原来的 2 倍以…- 10
- 0
斯坦福大学学生创建的alphaXiv平台促进arXiv论文交流,可以发「弹幕」
探索alphaXiv,一个斯坦福大学学生创建的开放讨论论坛,让您可以在arXiv论文上直接发布问题和评论,促进学术交流。- 27
- 0
ICML 2024|复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG…- 9
- 0
「越狱」事件频发,如何教会大模型「迷途知返」而不是「将错就错」?
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]论文的第一作者是香港中文大学(深圳)数据科学学院二年级博士生袁尤良,…- 5
- 0
1890美元,就能从头训练一个还不错的12亿参数扩散模型
只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研究者使用最先进的方法,也需要在 8×H100 GPU 上训练一个多月的时间。此外,训练大模型也对数据集提出了挑战,这些数据基本以亿为单位…- 4
- 0
损坏不可逆?英特尔13/14代酷睿桌面CPU崩溃后续,不会召回
最近一段时间,部分使用英特尔第 13/14 代酷睿台式机处理器的游戏玩家遇到了一些麻烦。他们反馈称,这些处理器在运行虚拟引擎(Unreal Engine)游戏时会出现崩溃。比如使用了虚拟引擎 5.3 的《泰坦之路》(Path of Titans),它的开发商 Alderon Games 提供了弹出窗口,以警告可能的游戏崩溃。从下图可以看到,游戏由于英特尔酷睿 i7 13700K 处理器而意外终止。…- 45
- 0
Llama 对决 GPT:AI 开源拐点已至?|智者访谈
人工智能的卓越发展 源于对技术与产业本质的洞察 机器之心全新视频栏目「智者访谈」 邀请领域专家,洞悉 AI 核心技术与行业趋势 为从业者量身打造 深化行业认知,激发创新思考 与智者同行,共创 AI 未来- 14
- 0
反转了?在一场新较量中,号称替代MLP的KAN只赢一局
KAN 在符号表示中领先,但 MLP 仍是多面手。多层感知器 (Multi-Layer Perceptrons,MLP) ,也被称为全连接前馈神经网络,是当今深度学习模型的基本组成部分。MLP 的重要性无论怎样强调都不为过,因为它是机器学习中用于逼近非线性函数的默认方法。然而,MLP 也存在某些局限性,例如难以解释学习到的表示,以及难以灵活地扩展网络规模。KAN(Kolmogorov–Arnold…- 18
- 0
万亿token!史上最大多模态数据集诞生
开源多模态大模型或将开始腾飞。值此 Llama 3.1 占领各大头条之际,又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。对大模型来说,数据集的重要性无需多言,甚至可以说没有大型数据集就不可能有大模型。现在正是多模态大模型(LMM)发展正盛的时候,规模足够大的优质且开源的多模态数据集已经成为该领域的一大「刚需」。不过,相比于开源的文本数据集,现有的开源多模态数据集都比较小…- 17
- 0
ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文第一作者皮仁杰是香港科技大学三年级博士生,师从张潼教授和周晓方教…- 8
- 0
彻底摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本工作由来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的 R…- 5
- 0
OpenAI深夜突发SearchGPT!进军大模型搜索,谷歌、Perplexity危
最近,整个 AI 领域真是越发的卷了!除了大模型发布不断,也在不断带来新的产品体验。刚刚,OpenAI 正式发布了自己的大模型搜索产品 SearchGPT。Sam Altman 在 X 上表示:我们认为搜索功能还有改进的空间。我们推出一个名为 SearchGPT 的新原型产品。我们将从中学习,使其变得更好,然后将该技术集成到 ChatGPT 中,使其实时且最大限度地发挥作用。目前,OpenAI 正…- 20
- 0
只需两步,让大模型智能体社区相信你是秦始皇
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文由上海交通大学与百川智能共同完成,第一作者鞠天杰是上海交通大学网…- 14
- 0
RLHF不够用了,OpenAI设计出了新的奖励机制
OpenAI 的新奖励机制,让大模型更听话了。自大模型兴起以来,使用强化学习从人类反馈(RLHF)中微调语言模型一直是确保 AI 准确遵循指令的首选方法。为了确保 AI 系统安全运行并与人类价值观保持一致,我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是,收集这些常规和重复任务的人类反馈通常效率不高。此外,如果安全政策发生变化,已经收集的反馈可能会…- 15
- 0
TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本论文第一作者杜超群是清华大学自动化系 2020 级直博生。导师为黄…- 17
- 0
数学大统一理论里程碑进展:几何朗兰兹猜想获证明,论文超800页
历经三十年的努力,数学家已经成功证明了一个名为「朗兰兹纲领(Langlands program)」的宏大数学愿景的主要部分。一个由 9 位数学家组成的团队成功证明了几何朗兰兹猜想(Geometric Langlands Conjecture),这是现代数学领域涉及范围最广的范式之一。马克斯・普朗克数学研究所的著名数学家 Peter Scholze(他并未参与此证明)说:这项证明是三十年辛苦研究所到…- 12
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!