时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文第一作者陈谋祥是浙江大学计算机四年级博士生,研究方向为时间序列预…- 4
- 0
Sigmoid注意力一样强,苹果开始重新审视注意力机制
注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性,但它并非没有局限性。例如,softmax 函数有时会导致注意力集中在少数几个特征,而忽略了其他信息。近来,一些研究探索了 Transformer …- 19
- 0
ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本论文第一作者倪赞林是清华大学自动化系 2022 级直博生,师从黄高…- 7
- 0
OpenAI o1智商120,还是被陶哲轩称为「平庸的研究生」,但实力究竟如何?
自从 OpenAI 发布了新模型 o1 后,它就承包了 AI 领域近几天的热搜:有人用门萨智商测试题「拷问」它,竟测得 o1 智商高达 120;数学大佬陶哲轩要求 o1 回答一个措辞含糊的数学问题,最终得出一个结论:o1 是个平庸但不无能的研究生;还有一位天体物理学论文作者,仅用 6 次 Prompt,就让 o1 系列模型在 1 小时内,创建了代码运行版本,这可是他博士生期间 10 个月的工作量。…- 28
- 0
首次!用合成人脸数据集训练的识别模型,性能高于真实数据集
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]研究动机一个高质量的人脸识别训练集要求身份 (ID) 有高的分离度(…- 8
- 0
当代版木牛流马?国外网友造出「会走路的桌子」,引百万人围观
你想喝瓶啤酒,于是就把桌子叫了过来。这不是吃了菌子才有的场景,而是国外网友的一项发明,名叫 Carpentopod。整个桌子有 12 条腿,里面内置了电机,是木工、电子和编程结合的产物。只要按下遥控器,桌子就会向你走来,像一个家用机器人一样。从图上可以看出,Carpentopod 走起来非常平稳,这是它的腿部参数不断「进化」的结果。这个「进化」过程在软件的虚拟环境中进行,数千个虚拟腿部变体在该环境…- 18
- 0
与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]代彦琪是中国人民大学高瓴人工智能学院的三年级博士生,师从卢志武教授,…- 9
- 0
ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文第一作者为 Chuanyang Jin (金川杨),本科毕业于纽…- 5
- 0
表格增强生成TAG登场:解锁AI自然语言与数据库的完美结合
与 Text2SQL 或 RAG 不同,TAG 充分利用了数据库系统和 LLM 的功能。人工智能已经改变了人们的工作方式和与数据交互的方式。回想几年前,研究人员必须编写 SQL 查询和代码才能从大量数据中提取有用信息。如今,他们只需输入问题,由语言模型驱动的底层系统会完成其余工作,让用户只需与数据对话即可立即获得答案。这些新系统向数据库提供自然语言交互,这种转变取得了丰硕成果,但仍存在一些问题。从…- 8
- 0
还在死磕AI咒语?北大-百川搞了个自动提示工程系统PAS
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]论文共同第一作者郑淼,来自于周泽南领导的百川对齐团队,毕业于北京大学…- 14
- 0
天下苦英伟达久矣!PyTorch官方免CUDA加速推理,Triton时代要来?
近日,PyTorch 官方分享了如何实现无 CUDA 计算,对各个内核进行了微基准测试比较,并讨论了未来如何进一步改进 Triton 内核以缩小与 CUDA 的差距。在做大语言模型(LLM)的训练、微调和推理时,使用英伟达的 GPU 和 CUDA 是常见的做法。在更大的机器学习编程与计算范畴,同样严重依赖 CUDA,使用它加速的机器学习模型可以实现更大的性能提升。虽然 CUDA 在加速计算领域占据…- 16
- 0
大模型边推理边纠错,有可能做到吗?这是ICML爆火的演讲
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]即便是最强大的语言模型(LLM),仍会偶尔出现推理错误。除了通过提示…- 11
- 0
名场面来了,李云龙、徐江、王多鱼同台飙戏,背后是小红书的AI
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]近日,来自小红书的技术团队 FireRed,提出了基于大语言模型的 …- 16
- 0
用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构
硬件发展速度跟不上 AI 需求,就需要精妙的架构和算法。根据摩尔定律,计算机的速度平均每两年就会翻一倍,但深度学习的发展速度还要更快,如图 1 和 2 所示。可以看到,AI 对算力的需求每年都以 10 倍幅度增长,而硬件速度每两年增长 3 倍、DRAM 带宽增长 1.6 倍、互连带宽则仅有 1.4 倍。而大模型是大数据 大计算的产物,其参数量可达千亿乃至万亿规模,需要成千上万台 GPU 才能有效完…- 55
- 0
北大领衔,多智能体强化学习研究登上Nature子刊
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]近日,由北京大学人工智能研究院杨耀东课题组牵头完成的研究成果 ——「…- 9
- 0
超级Prompt:几行乱码让大模型获得科学思维,这个神奇的提示词突然火了
再等等,作者会解释。起猛了?不过两三天的时间,仅有两个 Markdown 文件的 GitHub 项目为何竟能收获 2k star?仔细一看,其中一个 Markdown 文件是一个流程图,另一个 Readme 文件的主要内容则是一大篇大模型提示词(prompt。而如果你细读这个 prompt,却发现里面仅有寥寥数句人类能懂的话,其余都是一些奇怪的 XML 标签、符号与函数定义。大模型也要有自己的 M…- 19
- 0
北大李戈团队提出大模型单测生成新方法,显著提升代码测试覆盖率
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]单元测试是软件开发流程中的一个关键环节,主要用于验证软件中的最小可测…- 14
- 0
鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文第一作者马欣贝是上海交通大学计算机系四年级博士生,研究方向为自主…- 14
- 0
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]该论文作者来自复旦大学、中电金信及上海智能视觉计算协同创新中心团队,…- 24
- 0
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。前段时间,Mamba 的出现打破了这一局面,它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布,这些状态空间…- 19
- 0
KDD2024最佳学生论文解读,中科大、华为诺亚:序列推荐新范式DR4SR
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本工作由认知智能全国重点实验室 IEEE Fellow 陈恩红团队与…- 10
- 0
当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文第一作者为香港大学博士研究生谢知晖,主要研究兴趣为大模型对齐与强…- 16
- 0
情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]罗盟,本工作的第一作者。新加坡国立大学(NUS)人工智能专业准博士生…- 10
- 0
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
人工神经网络、深度学习方法和反向传播算法构成了现代机器学习和人工智能的基础。但现有方法往往是一个阶段更新网络权重,另一个阶段在使用或评估网络时权重保持不变。这与许多需要持续学习的应用程序形成鲜明对比。最近,一篇发表在《nature》杂志上的研究论文《Loss of plasticity in deep continual learning》证明:标准的深度学习方法在持续学习环境中会逐渐失去可塑性(…- 23
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!