替代MLP的KAN,被开源项目扩展到卷积了
本月初,来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代要领 ——KAN。KAN 在准确性和可解释性方面表现优于 MLP,而且它能以非常少的参数目胜过以更大参数目运行的 MLP。比如,作家表明,他们用 KAN 以更小的收集和更高的自动化程度重现了 DeepMind 的结果。具体来说,DeepMind 的 MLP 有大约 300000 个参数,而 KAN 只有大约 200 个参数。K…- 6
- 0
仅靠开源数据复刻出LLaMA3指令进修效果,在线迭代RLHF全过程解决方案来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者熊伟是伊利诺伊香槟分校的在读博士生,其导师为 Tong Zh…- 24
- 0
当选国内数据库顶级集会ICDE,腾讯云数据库技巧创新获权威认可
今日获悉,腾讯云数据库2篇论文当选国内数据库顶级集会ICDE。其分布式事件和谈——Lion和内存-磁盘跨越索引设想框架,解决了数据库领域的普遍困难,技巧创新获得国内权威认可。(腾讯云数据库团队在ICDE会场进行技巧分享)据悉,ICDE(IEEE International Conference on Data Engineering)是数据库研究领域历史悠久的国内集会,与SIGMOD、VLDB并称…- 63
- 0
ICML 2024 | 大言语模型预训练新前沿:「最好适配打包」重塑文档处理标准
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级试验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]在大型言语模型的训练过程中,数据的处理方式至关重要。传统的方式通常通…- 7
- 0
告别3D高斯Splatting算法,带神经弥补的频谱剪枝高斯场SUNDAE开源了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本论文作者包括帝国理工学院硕士生杨润一、北航二年级硕士生朱贞欣、北京…- 5
- 0
我是如何赢得GPT-4提示工程大赛冠军的
去年 11 月 8 日,新加坡政府科技局(GovTech)组织举办了首届 GPT-4 提示工程(Prompt Engineering)竞赛。数据科学家 Sheila Teo 最终夺冠,成为最终的提示女王(Prompt Queen)。之后,Teo 发布了一篇题为《我如何赢得了新加坡 GPT-4 提示工程赛》的博客文章,慷慨分享了其获胜法门。机器之心对这篇文章进行了不改变原义的翻译与整理,以帮助我们的…- 18
- 0
微软让MoE长出多个头,大幅提升大师激活率
MH-MoE 能优化几乎所有大师,实现起来非常简单。混合大师(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。稀疏混合大师(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型,其包含 8 个大师(共 7B 参数),而其表现却可以超过或比肩 LLaMA…- 9
- 0
西浦、利物浦大学提出:点云数据巩固首个周全综述
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本论文的第一作者朱钦峰是西交利物浦大学和利物浦大学联合培养的一年级在…- 4
- 0
只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架
提高 GPU 利用率,就是这么简单。AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需求,并提高现有 AI 计算效率。为了回答这一问题,来自斯坦福的钻研者在博客《GPUs Go Brrr》中给出了答案。博客地址::一是硬件真正需要什么?二是如何满足硬件需求?文章用大量篇幅讨论了如何让 GPU 更快的运行,并发布了一个库 ThunderKittens,用…- 4
- 0
字节开源大模型量化新思绪,2-bit量化模型精度齐平fp16
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实行室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]随着深度学习大语言模型的越来越火爆,大语言模型越做越大,使得其推理成…- 6
- 0
从零开始手搓GPU,照着英伟达CUDA来,只用两个星期
从进修芯片的基础知识开始。「我花两周时间零经验从头开始建立 GPU,这可比想象的要难多了。」总有人说老黄的芯片供不应求,大家恨不得去手搓 GPU,现在真的有人试了。近日,美国一家 web3 开发公司的创始工程师之一 Adam Majmudar 分享了他「手搓 GPU」成功的经历,引发了网友们的一大片点赞。令人惊讶的是,他仅用两周时间就完成了这一脑力壮举。在 Twitter/X 的主题帖子中,Maj…- 5
- 0
Flash Attention稳定吗?Meta、哈佛发现其模型权重偏颇呈现数量级波动
Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏颇,提供了新的研究框架。众所周知,大语言模型的训练常常需要数月的时间,应用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例,其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性,致使训练大模型存在着独特的系统性挑战。最近,许多机构在训练 SOTA 生成式 AI 模型时报告了训练流程中的不稳定情况…- 16
- 0
坏了,我的RTX 3090 GPU在对我唱歌!
这你敢信?!在一个昏暗的机箱里,一台 RTX 3090 GPU「唱」着经典英语儿歌《一闪一闪亮晶晶》(Twinkle,Twinkle,Little Star)的旋律。这不是灵异事件,也不是科幻电影,而是一位 AI 科学家在「整活」。这位科学家名叫 Vrushank Desai。据他介绍,机箱中的旋律是由 GPU 的电感线圈发出来的。GPU 如何发出这种声音,别急,Desai 在 X 上给出了解释。…- 5
- 0
人类偏好就是尺!SPPO对齐技术让大说话模型左右互搏、自我博弈
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected] Sutton 在 「The Bitter Lesso…- 17
- 0
14 项任意测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知才能?
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]年,以 GPT-4V、Gemini、Claude、…- 3
- 0
ICLR 2024 Oral|用巧妙的「传递」技巧,让神经网络的训练更加高效
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本论文作者赵博是加州大学圣地亚哥分校的三年级在读博士,其导师为 Ro…- 10
- 0
贾扬清、林咏华、刘威等嘉宾出席 Keynote 演讲,AICon 于 5月17日落地北京,五大看点值得期待
大模型的崛起为众多企业带来了新的增长机遇,尤其是中小型企业找到了更优解决方案,提升了产物感受甚至引发了颠覆性革新。各行各业都在悄然改变中,建筑业利用大模型设计装修方案,金融领域则运用它进行营销推荐,汽车业也在改变交互方式等等。甚至股神巴菲特都将人工智能与核武器相提并论,可见大模型的出现备受瞩目。如何将大模型运用于企业,是许多人关注的焦点。InfoQ将于5月17日至18日举办AICon全球人工智能开…- 10
- 0
爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP
KAN 作家:我想传达的信息不是「KAN 很棒」,而是「尝试批判性地思考当前的架构,并寻求从根本上不同的替换方案,这些方案可以完成有趣、有用的事情。」多层感知器(MLP),也被称为全连接前馈神经收集,是当今深度进修模型的基础构建块。MLP 的重要性无论怎样强调都不为过,因为它们是机器进修中用于逼近非线性函数的默认法子。但是最近,来自 MIT 等机构的研讨者提出了一种非常有潜力的替换法子 ——KAN…- 8
- 0
让呆板准确「看懂」手物交互作为,清华大学等提出GeneOH Diffusion办法
AIxiv专栏是呆板之心发布学术、技术内容的栏目。过去数年,呆板之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,无效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]在呆板学习和计算机视觉中,让呆板准确地识别和理解手和物体之间的交互作…- 8
- 0
CVPR 2024 | 借助神经构造光,浙大实现动向三维现象的实时收集重修
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的处事想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。对于烟雾等动向三维物理现象的高效高品质收集重修是相关科学研讨中的重…- 6
- 0
瑜伽球上遛「狗」!入选英伟达十大项目之一的Eureka有了新突破
机械狗在瑜伽球上稳稳当当的行走,平衡力那是相当的好:各种场景都能拿捏,不管是平坦的人行道、还是充满挑战的草坪都能 hold 住:甚至是钻研人员踢了一脚瑜伽球,机械狗也不会歪倒:给气球放气机械狗也能保持平衡:上述展示都是 1 倍速,没有经过加速处理。论文地址:::DrEureka: Language Model Guided Sim-To-Real Transfer这项钻研由宾夕法尼亚大学、 NVI…- 10
- 0
小模型机能饱和、表现不佳,根源是因为Softmax?
小说话模型的出现是为弥补大说话模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后机能下降的事实 (饱和景象),那么这个景象的原因是什么?是否可以克服并利用它去提升小说话模型的机能?说话建模领域的最新进展在于在极大规模的网络文本语料库上预训练高参数化的神经网络。在实践中,利用这样的模型进行训练和推断可能会成本高昂,这促使人们利用较小的替代模型。然而,已经观测到较小的模型可能会出现饱和景…- 18
- 0
CVPR 2024 Highlight | 鉴于单曝光紧缩成像,不依赖生成模型也能从单张图象中重修三维场景
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级尝试室,有效促进了学术交流与传播。如果您有优秀的歇息想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。原文链接:::SCINeRF: Neural Radiance F…- 8
- 0
跨越300多年的接力:受陶哲轩启发,数学家决定用AI形式化费马大定理的证实
在陶哲轩的启发下,越来越多的数学家开始尝试利用人工智能举行数学探索。这次,他们瞄准的目标是世界十大最顶尖数学难题之一的费马大定理。费马大定理又被称为「费马最后的定理(Fermat's Last Theorem,FLT)」,由 17 世纪法国数学家皮耶・德・费马提出。它背后有一个传奇的故事。据称,大约在 1637 年左右,费马在阅读丢番图《算术》拉丁文译本时,曾在第 11 卷第 8 命题旁…- 6
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!