MLP

LLM注意力Attention,Q、K、V矩阵通俗理解

QKV的重要性要理解大语言模型效果的底层实现原理,很大一部分就是理解Transformers Block里面的QKV矩阵。 现在前沿的大模型研究工作很大一部分都是围绕着QKV矩阵去做的,比如注意力、量化、低秩压缩等等。 其本质原因是因为QKV权重占比着大语言模型50%以上的权重比例,在推理过程中,QKV存储量还会随着上下文长度的增长而线性增长,计算量也平方增加。

LLM为何频频翻车算术题?研究追踪单个神经元,「大脑短路」才是根源

由于缺少对运行逻辑的解释,大模型一向被人称为「黑箱」,但近来的不少研究已能够在单个神经元层面上解释大模型的运行机制。 例如Claude在2023年发表的一项研究,将大模型中大约500个神经元分解成约4000个可解释特征。 而10月28日的一项研究,以算术推理作为典型任务,借鉴类似的研究方法,确定了大模型中的一个模型子集,能解释模型大部分的基本算术逻辑行为。

取代昂贵量子方法,南科大AI方法实现蛋白质-药物系统多尺度量子「精炼」

编辑 | 萝卜皮生物大分子结构对于药物开发和生物催化至关重要。量子「精炼」(Quantum refinement,QR)方法采用可靠的量子力学(QM)方法进行晶体细化,在提高结构质量甚至纠正生物大分子的结构方面显示出前景。然而,巨大的计算成本和复杂的量子力学/分子力学(QM/MM)设置限制了 QR 的应用。在这里,南方科技大学的研究团队将稳健的机器学习势(Machine Learning Potentials,MLP)融入多尺度 ONIOM(QM:MM)方案中,来描述核心部分(例如药物/抑制剂),取代昂贵的 QM

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

KAN 作者:我想传达的信息不是「KAN 很棒」,而是「尝试批判性地思考当前的架构,并寻求从根本上不同的替代方案,这些方案可以完成有趣、有用的事情。」多层感知器(MLP),也被称为全连接前馈神经网络,是当今深度学习模型的基础构建块。MLP 的重要性无论怎样强调都不为过,因为它们是机器学习中用于逼近非线性函数的默认方法。但是最近,来自 MIT 等机构的研究者提出了一种非常有潜力的替代方法 ——KAN。该方法在准确性和可解释性方面表现优于 MLP。而且,它能以非常少的参数量胜过以更大参数量运行的 MLP。比如,作者表示

助力碳纳米材料研究,上海交大团队开发数据驱动的主动学习框架

编辑 | X碳纳米材料的可控合成,比如单晶、大面积石墨烯,手性碳纳米管,是实现其在未来电子或能源设备中潜在应用的关键挑战。基底催化生长为碳纳米结构的可控合成提供了一种非常有前途的方法。然而,动态催化表面的生长机制和更通用的设计策略的发展仍然是一个挑战。近日,来自上海交通大学和日本东北大学(Tohoku University)的研究团队,展示了主动机器学习模型如何有效地揭示基底(Substrate)催化生长中涉及的微观过程。研究利用分子动力学和蒙特卡罗方法的协同方法,并通过高斯近似势增强,对 Cu(111) 上的石墨

CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer

来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构。
  • 1