MLP

LLM注意力Attention，Q、K、V矩阵通俗理解

QKV的重要性要理解大语言模型效果的底层实现原理，很大一部分就是理解Transformers Block里面的QKV矩阵。现在前沿的大模型研究工作很大一部分都是围绕着QKV矩阵去做的，比如注意力、量化、低秩压缩等等。其本质原因是因为QKV权重占比着大语言模型50%以上的权重比例，在推理过程中，QKV存储量还会随着上下文长度的增长而线性增长，计算量也平方增加。

1/13/2025 8:23:07 AM

咚咚呛

LLM为何频频翻车算术题？研究追踪单个神经元，「大脑短路」才是根源

由于缺少对运行逻辑的解释，大模型一向被人称为「黑箱」，但近来的不少研究已能够在单个神经元层面上解释大模型的运行机制。例如Claude在2023年发表的一项研究，将大模型中大约500个神经元分解成约4000个可解释特征。而10月28日的一项研究，以算术推理作为典型任务，借鉴类似的研究方法，确定了大模型中的一个模型子集，能解释模型大部分的基本算术逻辑行为。

11/19/2024 12:53:50 PM

新智元

取代昂贵量子方法，南科大AI方法实现蛋白质-药物系统多尺度量子「精炼」

编辑 | 萝卜皮生物大分子结构对于药物开发和生物催化至关重要。量子「精炼」（Quantum refinement，QR）方法采用可靠的量子力学（QM）方法进行晶体细化，在提高结构质量甚至纠正生物大分子的结构方面显示出前景。然而，巨大的计算成本和复杂的量子力学/分子力学（QM/MM）设置限制了 QR 的应用。在这里，南方科技大学的研究团队将稳健的机器学习势（Machine Learning Potentials，MLP）融入多尺度 ONIOM（QM:MM）方案中，来描述核心部分（例如药物/抑制剂），取代昂贵的 QM

6/11/2024 5:09:00 PM

ScienceAI

爆火后反转？「一夜干掉MLP」的KAN：其实我也是MLP

KAN 作者：我想传达的信息不是「KAN 很棒」，而是「尝试批判性地思考当前的架构，并寻求从根本上不同的替代方案，这些方案可以完成有趣、有用的事情。」多层感知器（MLP），也被称为全连接前馈神经网络，是当今深度学习模型的基础构建块。MLP 的重要性无论怎样强调都不为过，因为它们是机器学习中用于逼近非线性函数的默认方法。但是最近，来自 MIT 等机构的研究者提出了一种非常有潜力的替代方法 ——KAN。该方法在准确性和可解释性方面表现优于 MLP。而且，它能以非常少的参数量胜过以更大参数量运行的 MLP。比如，作者表示

5/7/2024 2:36:00 PM

机器之心

助力碳纳米材料研究，上海交大团队开发数据驱动的主动学习框架

编辑 | X碳纳米材料的可控合成，比如单晶、大面积石墨烯，手性碳纳米管，是实现其在未来电子或能源设备中潜在应用的关键挑战。基底催化生长为碳纳米结构的可控合成提供了一种非常有前途的方法。然而，动态催化表面的生长机制和更通用的设计策略的发展仍然是一个挑战。近日，来自上海交通大学和日本东北大学（Tohoku University）的研究团队，展示了主动机器学习模型如何有效地揭示基底（Substrate）催化生长中涉及的微观过程。研究利用分子动力学和蒙特卡罗方法的协同方法，并通过高斯近似势增强，对 Cu(111) 上的石墨

1/15/2024 3:22:00 PM

ScienceAI

CVPR 2022 | 图像也是德布罗意波！华为诺亚&北大提出量子启发MLP，性能超越Swin Transfomer

来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构。

3/16/2022 3:20:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型