稀疏自编码器

LLM可解释性的未来希望？稀疏自编码器是如何工作的，这里有一份直观说明

简而言之：矩阵 → ReLU 激活 → 矩阵在解释机器学习模型方面，稀疏自编码器（SAE）是一种越来越常用的工具（虽然 SAE 在 1997 年左右就已经问世了）。机器学习模型和 LLM 正变得越来越强大、越来越有用，但它们仍旧是黑箱，我们并不理解它们完成任务的方式。理解它们的工作方式应当大有助益。SAE 可帮助我们将模型的计算分解成可以理解的组件。近日，LLM 可解释性研究者 Adam Karvonen 发布了一篇博客文章，直观地解释了 SAE 的工作方式。可解释性的难题神经网络最自然的组件是各个神经元。不幸的是