使用 SHAP 使机器学习模型变的可解释！！

SHAP 是一种解释机器学习模型预测结果的方法，它基于博弈论中的 Shapley 值理论。它通过计算每个特征对模型输出的贡献度，帮助我们理解模型的决策过程。 SHAP 适用于各种类型的机器学习模型，使得黑盒模型（如深度神经网络、随机森林等）的预测更加透明、可解释。

SHAP 是一种解释机器学习模型预测结果的方法，它基于博弈论中的 Shapley 值理论。

它通过计算每个特征对模型输出的贡献度，帮助我们理解模型的决策过程。

SHAP 适用于各种类型的机器学习模型，使得黑盒模型（如深度神经网络、随机森林等）的预测更加透明、可解释。

使用 SHAP 使机器学习模型变的可解释！！

核心概念

Shapley 值源自博弈论的 Shapley 值，用于公平地分配合作博弈中各参与者的收益。在机器学习中，SHAP 通过计算每个特征在不同组合中的边际贡献，求取其平均值，从而得到该特征的 Shapley 值。这种方法确保了模型解释的公平性和一致性。
可加性解释模型SHAP 构建了一个可加性的解释模型，将模型的预测结果表示为各特征贡献的线性组合。这种方法确保了特征贡献的总和等于模型的预测值，从而提供了一种一致且直观的解释方式。

SHAP的主要特点

1.一致性

如果模型的特征贡献增加，那么相应的SHAP值也会增加，确保解释的合理性。

2.局部解释

SHAP值可以解释单个样本的预测结果，帮助理解特定数据点的模型决策。

3.全局解释

通过对多个数据点的SHAP值进行汇总，提供模型整体行为的洞察。

SHAP的优势

模型无关性SHAP 适用于多种机器学习模型，包括线性模型、树模型和深度学习模型等。
理论基础SHAP基于Shapley值，具有坚实的理论支持，确保解释的公平性和一致性。
可视化能力SHAP提供多种可视化工具，帮助直观地理解特征对模型预测的影响。

案例分享

下面，我们来训练一个 XGBoost 模型并计算 SHAP 值来解释每个特征如何影响预测。

首先，我们加载数据集（加利福尼亚住房数据集）并训练一个 XGBoost 模型

复制

import shap
import xgboost as xgb
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 加载加利福尼亚住房数据集
california_housing = fetch_california_housing()
X, y = california_housing.data, california_housing.target
feature_names = california_housing.feature_names
X = pd.DataFrame(X, columns=feature_names)

# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = xgb.XGBRegressor(random_state=42)
model.fit(X_train, y_train)

接下来，计算训练集上的 SHAP值，并使用 shap.summary_plot 展示了各特征对模型预测的总体影响。

复制

explainer = shap.Explainer(model,X_train)
shap_values = explainer(X_train)
shap.summary_plot(shap_values, X_train, feature_names=feature_names)

下图按所有样本的 SHAP 值大小总和对特征进行排序，并使用 SHAP 值显示每个特征对模型输出的影响的分布。

使用 SHAP 使机器学习模型变的可解释！！

我们还可以只取每个特征的 SHAP 值的平均绝对值来获得标准条形图。

复制

shap.plots.bar(shap_values,show=False)

使用 SHAP 使机器学习模型变的可解释！！

最后，我们使用 shap.force_plot 展示了单个样本的特征贡献，帮助我们理解模型对该样本的具体预测。

复制

shap.initjs()  # 初始化JS以便显示交互图
shap.force_plot(explainer.expected_value, shap_values.values[0, :], X_train.iloc[0])

使用 SHAP 使机器学习模型变的可解释！！

{{userData.name}}已认证

使用 SHAP 使机器学习模型变的可解释！！

核心概念

SHAP的主要特点

1.一致性

2.局部解释

3.全局解释

SHAP的优势

案例分享

慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

Jim Fan全华人团队HOVER问世，1.5M小模型让机器人获「潜意识」！

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩