如何将 SHAP Summary Plot 保存为高质量图像文件

心靈之曲

发布时间：2025-08-20 23:24:01

393人浏览过

来源于php中文网

原创

如何将 SHAP Summary Plot 保存为高质量图像文件

本文详细介绍了如何将 SHAP (SHapley Additive exPlanations) 库生成的 summary_plot 可视化结果保存为图像文件。针对直接使用 plt.savefig() 可能导致空白图片的问题，教程强调了显式创建和引用 matplotlib 图形对象的重要性。通过初始化一个 Figure 对象，并在其上绘制 SHAP 图，用户可以确保正确地捕获并保存图表，从而有效地管理模型解释结果的可视化输出。

理解问题：为什么直接保存可能失败

在使用 python 进行数据可视化时，matplotlib 是一个功能强大的库，而 shap 库在生成解释性图表时通常会利用 matplotlib 进行渲染。当用户尝试将 shap.summary_plot 生成的图表保存为图像文件时，常见的问题是直接调用 matplotlib.pyplot.savefig() 可能会保存一个空白的图片。

这通常是由于 matplotlib 对图表（Figure）和坐标轴（Axes）的内部管理机制造成的。matplotlib.pyplot 模块提供了一系列便捷函数，它们通常操作“当前”的图表和坐标轴。如果 shap.summary_plot 在内部创建了一个新的图表对象，或者在绘制完成后将其关闭，那么紧接着调用的 plt.savefig() 可能会尝试保存一个默认的、空的“当前”图表，而不是我们期望的 SHAP 图。

核心解决方案：显式管理 Matplotlib 图形对象

解决此问题的关键在于显式地创建和管理 matplotlib 的 Figure 对象。通过创建一个 Figure 实例，然后确保 SHAP 图绘制在这个特定的 Figure 上，最后再通过该 Figure 实例的方法来保存图像，可以确保保存的是正确的图表。

具体步骤如下：

初始化 matplotlib.pyplot.Figure 对象： 使用 fig = plt.figure() 创建一个新的图表对象。此时，这个新创建的图表会成为“当前”图表。
绘制 SHAP 图： 调用 shap.summary_plot()。由于 fig 是当前图表，SHAP 库会默认将图表内容绘制到这个图表上。
通过 Figure 对象保存： 使用 fig.savefig(save_path) 来保存图表。这会明确地告诉 matplotlib 保存 fig 这个对象所代表的图表，而不是依赖于“当前”图表的隐式状态。
关闭 Figure 对象： 使用 plt.close(fig) 关闭该图表，释放资源。

实践示例：保存 SHAP Summary Plot

下面通过一个具体的代码示例来演示如何正确地保存 SHAP Summary Plot。我们将沿用原始问题中的模型和数据结构，但重点放在 SHAP 图的生成与保存上。

1. 环境准备与模型训练

首先，确保安装了必要的库：numpy, tensorflow, shap, matplotlib。

Cursor

一个新的IDE，使用AI来帮助您重构、理解、调试和编写代码。

下载

import numpy as np
import shap
import matplotlib.pyplot as plt
from tensorflow import keras
from tensorflow.keras import layers

# 示例数据 (简化，仅用于演示目的)
X = np.array([[(1,2,3,3,1),(3,2,1,3,2),(3,2,2,3,3),(2,2,1,1,2),(2,1,1,1,1)],
              [(4,5,6,4,4),(5,6,4,3,2),(5,5,6,1,3),(3,3,3,2,2),(2,3,3,2,1)],
              [(7,8,9,4,7),(7,7,6,7,8),(5,8,7,8,8),(6,7,6,7,8),(5,7,6,6,6)],
              [(7,8,9,8,6),(6,6,7,8,6),(8,7,8,8,8),(8,6,7,8,7),(8,6,7,8,8)],
              [(4,5,6,5,5),(5,5,5,6,4),(6,5,5,5,6),(4,4,3,3,3),(5,5,4,4,5)],
              [(4,5,6,5,5),(5,5,5,6,4),(6,5,5,5,6),(4,4,3,3,3),(5,5,4,4,5)],
              [(1,2,3,3,1),(3,2,1,3,2),(3,2,2,3,3),(2,2,1,1,2),(2,1,1,1,1)]])
y = np.array([0, 1, 2, 2, 1, 1, 0])

# 构建并编译模型
model = keras.Sequential([
    layers.Conv1D(128, kernel_size=3, activation='relu', input_shape=(5,5)),
    layers.MaxPooling1D(pool_size=2),
    layers.LSTM(128, return_sequences=True),
    layers.Flatten(),
    layers.Dense(128, activation='relu'),
    layers.Dense(3, activation='softmax') # 假设3个类别，与y的实际值对应
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
print("开始训练模型...")
model.fit(X, y, epochs=10, verbose=0) # verbose=0 不显示训练进度
print("模型训练完成。")

2. SHAP 值计算

接下来，使用训练好的模型和数据计算 SHAP 值。

# 初始化 SHAP explainer
explainer = shap.GradientExplainer(model, X)
shap_values = explainer.shap_values(X)

# 定义要绘制的类别和特征索引
# shap_values 是一个列表，每个元素对应一个输出类别。
# 对于多分类模型，shap_values[cls] 是对应类别下的SHAP值数组。
# shap_values[cls][:,idx,:] 表示该类别下，所有样本的第idx个特征的所有维度SHAP值。
# X[:,idx,:] 对应所有样本的第idx个特征的所有维度原始数据。
cls = 0 # 示例：选择第一个输出类别
idx = 0 # 示例：选择第一个特征的SHAP值

3. 正确保存图表的代码实现

这是核心部分，演示如何显式管理 matplotlib 图形对象以正确保存 SHAP 图。

# 1. 初始化一个 matplotlib Figure 对象
fig = plt.figure()

# 2. 绘制 SHAP summary_plot 到当前 Figure 上
# 注意：这里我们传入了 shap_values[cls][:,idx,:] 和 X[:,idx,:]
# 这意味着我们正在可视化特定类别 (cls) 下，特定特征索引 (idx) 的SHAP值。
# 根据你的模型输出和特征结构，你可能需要调整 cls 和 idx。
shap.summary_plot(shap_values[cls][:,idx,:], X[:,idx,:], show=False) # show=False 防止立即显示图表

# 3. 定义保存路径
save_path = 'shap_summary_plot.png'

# 4. 通过 Figure 对象保存图表
fig.savefig(save_path, bbox_inches='tight', dpi=300) # bbox_inches='tight' 裁剪空白边缘，dpi设置分辨率

# 5. 关闭 Figure 对象，释放内存
plt.close(fig)

print(f"SHAP summary plot 已成功保存到：{save_path}")

关键概念解析：Matplotlib 图形与坐标轴

plt.figure(): 此函数创建一个新的 Figure 对象（可以理解为一张画布或一个窗口），并将其设置为当前的 Figure。所有后续的绘图操作（如 plt.plot(), plt.scatter(), shap.summary_plot() 等）如果未明确指定绘图目标，通常会作用于这个当前的 Figure 及其默认的 Axes（坐标轴）。
fig.savefig(path): 这是 Figure 对象的一个方法。它会保存 fig 这个特定的 Figure 对象所包含的所有内容。这是推荐的保存方式，因为它明确指定了要保存哪个图表，避免了 plt.savefig() 可能因“当前图表”状态变化而保存错误内容的问题。
plt.savefig(path): 这是 matplotlib.pyplot 模块的一个函数。它尝试保存当前的 Figure。如果 shap.summary_plot 在内部创建了一个新的 Figure 并将其设置为当前，或者在绘制后又将当前 Figure 切换回一个空的默认 Figure，那么 plt.savefig() 就可能保存一个空图。
plt.close(fig) / plt.close('all'): 用于关闭一个或所有 Figure 对象，释放系统资源。对于在脚本中批量生成和保存图表时，及时关闭不再需要的 Figure 是一个良好的习惯。

高级选项与注意事项

图像分辨率 (dpi): 在 fig.savefig() 中，可以使用 dpi 参数来控制图像的分辨率。例如，dpi=300 会生成一个每英寸300点的图像，适用于印刷或高质量展示。
文件格式: 除了 .png，你还可以保存为其他格式，如 .jpg (JPEG), .svg (Scalable Vector Graphics), .pdf (Portable Document Format) 等。SVG 和 PDF 是矢量图格式，放大后不会失真，非常适合出版物。
```
fig.savefig('shap_summary_plot.svg', bbox_inches='tight') # 保存为SVG矢量图
```
图表布局 (bbox_inches='tight'): bbox_inches='tight' 参数在保存时会自动调整图表的边界，以尽可能地裁剪掉多余的空白边缘，使图表内容更紧凑。
显示图表 (plt.show()): 如果你想在保存之前先预览图表，可以在 shap.summary_plot() 调用之后、fig.savefig() 之前添加 plt.show()。但请注意，plt.show() 会阻塞程序执行，直到图表窗口被关闭。如果 shap.summary_plot 内部已经调用了 plt.show()，你可能需要通过设置 show=False 来阻止其自动显示。

多个图表: 如果需要在一个脚本中生成并保存多个 SHAP 图，建议为每个图表都创建一个独立的 Figure 对象，并分别进行绘制和保存。

# 示例：保存第二个类别的SHAP图
fig2 = plt.figure()
shap.summary_plot(shap_values[1][:,idx,:], X[:,idx,:], show=False)
fig2.savefig('shap_summary_plot_cls1.png', bbox_inches='tight', dpi=300)
plt.close(fig2)

总结

正确保存 shap.summary_plot 的关键在于理解 matplotlib 的图表管理机制。通过显式地创建 Figure 对象，并在其上进行绘图，然后使用 Figure 实例的 savefig 方法，可以确保图表内容被准确地捕获和保存。这种方法不仅解决了空白图片的问题，也使得图表管理更加清晰和可控，是进行专业数据可视化输出的推荐实践。

如何在Python中正确加载并显示Kaggle图像数据集中的图片

SHA1 实现与标准库结果不一致的常见原因及修复方案

如何在Python中正确加载并显示Kaggle数据集中的图像

Python 的 copyreg 模块完全适用于自定义类的序列化定制

Python 的 copyreg 模块完全适用于用户自定义类的序列化定制

相关专题

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

888

2023.07.31

python中的format是什么意思

python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

464

2024.06.27

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

550

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架，是一种通常用于图像识别和语言处理等应用程序的机器学习。使用Python 编写，因此对于大多数机器学习开发者而言，学习和使用起来相对简单。 PyTorch 的独特之处在于，它完全支持GPU，并且使用反向模式自动微分技术，因此可以动态修改计算图形。

2025.12.22

Python 深度学习框架与TensorFlow入门

本专题深入讲解 Python 在深度学习与人工智能领域的应用，包括使用 TensorFlow 搭建神经网络模型、卷积神经网络（CNN）、循环神经网络（RNN）、数据预处理、模型优化与训练技巧。通过实战项目（如图像识别与文本生成），帮助学习者掌握如何使用 TensorFlow 开发高效的深度学习模型，并将其应用于实际的 AI 问题中。

188

2026.01.07