Python中批量处理NC文件并动态生成图表标题的教程

花韻仙語

发布时间：2025-11-17 11:36:02

278人浏览过

来源于php中文网

原创

python中批量处理nc文件并动态生成图表标题的教程

本教程旨在解决使用Python和Matplotlib批量绘制NC（NetCDF）文件数据时，如何为每个生成的图表动态设置标题的问题。通过分析原始代码中标题设置失败的原因，我们将提供一个结构化的解决方案，包括正确的数据加载、时间信息提取与格式化，以及在绘图循环中动态关联并应用标题的方法，确保每个图表都能拥有准确反映其内容（如模拟时间或位置）的标题。

在地球科学和气象领域，NC（NetCDF）文件是存储多维科学数据常用的格式。当需要对大量NC文件进行可视化分析时，例如绘制大气模拟结果的足迹（footprints）图，并希望每个图表都能根据其来源文件（如模拟时间、位置）拥有一个动态生成的标题，这是一个常见的需求。然而，在循环中处理多个文件并设置动态标题时，可能会遇到一些挑战。

问题分析：为何动态标题设置失败？

原始代码尝试在循环中为每个地图设置标题，但未能成功显示。主要原因在于对 Time 列表的构建和使用方式存在误解：

Time 列表的错误填充：在第一个循环中，actual_time = time.dt.strftime('%Y-%m-%d %H:%M:%S') 会为每个NC文件生成一个包含所有时间步字符串的 xarray.DataArray 或 pandas.Series。然后，这个 DataArray 被直接 append 到 Time 列表中。这意味着 Time 列表最终会包含多个这样的 DataArray 对象，而不是单个时间字符串。
i 的错误使用：在绘图循环 for i in Time: 中，变量 i 实际上遍历的是 Time 列表中的每个 DataArray 对象，而不是一个整数索引。因此，当执行 plt.title('location,' + Time[i]) 时，Time[i] 会尝试使用一个 DataArray 作为列表索引，这会导致 TypeError 或 IndexError，从而使得标题无法正确设置。

为了为每个NC文件生成一个2D地图（通过对 foot 变量进行时间维度的求和），我们需要为每个文件准备一个代表性的时间字符串作为标题的一部分。

立即学习“Python免费学习笔记（深入）”；

ONLYOFFICE

用ONLYOFFICE管理你的网络私人办公室

下载

解决方案：数据预处理与动态标题关联

解决此问题的关键在于：在加载每个NC文件时，同时提取其对应的绘图数据和用于标题的唯一时间信息，并将它们关联起来。然后，在绘图循环中，遍历这些已关联的数据和标题，逐一生成图表。

步骤1：加载数据并准备绘图数据及标题信息

首先，我们需要遍历所有NC文件，为每个文件提取所需的足迹数据（foot 变量在时间维度上的总和），以及一个代表该文件的时间字符串作为标题。

import xarray as xr
import matplotlib.pyplot as plt
import cartopy.crs as ccrs
import glob
import os # 用于处理文件名

# 定义颜色级别
levels = [0.01, 0.05, 0.1, 0.15, 0.20, 0.25, 0.30, 0.35, 0.40, 0.45, 0.50, 0.55, 0.60]
colors = ['mediumblue', 'deepskyblue', 'aqua', 'lightseagreen', 'mediumseagreen', 
          'limegreen', 'yellow', 'gold', 'orange', 'darkorange', 'tomato', 'orangered', 'red']

# 用于存储每个文件的绘图数据和标题信息
plot_data_list = []

# 获取所有NC文件列表
file_list = sorted(glob.glob('*.nc'))

for file_path in file_list:
    try:
        data = xr.open_dataset(file_path)

        # 提取经纬度信息
        lon = data['lon']
        lat = data['lat']

        # 提取足迹数据并对时间维度求和，得到2D地图数据
        foot_sum_2d = data['foot'].sum(dim='time')

        # 提取用于标题的时间信息
        # 假设我们使用每个文件的第一个时间点作为代表
        # .isel(time=0) 获取第一个时间步
        # .dt.strftime(...) 格式化为字符串
        # .item() 将 xarray.DataArray 转换为 Python 标量字符串
        representative_time_str = data['time'].isel(time=0).dt.strftime('%Y-%m-%d %H:%M:%S').item()

        # 从文件名中提取位置信息，如果文件名包含可识别的位置信息
        # 例如，如果文件名是 "locationA_2023.nc"，可以提取 "locationA"
        location_name = os.path.basename(file_path).replace('.nc', '').split('_')[0] # 示例提取

        # 构建完整的标题字符串
        title_str = f"Footprint Map for {location_name} at {representative_time_str}"

        # 将绘图所需的所有信息存储在一个字典中，并添加到列表中
        plot_data_list.append({
            'lon': lon,
            'lat': lat,
            'footprint_data': foot_sum_2d,
            'title': title_str
        })

        data.close() # 关闭数据集以释放资源

    except Exception as e:
        print(f"Error processing file {file_path}: {e}")

print(f"成功处理了 {len(plot_data_list)} 个文件的数据。")

步骤2：循环绘图并设置动态标题

在准备好所有文件的绘图数据和对应标题后，我们可以遍历 plot_data_list，为每个数据集生成一个独立的图表并设置其动态标题。

# 绘图循环
for plot_item in plot_data_list:
    # 每次循环创建一个新的图表和轴，以避免图表叠加
    fig = plt.figure(figsize=(10, 8)) 
    ax = fig.add_subplot(1, 1, 1, projection=ccrs.PlateCarree())

    # 绘制等值线填充图
    contour_fill = ax.contourf(plot_item['lon'], plot_item['lat'], plot_item['footprint_data'],
                               levels=levels,
                               colors=colors,
                               extend='both', # 颜色条扩展
                               transform=ccrs.PlateCarree()) # 明确指定数据坐标系

    # 设置地图范围
    ax.set_extent([-150, -143, 57.5, 72], crs=ccrs.PlateCarree())

    # 添加海岸线
    ax.coastlines()

    # 添加网格线并设置标签
    gls = ax.gridlines(draw_labels=True, linestyle='--', color='gray', alpha=0.5)
    gls.top_labels = False    # 抑制顶部标签
    gls.right_labels = False  # 抑制右侧标签

    # 添加颜色条
    cbar = plt.colorbar(contour_fill, ax=ax, orientation='vertical', shrink=0.7, 
                        label='Footprints, ppm (umol-1 m2 s)', format='%.0e')

    # 添加受体位置标记
    ax.plot(-146.231483, 64.054333, marker='o', markerfacecolor="None", 
            markeredgecolor='black', markersize=6, transform=ccrs.PlateCarree())

    # 设置动态标题
    plt.title(plot_item['title'])

    plt.show() # 显示当前图表
    # 如果需要保存图表而不是显示，可以使用 plt.savefig()
    # plt.savefig(f"footprint_map_{plot_item['title'].replace(' ', '_').replace(':', '-')}.png", dpi=300, bbox_inches='tight')
    plt.close(fig) # 关闭图表，释放内存，尤其在大量绘图时重要

print("所有图表已生成。")

完整示例代码

将上述两个步骤整合，形成一个完整的、可直接运行的代码示例：

import xarray as xr
import matplotlib.pyplot as plt
import cartopy.crs as ccrs
import glob
import os

# --- 配置参数 ---
# 定义颜色级别
levels = [0.01, 0.05, 0.1, 0.15, 0.20, 0.25, 0.30, 0.35, 0.40, 0.45, 0.50, 0.55, 0.60]
colors = ['mediumblue', 'deepskyblue', 'aqua', 'lightseagreen', 'mediumseagreen', 
          'limegreen', 'yellow', 'gold', 'orange', 'darkorange', 'tomato', 'orangered', 'red']
receptor_lon = -146.231483
receptor_lat = 64.054333
map_extent = [-150, -143, 57.5, 72]

# --- 步骤1: 加载数据并准备绘图数据及标题信息 ---
plot_data_list = []
file_list = sorted(glob.glob('*.nc'))

if not file_list:
    print("未找到任何 .nc 文件，请检查当前目录或文件路径。")
else:
    print(f"找到 {len(file_list)} 个 .nc 文件，开始处理...")
    for file_path in file_list:
        try:
            data = xr.open_dataset(file_path)

            lon = data['lon']
            lat = data['lat']
            foot_sum_2d = data['foot'].sum(dim='time')

            # 提取代表性时间作为标题的一部分
            representative_time_str = data['time'].isel(time=0).dt.strftime('%Y-%m-%d %H:%M:%S').item()

            # 从文件名中提取位置信息 (示例：假设文件名格式为 'location_YYYYMMDDHH.nc')
            filename_base = os.path.basename(file_path)
            location_part = filename_base.split('_')[0] if '_' in filename_base else "Unknown Location"

            title_str = f"Footprint Map: {location_part} - {representative_time_str}"

            plot_data_list.append({
                'lon': lon,
                'lat': lat,
                'footprint_data': foot_sum_2d,
                'title': title_str
            })

            data.close()

        except Exception as e:
            print(f"处理文件 {file_path} 时发生错误: {e}")

    print(f"成功准备了 {len(plot_data_list)} 个图表的数据。")

    # --- 步骤2: 循环绘图并设置动态标题 ---
    if plot_data_list:
        for i, plot_item in enumerate(plot_data_list):
            fig = plt.figure(figsize=(10, 8)) 
            ax = fig.add_subplot(1, 1, 1, projection=ccrs.PlateCarree())

            contour_fill = ax.contourf(plot_item['lon'], plot_item['lat'], plot_item['footprint_data'],
                                       levels=levels, colors=colors, extend='both', transform=ccrs.PlateCarree())

            ax.set_extent(map_extent, crs=ccrs.PlateCarree())
            ax.coastlines()

            gls = ax.gridlines(draw_labels=True, linestyle='--', color='gray', alpha=0.5)
            gls.top_labels = False
            gls.right_labels = False

            cbar = plt.colorbar(contour_fill, ax=ax, orientation='vertical', shrink=0.7, 
                                label='Footprints, ppm (umol-1 m2 s)', format='%.0e')

            ax.plot(receptor_lon, receptor_lat, marker='o', markerfacecolor="None", 
                    markeredgecolor='black', markersize=6, transform=ccrs.PlateCarree())

            plt.title(plot_item['title'])

            plt.show()
            # 可以选择保存图表
            # save_filename = f"footprint_map_{i+1}_{plot_item['title'].replace(' ', '_').replace(':', '-').replace(',', '')}.png"
            # plt.savefig(save_filename, dpi=300, bbox_inches='tight')
            plt.close(fig) # 关闭当前图表，防止内存泄漏

        print("所有图表已成功生成。")
    else:
        print("没有可用于绘图的数据。")

注意事项与最佳实践

内存管理：在循环中生成大量图表时，务必在每次 plt.show() 或 plt.savefig() 之后使用 plt.close(fig) 关闭当前图表，以释放内存资源，防止程序因内存耗尽而崩溃。
图表独立性：每次循环都应通过 plt.figure() 创建一个新的图表对象，确保每个图表是独立的，避免所有绘图内容叠加到同一个图表上。
时间信息提取：确保