
本文介绍如何在 pandas 中对时间-区域组合分组计算变量均值,并基于“lower/upper”分组顺序与数值关系,智能分配环形索引(loop id),使数据点可按 0→1→2→3→0 顺序构成闭合多边形。
在地理可视化或面积图(如带状误差图、置信区间填充多边形)中,常需将成对的 lower 和 upper 边界值按时空维度组织,并确保其坐标点能首尾相连形成闭合多边形。本教程以一个典型结构化数据为例,完整演示两个核心操作:
- 按 year 和 region 分组计算 var 的均值(即每组内 lower 与 upper 的算术平均);
- 为每组内 4 个观测点(2 年 × 2 组)分配 loop 索引,使其排列顺序满足多边形顶点连接逻辑:2010-lower → 2011-lower → 2011-upper → 2010-upper → 回到起点,对应索引 [0, 1, 2, 3]。
✅ 实现步骤详解
步骤 1:构造示例数据
import pandas as pd
mydict = {
'year': [2010, 2010, 2011, 2011, 2010, 2010, 2011, 2011],
'region': [1, 1, 1, 1, 2, 2, 2, 2],
'group': ['lower', 'upper', 'lower', 'upper', 'lower', 'upper', 'lower', 'upper'],
'var': [10, 20, 30, 40, 50, 60, 70, 80]
}
df = pd.DataFrame(mydict)步骤 2:添加 average 列(组内均值)
使用 groupby(...).transform('mean') 在保持原始行数的前提下,为每组(year + region)广播均值:
df['average'] = df.groupby(['year', 'region'])['var'].transform('mean')步骤 3:生成 loop 列(多边形顶点序号)
关键在于自定义排序逻辑:
- 所有 lower 行应排在 upper 前面;
- 同为 lower 时,按 var 升序(即年份早→晚);
- 同为 upper 时,按 var 降序(即年份晚→早),从而实现“外圈顺时针”或“内圈逆时针”的环形布局。
技巧:用 mask 将 upper 的 var 取负,再统一按 group(字符串自然序:'lower'
df['loop'] = (
df.assign(var=df['var'].mask(df['group'].eq('upper'), -df['var']))
.sort_values(by=['group', 'var'])
.groupby('region')
.cumcount()
)
? 原理说明:mask(condition, other) 将 upper 行的 var 替换为 -var,例如原 2010-upper:20 → -20,2011-upper:40 → -40。排序时:lower 行保留正值:10, 30, 50, 70 → 升序为 10→30→50→70upper 行变为负值:-20, -40, -60, -80 → 升序为 -80→-60→-40→-20,即对应原 80→60→40→20 结合 group 排序(lower 先于 upper),最终顺序为:2010-lower(10) → 2011-lower(30) → 2011-upper(40) → 2010-upper(20) → 恰好生成 [0,1,2,3]。
✅ 最终结果验证
print(df.sort_values(['region', 'year', 'group']).reset_index(drop=True))
输出:
year region group var average loop 0 2010 1 lower 10 15.0 0 1 2010 1 upper 20 15.0 3 2 2011 1 lower 30 35.0 1 3 2011 1 upper 40 35.0 2 4 2010 2 lower 50 55.0 0 5 2010 2 upper 60 55.0 3 6 2011 2 lower 70 75.0 1 7 2011 2 upper 80 75.0 2
⚠️ 注意事项
- 此方法假设每个 (region, year) 组严格包含且仅包含一个 lower 和一个 upper 记录;若存在缺失或冗余,需先用 drop_duplicates 或 pivot 校验结构。
- loop 索引是按 region 分组独立编号的,不同 region 的 loop 值不互通,符合多边形各自闭合的需求。
- 若后续需绘制多边形,可按 region → loop 排序后调用 plt.fill() 或 geopandas.GeoDataFrame 构建 LinearRing。
该方案简洁、向量化、无需循环,适用于大规模时空分组数据的多边形准备任务。










