Pandas分组数据中跨行计算差异的技巧

霞舞

发布时间：2025-11-09 11:30:44

1036人浏览过

来源于php中文网

原创

Pandas分组数据中跨行计算差异的技巧

本文详细介绍了在pandas dataframe中，如何针对特定分组（如`countryname`）计算当前行与前一行之间指定列的差异。通过结合`groupby()`和`apply()`方法，并利用`shift()`函数，可以高效地实现复杂的跨行数据操作，生成新的派生列。

引言

在数据分析中，我们经常需要计算数据集中相邻行之间的差异，例如增长率、变化量等。当这些计算需要在一个或多个特定分组内进行时，简单的全局shift()操作将不再适用。本文将以一个具体的场景为例，详细讲解如何在Pandas中实现这种分组内的跨行差异计算。

需求分析

假设我们有一个包含国家名称、年份、选举年份、id_score和Dem_Score等信息的DataFrame。我们的目标是为每个国家，计算当前行的Dem_Score与前一行的id_score之间的差异，并将结果存储在一个新列Delta_Dem_Dist中。

原始DataFrame结构示例如下：

  countryname  yr  US_Election_Year  id_score  Dem_Score
0     Albania  1992              1990  0.688809   0.366570
1     Albania  1997              1996  0.024751   0.247750
2   Argentina  1995              1992  0.081818   0.398908
3   Argentina  1999              1996 -0.521796   0.247759
4   Argentina  2003              2000 -0.293386  -0.102298

我们期望的计算逻辑是：对于某一行，Delta_Dem_Dist = 前一行的id_score - 当前行的Dem_Score。例如，对于阿根廷1999年的数据： Delta_Dem_Dist = (阿根廷1995年的id_score) - (阿根廷1999年的Dem_Score) Delta_Dem_Dist = 0.081818 - 0.247759 = -0.165941

最终期望的DataFrame结果：

  countryname    yr  US_Election_Year  id_score  Dem_Score  Delta_Dem_Dist
0     Albania  1992              1990  0.688809   0.366570             NaN
1     Albania  1997              1996  0.024751   0.247750        0.441059
2   Argentina  1995              1992  0.081818   0.398908             NaN
3   Argentina  1999              1996 -0.521796   0.247759       -0.165941
4   Argentina  2003              2000 -0.293386  -0.102298       -0.419498

注意：对于每个国家的第一行，由于没有“前一行”，其Delta_Dem_Dist值应为NaN。

挑战分析

如果不对DataFrame进行分组，直接使用 df['id_score'].shift(1) - df['Dem_Score']，会导致跨国家边界的计算错误。例如，阿尔巴尼亚1992年的前一行可能是上一个国家的最后一行，这显然不符合我们的业务逻辑。因此，我们需要确保shift()操作只在每个countryname组内进行。

PixVerse

PixVerse是一款强大的AI视频生成工具，可以轻松地将多种输入转化为令人惊叹的视频。

下载

解决方案：groupby().apply()结合shift()

Pandas提供了groupby()方法来按指定列对数据进行分组，然后可以使用apply()方法对每个组独立地执行操作。结合shift()函数，我们可以在每个组内实现所需的跨行计算。

核心思路如下：

分组: 使用df.groupby('countryname')将DataFrame按国家名称分组。
应用函数: 对每个分组应用一个lambda函数。这个函数将接收一个子DataFrame（即一个国家的全部数据）。
组内shift(): 在每个子DataFrame内部，对id_score列执行shift(1)操作。shift(1)会将数据向下移动一位，使得当前行的索引对应的是前一行的值。
计算差异: 将shift(1)后的id_score列与当前组的Dem_Score列相减。
重置索引: apply()操作可能导致多级索引，使用reset_index(drop=True)可以将其展平并确保新列与原DataFrame对齐。

代码实现

下面是实现上述逻辑的Python代码：

import pandas as pd

# 原始DataFrame数据
data = {
    'countryname': ['Albania', 'Albania', 'Argentina', 'Argentina', 'Argentina'],
    'yr': [1992, 1997, 1995, 1999, 2003],
    'US_Election_Year': [1990, 1996, 1992, 1996, 2000],
    'id_score': [0.688809, 0.024751, 0.081818, -0.521796, -0.293386],
    'Dem_Score': [0.366570, 0.247750, 0.398908, 0.247759, -0.102298]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)
print("-" * 30)

# 计算Delta_Dem_Dist
df['Delta_Dem_Dist'] = df.groupby('countryname').apply(
    lambda x: x['id_score'].shift(1) - x['Dem_Score']
).reset_index(drop=True)

print("计算Delta_Dem_Dist后的DataFrame:")
print(df)

结果验证与注意事项

运行上述代码，将得到以下结果：

原始DataFrame:
  countryname    yr  US_Election_Year  id_score  Dem_Score
0     Albania  1992              1990  0.688809   0.366570
1     Albania  1997              1996  0.024751   0.247750
2   Argentina  1995              1992  0.081818   0.398908
3   Argentina  1999              1996 -0.521796   0.247759
4   Argentina  2003              2000 -0.293386  -0.102298
------------------------------
计算Delta_Dem_Dist后的DataFrame:
  countryname    yr  US_Election_Year  id_score  Dem_Score  Delta_Dem_Dist
0     Albania  1992              1990  0.688809   0.366570             NaN
1     Albania  1997              1996  0.024751   0.247750        0.441059
2   Argentina  1995              1992  0.081818   0.398908             NaN
3   Argentina  1999              1996 -0.521796   0.247759       -0.165941
4   Argentina  2003              2000 -0.293386  -0.102298       -0.419498

关键点说明：

shift(1): 将id_score列向下移动一位。这意味着对于当前行（索引i），x['id_score'].shift(1)将返回索引i-1的id_score值。
NaN值: 每个分组的第一行（例如阿尔巴尼亚1992，阿根廷1995）由于没有前一行数据，其Delta_Dem_Dist值将自动填充为NaN。这是符合逻辑的。
计算准确性:
- 对于阿尔巴尼亚1997：0.688809 (1992年的id_score) - 0.247750 (1997年的Dem_Score) = 0.441059。
- 对于阿根廷1999：0.081818 (1995年的id_score) - `0.247759

Python无根权限怎么装库_使用--user参数安装到用户目录

如何健壮处理用户输入中的空白字符与非法内容

Python怎么升级Conda_conda update命令与base环境维护

Python反转链表怎么写_迭代双指针与递归翻转单链表

Python怎么重命名文件_os.rename与批量规范修改文件名脚本

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

215

2023.09.15

python lambda函数

本专题整合了python lambda函数用法详解，阅读专题下面的文章了解更多详细内容。

193

2025.11.08

Python lambda详解

本专题整合了Python lambda函数相关教程，阅读下面的文章了解更多详细内容。

2026.01.05

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

272

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板