0

0

Pandas技巧:高效处理连续相同值分组并计算聚合统计量

DDD

DDD

发布时间:2025-08-04 21:42:10

|

1067人浏览过

|

来源于php中文网

原创

pandas技巧:高效处理连续相同值分组并计算聚合统计量

本教程详细讲解了如何在Pandas中对数据框中连续出现的相同值进行分组,并在此基础上计算指定列的聚合统计量,例如最大值。通过结合使用shift()、ne()和cumsum()函数创建动态分组键,再配合groupby()和transform()方法,实现精确地对连续数据块进行分析,避免了传统分组方式的局限性。

1. 问题背景:传统分组的局限性

在数据分析中,我们经常需要对数据进行分组聚合。Pandas的groupby()函数是实现这一目标的核心工具。然而,当需求是针对某一列中“连续出现”的相同值进行分组时,传统的df.groupby('column_name')方法可能无法满足要求。这是因为传统groupby会将所有具有相同值的行聚合在一起,而不管它们在原始数据框中的位置是否连续。

例如,考虑以下数据集:

import pandas as pd

data = {
    'Fruits': ['Apple', 'Apple', 'Banana', 'Orange', 'Apple', 'Apple'],
    'Price': [20, 30, 50, 170, 55, 90]
}

df = pd.DataFrame(data)
print(df)

输出:

   Fruits  Price
0   Apple     20
1   Apple     30
2  Banana     50
3  Orange    170
4   Apple     55
5   Apple     90

我们的目标是计算每组连续相同水果的最高价格。具体来说,我们希望第一组连续的“Apple” (索引0, 1) 的最大价格是30,而第二组连续的“Apple” (索引4, 5) 的最大价格是90。如果直接使用 df.groupby('Fruits')['Price'].max(),结果会是所有“Apple”中的最大值90,这不符合按连续块分组的要求。

2. 核心解决方案:动态分组键的构建

要解决这个问题,我们需要一个机制来为每一段连续的相同值生成一个唯一的组标识符。Pandas提供了强大的工具组合来实现这一点:shift()、ne()(或!=)和cumsum()。

2.1 步骤一:识别连续块的边界

首先,我们需要识别出连续块开始的位置。这可以通过比较当前行的值与上一行的值来实现。如果它们不相等,则意味着一个新的连续块开始了。

# 比较当前行与上一行'Fruits'列的值是否不相等
# df.Fruits.shift() 会将'Fruits'列向下移动一位,第一位变为NaN
# df.Fruits.ne(...) 等同于 df.Fruits != ...
new_block_start = df.Fruits.ne(df.Fruits.shift())
print(new_block_start)

输出:

0     True  # 'Apple'与NaN不相等,视为新块开始
1    False  # 'Apple'与'Apple'相等
2     True  # 'Banana'与'Apple'不相等,新块开始
3     True  # 'Orange'与'Banana'不相等,新块开始
4     True  # 'Apple'与'Orange'不相等,新块开始
5    False  # 'Apple'与'Apple'相等
Name: Fruits, dtype: bool

这个布尔序列准确地标记了每个新连续块的起始位置。

2.2 步骤二:生成唯一的分组ID

有了新块的起始标记,我们可以使用 cumsum()(累积求和)来生成唯一的组ID。cumsum()会将 True 视为1,False 视为0,并进行累加。每当遇到一个 True(即新块开始),累加值就会增加1,从而为该连续块分配一个唯一的ID。

Khroma
Khroma

AI调色盘生成工具

下载
grp = df.Fruits.ne(df.Fruits.shift()).cumsum()
print(grp)

输出:

0    1
1    1
2    2
3    3
4    4
5    4
Name: Fruits, dtype: int64

现在,我们得到了一个完美的组ID序列:

  • 索引0和1(连续的'Apple')被分到组1。
  • 索引2('Banana')被分到组2。
  • 索引3('Orange')被分到组3。
  • 索引4和5(连续的'Apple')被分到组4。

每个连续的相同水果类型都拥有了一个独特的组ID。

3. 应用聚合操作:groupby()与transform()

有了这个动态生成的分组键 grp,我们就可以使用 groupby() 进行分组聚合了。关键在于使用 transform('max') 而不是 agg('max')。

  • groupby(grp):根据我们刚刚创建的 grp 系列进行分组。
  • ['Price']:选择我们要计算最大值的列。
  • transform('max'):这是核心。与 agg('max') 不同,transform() 会在每个组内执行指定的操作(这里是求最大值),并将结果“广播”回原始DataFrame的对应行,保持原有的索引和形状。这意味着,如果一个组有N行,transform 就会返回N个相同的最大值,每个对应组内的一行。
# 完整的解决方案代码
grp = df.Fruits.ne(df.Fruits.shift()).cumsum()
df['Max'] = df.groupby(grp)['Price'].transform('max')
print(df)

最终输出:

   Fruits  Price  Max
0   Apple     20   30
1   Apple     30   30
2  Banana     50   50
3  Orange    170  170
4   Apple     55   90
5   Apple     90   90

结果完全符合我们的预期:第一组连续的“Apple”的最大值是30,第二组连续的“Apple”的最大值是90。其他水果也各自计算了其连续块内的最大值(由于它们是单行块,最大值就是其自身价格)。

4. 拓展与注意事项

  • 通用性: 这种技术不仅限于计算最大值。你可以将 transform('max') 替换为 transform('min')、transform('mean')、transform('sum') 或任何其他聚合函数,以计算连续块内的其他统计量。
  • 应用场景:
    • 时间序列分析: 识别连续几天上涨/下跌的股票价格,并计算其最大涨幅。
    • 数据清洗: 标记或处理连续出现的重复值。
    • 特征工程: 为机器学习模型创建基于连续事件的特征。
  • 性能考量: Pandas的groupby()和transform()是高度优化的C实现,对于大型数据集通常表现出良好的性能。
  • 缺失值处理: shift()操作会在第一行引入 NaN。ne()函数能够正确处理 NaN 与非 NaN 的比较(NaN != value 通常为 True,NaN != NaN 通常为 True,除非使用 pd.isna().ne(pd.isna().shift()) 这种方式)。在实际应用中,如果你的分组列中存在 NaN,可能需要额外考虑如何处理它们(例如,使用 fillna() 预处理,或根据需求调整逻辑)。

总结

通过巧妙地结合使用 shift()、ne() 和 cumsum() 来创建动态分组键,并配合 groupby() 和 transform() 方法,Pandas能够高效且准确地实现对数据框中连续相同值块的聚合操作。这种方法比传统的循环或简单的groupby更具效率和灵活性,是处理复杂分组聚合需求时的强大工具。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

81

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

213

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

325

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

293

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

179

2025.08.07

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

42

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

79

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

234

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 6.1万人学习

ASP 教程
ASP 教程

共34课时 | 5.9万人学习

Vue3.x 工具篇--十天技能课堂
Vue3.x 工具篇--十天技能课堂

共26课时 | 1.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号