0

0

Pandas技巧:高效处理连续相同值分组并计算聚合统计量

DDD

DDD

发布时间:2025-08-04 21:42:10

|

1067人浏览过

|

来源于php中文网

原创

pandas技巧:高效处理连续相同值分组并计算聚合统计量

本教程详细讲解了如何在Pandas中对数据框中连续出现的相同值进行分组,并在此基础上计算指定列的聚合统计量,例如最大值。通过结合使用shift()、ne()和cumsum()函数创建动态分组键,再配合groupby()和transform()方法,实现精确地对连续数据块进行分析,避免了传统分组方式的局限性。

1. 问题背景:传统分组的局限性

在数据分析中,我们经常需要对数据进行分组聚合。Pandas的groupby()函数是实现这一目标的核心工具。然而,当需求是针对某一列中“连续出现”的相同值进行分组时,传统的df.groupby('column_name')方法可能无法满足要求。这是因为传统groupby会将所有具有相同值的行聚合在一起,而不管它们在原始数据框中的位置是否连续。

例如,考虑以下数据集:

import pandas as pd

data = {
    'Fruits': ['Apple', 'Apple', 'Banana', 'Orange', 'Apple', 'Apple'],
    'Price': [20, 30, 50, 170, 55, 90]
}

df = pd.DataFrame(data)
print(df)

输出:

   Fruits  Price
0   Apple     20
1   Apple     30
2  Banana     50
3  Orange    170
4   Apple     55
5   Apple     90

我们的目标是计算每组连续相同水果的最高价格。具体来说,我们希望第一组连续的“Apple” (索引0, 1) 的最大价格是30,而第二组连续的“Apple” (索引4, 5) 的最大价格是90。如果直接使用 df.groupby('Fruits')['Price'].max(),结果会是所有“Apple”中的最大值90,这不符合按连续块分组的要求。

2. 核心解决方案:动态分组键的构建

要解决这个问题,我们需要一个机制来为每一段连续的相同值生成一个唯一的组标识符。Pandas提供了强大的工具组合来实现这一点:shift()、ne()(或!=)和cumsum()。

2.1 步骤一:识别连续块的边界

首先,我们需要识别出连续块开始的位置。这可以通过比较当前行的值与上一行的值来实现。如果它们不相等,则意味着一个新的连续块开始了。

# 比较当前行与上一行'Fruits'列的值是否不相等
# df.Fruits.shift() 会将'Fruits'列向下移动一位,第一位变为NaN
# df.Fruits.ne(...) 等同于 df.Fruits != ...
new_block_start = df.Fruits.ne(df.Fruits.shift())
print(new_block_start)

输出:

0     True  # 'Apple'与NaN不相等,视为新块开始
1    False  # 'Apple'与'Apple'相等
2     True  # 'Banana'与'Apple'不相等,新块开始
3     True  # 'Orange'与'Banana'不相等,新块开始
4     True  # 'Apple'与'Orange'不相等,新块开始
5    False  # 'Apple'与'Apple'相等
Name: Fruits, dtype: bool

这个布尔序列准确地标记了每个新连续块的起始位置。

2.2 步骤二:生成唯一的分组ID

有了新块的起始标记,我们可以使用 cumsum()(累积求和)来生成唯一的组ID。cumsum()会将 True 视为1,False 视为0,并进行累加。每当遇到一个 True(即新块开始),累加值就会增加1,从而为该连续块分配一个唯一的ID。

Onu
Onu

将脚本转换为内部工具,不需要前端代码。

下载
grp = df.Fruits.ne(df.Fruits.shift()).cumsum()
print(grp)

输出:

0    1
1    1
2    2
3    3
4    4
5    4
Name: Fruits, dtype: int64

现在,我们得到了一个完美的组ID序列:

  • 索引0和1(连续的'Apple')被分到组1。
  • 索引2('Banana')被分到组2。
  • 索引3('Orange')被分到组3。
  • 索引4和5(连续的'Apple')被分到组4。

每个连续的相同水果类型都拥有了一个独特的组ID。

3. 应用聚合操作:groupby()与transform()

有了这个动态生成的分组键 grp,我们就可以使用 groupby() 进行分组聚合了。关键在于使用 transform('max') 而不是 agg('max')。

  • groupby(grp):根据我们刚刚创建的 grp 系列进行分组。
  • ['Price']:选择我们要计算最大值的列。
  • transform('max'):这是核心。与 agg('max') 不同,transform() 会在每个组内执行指定的操作(这里是求最大值),并将结果“广播”回原始DataFrame的对应行,保持原有的索引和形状。这意味着,如果一个组有N行,transform 就会返回N个相同的最大值,每个对应组内的一行。
# 完整的解决方案代码
grp = df.Fruits.ne(df.Fruits.shift()).cumsum()
df['Max'] = df.groupby(grp)['Price'].transform('max')
print(df)

最终输出:

   Fruits  Price  Max
0   Apple     20   30
1   Apple     30   30
2  Banana     50   50
3  Orange    170  170
4   Apple     55   90
5   Apple     90   90

结果完全符合我们的预期:第一组连续的“Apple”的最大值是30,第二组连续的“Apple”的最大值是90。其他水果也各自计算了其连续块内的最大值(由于它们是单行块,最大值就是其自身价格)。

4. 拓展与注意事项

  • 通用性: 这种技术不仅限于计算最大值。你可以将 transform('max') 替换为 transform('min')、transform('mean')、transform('sum') 或任何其他聚合函数,以计算连续块内的其他统计量。
  • 应用场景:
    • 时间序列分析: 识别连续几天上涨/下跌的股票价格,并计算其最大涨幅。
    • 数据清洗: 标记或处理连续出现的重复值。
    • 特征工程: 为机器学习模型创建基于连续事件的特征。
  • 性能考量: Pandas的groupby()和transform()是高度优化的C实现,对于大型数据集通常表现出良好的性能。
  • 缺失值处理: shift()操作会在第一行引入 NaN。ne()函数能够正确处理 NaN 与非 NaN 的比较(NaN != value 通常为 True,NaN != NaN 通常为 True,除非使用 pd.isna().ne(pd.isna().shift()) 这种方式)。在实际应用中,如果你的分组列中存在 NaN,可能需要额外考虑如何处理它们(例如,使用 fillna() 预处理,或根据需求调整逻辑)。

总结

通过巧妙地结合使用 shift()、ne() 和 cumsum() 来创建动态分组键,并配合 groupby() 和 transform() 方法,Pandas能够高效且准确地实现对数据框中连续相同值块的聚合操作。这种方法比传统的循环或简单的groupby更具效率和灵活性,是处理复杂分组聚合需求时的强大工具。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

56

2025.12.04

mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

183

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

286

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

256

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

123

2025.08.07

数据分析的方法
数据分析的方法

数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

471

2023.07.04

数据分析方法有哪几种
数据分析方法有哪几种

数据分析方法有:1、描述性统计分析;2、探索性数据分析;3、假设检验;4、回归分析;5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容,供大家免费下载体验。

280

2023.08.07

网站建设功能有哪些
网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站,实现网站的目标。

735

2023.10.16

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

31

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 4.1万人学习

Pandas 教程
Pandas 教程

共15课时 | 1.0万人学习

ASP 教程
ASP 教程

共34课时 | 4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号