0

0

Pandas DataFrame分组交错排序教程

聖光之護

聖光之護

发布时间:2025-10-23 12:48:14

|

936人浏览过

|

来源于php中文网

原创

Pandas DataFrame分组交错排序教程

本教程旨在解决pandas dataframe中根据指定分组进行行交错排序的需求。我们将深入探讨如何利用`groupby().cumcount()`功能为每个组内的元素生成序列号,并将其作为排序键,从而实现诸如“先取a组第一行,再取b组第一行,然后a组第二行,b组第二行”的交错排列效果。文章将提供详细的代码示例和方法解析,帮助读者高效处理此类数据重排任务。

理解分组交错排序的需求

在数据处理中,我们经常会遇到需要对DataFrame中的数据进行特殊排序的场景。其中一种常见的需求是“分组交错排序”,即从不同的数据组中轮流取出元素进行排列。例如,给定一个包含“Group”和“Score”列的DataFrame:

Group Score
A 10
A 9
A 8
B 7
B 6
B 5

我们期望的输出是:先取A组的第一个元素,然后B组的第一个元素;接着取A组的第二个元素,然后B组的第二个元素,依此类推。最终得到以下交错排序结果:

Group Score
A 10
B 7
A 9
B 6
A 8
B 5

这种排序在需要轮流展示不同类别数据或进行特定数据抽样时非常有用。

核心解决方案:利用 groupby().cumcount()

实现分组交错排序的关键在于为每个组内的元素生成一个“组内序号”。Pandas的groupby().cumcount()方法正是为此而生。它会在每个分组内部,为遇到的每个元素按顺序赋予一个从0开始递增的整数。

例如,对于上述DataFrame,如果按“Group”列进行分组并应用cumcount(),结果将是:

Group Score cumcount()
A 10 0
A 9 1
A 8 2
B 7 0
B 6 1
B 5 2

可以看到,无论属于哪个组,第一个元素都得到0,第二个元素得到1,以此类推。有了这个“组内序号”,我们就可以将其作为主要的排序键,从而实现交错排序。

实现方法与代码示例

首先,我们创建示例DataFrame:

import pandas as pd
import numpy as np

data = {'Group': ['A', 'A', 'A', 'B', 'B', 'B'],
        'Score': [10, 9, 8, 7, 6, 5]}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

输出:

原始 DataFrame:
  Group  Score
0     A     10
1     A      9
2     A      8
3     B      7
4     B      6
5     B      5

方法一:使用 sort_values 结合 key 参数

pandas.DataFrame.sort_values方法提供了一个key参数,允许我们传入一个函数,该函数将应用于被排序的Series,并返回一个用于实际排序的Series。这里,我们可以利用groupby("Group").cumcount()生成的组内序号作为排序的键。

Vinteo AI
Vinteo AI

利用人工智能在逼真的室内环境中创建产品可视化。无需设计师和产品照片拍摄

下载
# 方法一:使用 sort_values 的 key 参数
# key 参数接受一个函数,该函数将应用于被排序的 Series (这里是 Group 列),
# 并返回一个用于实际排序的 Series。
# 这里的 lambda s: s.groupby(s).cumcount() 表示对 Group 列 s 自身进行分组,
# 然后计算组内序号。
out_method1 = df.sort_values(by="Group", key=lambda s: s.groupby(s).cumcount())

print("\n方法一输出 (sort_values with key):")
print(out_method1)

输出:

方法一输出 (sort_values with key):
  Group  Score
0     A     10
3     B      7
1     A      9
4     B      6
2     A      8
5     B      5

解释:key=lambda s: s.groupby(s).cumcount() 是此方法的精髓。当sort_values对"Group"列进行排序时,它会将df["Group"]这个Series传递给lambda函数(作为s)。s.groupby(s).cumcount()则会基于Group列的当前值(即'A'或'B')进行分组,并计算每个组内的累积计数。最终,sort_values会根据这个累积计数对原始DataFrame进行排序。

一个稍微不同的写法,但效果相同,且在某些Pandas版本中可能更直观(尽管上述s.groupby(s)更符合key参数的预期):

# 方法一变体:另一种 key 参数的写法
# 这里 lambda _ 表示我们不关心传入的 Series 本身,
# 而是直接对整个 DataFrame df 进行 groupby 操作来获取 cumcount。
out_method1_alt = df.sort_values("Group", key=lambda _: df.groupby("Group").cumcount())

print("\n方法一变体输出 (sort_values with key, alternative lambda):")
print(out_method1_alt)

这两种key函数的写法都能达到目的。lambda s: s.groupby(s).cumcount()更符合key参数的设计意图,因为它操作的是传入的Series本身。而lambda _: df.groupby("Group").cumcount()则是在key函数内部直接引用了外部的df,其结果独立于key参数接收的Series,但由于cumcount的计算方式,最终排序效果一致。

方法二:使用 iloc 结合 argsort

另一种实现方式是先计算出所有行的最终排序索引,然后使用iloc进行重排。numpy.argsort函数可以返回一个数组,其中包含了将原数组排序后元素在原数组中的索引位置。

# 方法二:使用 iloc 和 argsort
# 先计算出 cumcount 序列,然后使用 argsort 获取排序后的索引,
# 最后用这些索引通过 iloc 对 DataFrame 进行重排。
sort_indices = df.groupby("Group").cumcount().values
out_method2 = df.iloc[np.argsort(sort_indices)]

print("\n方法二输出 (iloc with argsort):")
print(out_method2)

输出:

方法二输出 (iloc with argsort):
  Group  Score
0     A     10
3     B      7
1     A      9
4     B      6
2     A     8
5     B      5

解释:

  1. df.groupby("Group").cumcount():生成一个Series,其索引与原始DataFrame的索引一致,值为各组的累积计数。
  2. .values:将此Series转换为一个NumPy数组,例如 [0, 1, 2, 0, 1, 2]。
  3. np.argsort(sort_indices):计算出将 sort_indices 数组排序所需的索引顺序。对于 [0, 1, 2, 0, 1, 2],argsort会返回 [0, 3, 1, 4, 2, 5]。这意味着:
    • 原始索引0(Group A, cumcount 0)应该排在第一位。
    • 原始索引3(Group B, cumcount 0)应该排在第二位。
    • 原始索引1(Group A, cumcount 1)应该排在第三位。
    • 以此类推。
  4. df.iloc[...]:使用这些计算出的索引顺序对DataFrame的行进行重新排列。

总结与注意事项

  • groupby().cumcount() 的核心作用: 它是实现分组交错排序的关键,能够为每个组内的元素生成唯一的、递增的序号。
  • sort_values 的 key 参数: 提供了一种非常简洁且Pandas风格的解决方案。它允许在排序前对列值进行转换,而无需创建新的辅助列。这通常是处理此类问题的首选方法。
  • iloc 与 argsort: 这种方法更底层,通过直接操作索引来重排DataFrame。它展示了如何将NumPy的强大功能与Pandas结合使用。在某些复杂场景下,手动构建索引数组可能提供更大的灵活性。
  • 性能考量: 对于大多数常见的数据规模,上述两种方法的性能差异不大。选择哪种方法主要取决于个人偏好和代码的可读性。通常,sort_values结合key参数在表达意图上更为清晰。
  • 多列排序: 如果除了交错排序外,还需要进一步的二级排序(例如,在同一组内相同cumcount的情况下,按Score降序),可以在sort_values中添加额外的by参数,或在构建排序键时融入多重逻辑。

掌握groupby().cumcount()的用法,不仅能解决分组交错排序的问题,还能在许多其他需要组内序列号的场景中发挥重要作用,是Pandas数据处理中一个非常实用的技巧。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

204

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

190

2025.11.08

Python lambda详解
Python lambda详解

本专题整合了Python lambda函数相关教程,阅读下面的文章了解更多详细内容。

49

2026.01.05

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

0

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

13

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

87

2026.01.18

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

111

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

155

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 12.4万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号