Pandas DataFrame分组交错排序教程

聖光之護

发布时间：2025-10-23 12:48:14

936人浏览过

来源于php中文网

原创

Pandas DataFrame分组交错排序教程

本教程旨在解决pandas dataframe中根据指定分组进行行交错排序的需求。我们将深入探讨如何利用`groupby().cumcount()`功能为每个组内的元素生成序列号，并将其作为排序键，从而实现诸如“先取a组第一行，再取b组第一行，然后a组第二行，b组第二行”的交错排列效果。文章将提供详细的代码示例和方法解析，帮助读者高效处理此类数据重排任务。

理解分组交错排序的需求

在数据处理中，我们经常会遇到需要对DataFrame中的数据进行特殊排序的场景。其中一种常见的需求是“分组交错排序”，即从不同的数据组中轮流取出元素进行排列。例如，给定一个包含“Group”和“Score”列的DataFrame：

Group	Score
A	10
A	9
A	8
B	7
B	6
B	5

我们期望的输出是：先取A组的第一个元素，然后B组的第一个元素；接着取A组的第二个元素，然后B组的第二个元素，依此类推。最终得到以下交错排序结果：

Group	Score
A	10
B	7
A	9
B	6
A	8
B	5

这种排序在需要轮流展示不同类别数据或进行特定数据抽样时非常有用。

核心解决方案：利用 groupby().cumcount()

实现分组交错排序的关键在于为每个组内的元素生成一个“组内序号”。Pandas的groupby().cumcount()方法正是为此而生。它会在每个分组内部，为遇到的每个元素按顺序赋予一个从0开始递增的整数。

例如，对于上述DataFrame，如果按“Group”列进行分组并应用cumcount()，结果将是：

Group	Score	cumcount()
A	10	0
A	9	1
A	8	2
B	7	0
B	6	1
B	5	2

可以看到，无论属于哪个组，第一个元素都得到0，第二个元素得到1，以此类推。有了这个“组内序号”，我们就可以将其作为主要的排序键，从而实现交错排序。

实现方法与代码示例

首先，我们创建示例DataFrame：

import pandas as pd
import numpy as np

data = {'Group': ['A', 'A', 'A', 'B', 'B', 'B'],
        'Score': [10, 9, 8, 7, 6, 5]}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)

输出：

原始 DataFrame:
  Group  Score
0     A     10
1     A      9
2     A      8
3     B      7
4     B      6
5     B      5

方法一：使用 sort_values 结合 key 参数

pandas.DataFrame.sort_values方法提供了一个key参数，允许我们传入一个函数，该函数将应用于被排序的Series，并返回一个用于实际排序的Series。这里，我们可以利用groupby("Group").cumcount()生成的组内序号作为排序的键。

PaperFake

AI写论文

下载

# 方法一：使用 sort_values 的 key 参数
# key 参数接受一个函数，该函数将应用于被排序的 Series (这里是 Group 列)，
# 并返回一个用于实际排序的 Series。
# 这里的 lambda s: s.groupby(s).cumcount() 表示对 Group 列 s 自身进行分组，
# 然后计算组内序号。
out_method1 = df.sort_values(by="Group", key=lambda s: s.groupby(s).cumcount())

print("\n方法一输出 (sort_values with key):")
print(out_method1)

输出：

方法一输出 (sort_values with key):
  Group  Score
0     A     10
3     B      7
1     A      9
4     B      6
2     A      8
5     B      5

解释：key=lambda s: s.groupby(s).cumcount() 是此方法的精髓。当sort_values对"Group"列进行排序时，它会将df["Group"]这个Series传递给lambda函数（作为s）。s.groupby(s).cumcount()则会基于Group列的当前值（即'A'或'B'）进行分组，并计算每个组内的累积计数。最终，sort_values会根据这个累积计数对原始DataFrame进行排序。

一个稍微不同的写法，但效果相同，且在某些Pandas版本中可能更直观（尽管上述s.groupby(s)更符合key参数的预期）：

# 方法一变体：另一种 key 参数的写法
# 这里 lambda _ 表示我们不关心传入的 Series 本身，
# 而是直接对整个 DataFrame df 进行 groupby 操作来获取 cumcount。
out_method1_alt = df.sort_values("Group", key=lambda _: df.groupby("Group").cumcount())

print("\n方法一变体输出 (sort_values with key, alternative lambda):")
print(out_method1_alt)

这两种key函数的写法都能达到目的。lambda s: s.groupby(s).cumcount()更符合key参数的设计意图，因为它操作的是传入的Series本身。而lambda _: df.groupby("Group").cumcount()则是在key函数内部直接引用了外部的df，其结果独立于key参数接收的Series，但由于cumcount的计算方式，最终排序效果一致。

方法二：使用 iloc 结合 argsort

另一种实现方式是先计算出所有行的最终排序索引，然后使用iloc进行重排。numpy.argsort函数可以返回一个数组，其中包含了将原数组排序后元素在原数组中的索引位置。

# 方法二：使用 iloc 和 argsort
# 先计算出 cumcount 序列，然后使用 argsort 获取排序后的索引，
# 最后用这些索引通过 iloc 对 DataFrame 进行重排。
sort_indices = df.groupby("Group").cumcount().values
out_method2 = df.iloc[np.argsort(sort_indices)]

print("\n方法二输出 (iloc with argsort):")
print(out_method2)

输出：

方法二输出 (iloc with argsort):
  Group  Score
0     A     10
3     B      7
1     A      9
4     B      6
2     A     8
5     B      5

解释：

df.groupby("Group").cumcount()：生成一个Series，其索引与原始DataFrame的索引一致，值为各组的累积计数。
.values：将此Series转换为一个NumPy数组，例如 [0, 1, 2, 0, 1, 2]。
np.argsort(sort_indices)：计算出将 sort_indices 数组排序所需的索引顺序。对于 [0, 1, 2, 0, 1, 2]，argsort会返回 [0, 3, 1, 4, 2, 5]。这意味着：
- 原始索引0（Group A, cumcount 0）应该排在第一位。
- 原始索引3（Group B, cumcount 0）应该排在第二位。
- 原始索引1（Group A, cumcount 1）应该排在第三位。
- 以此类推。
df.iloc[...]：使用这些计算出的索引顺序对DataFrame的行进行重新排列。

总结与注意事项

groupby().cumcount() 的核心作用： 它是实现分组交错排序的关键，能够为每个组内的元素生成唯一的、递增的序号。
sort_values 的 key 参数： 提供了一种非常简洁且Pandas风格的解决方案。它允许在排序前对列值进行转换，而无需创建新的辅助列。这通常是处理此类问题的首选方法。
iloc 与 argsort： 这种方法更底层，通过直接操作索引来重排DataFrame。它展示了如何将NumPy的强大功能与Pandas结合使用。在某些复杂场景下，手动构建索引数组可能提供更大的灵活性。
性能考量： 对于大多数常见的数据规模，上述两种方法的性能差异不大。选择哪种方法主要取决于个人偏好和代码的可读性。通常，sort_values结合key参数在表达意图上更为清晰。
多列排序： 如果除了交错排序外，还需要进一步的二级排序（例如，在同一组内相同cumcount的情况下，按Score降序），可以在sort_values中添加额外的by参数，或在构建排序键时融入多重逻辑。

掌握groupby().cumcount()的用法，不仅能解决分组交错排序的问题，还能在许多其他需要组内序列号的场景中发挥重要作用，是Pandas数据处理中一个非常实用的技巧。

Python全排列怎么生成_itertools.permutations与回溯法

Python网格搜索怎么做_GridSearchCV超参数全排列自动化穷举调优

如何用正则表达式校验字符串是否按字母表非递减（或非递增）顺序排列

Django 模型默认按关联对象数量排序的实现方法

如何按序数等级排序并可视化职业频次分布

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

215

2023.09.15

python lambda函数

本专题整合了python lambda函数用法详解，阅读专题下面的文章了解更多详细内容。

192

2025.11.08

Python lambda详解

本专题整合了Python lambda函数相关教程，阅读下面的文章了解更多详细内容。

2026.01.05

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板