0

0

Pandas中按组排序并根据组聚合值对组进行排序的技巧

聖光之護

聖光之護

发布时间:2025-07-23 14:10:02

|

762人浏览过

|

来源于php中文网

原创

Pandas中按组排序并根据组聚合值对组进行排序的技巧

本文探讨了在Pandas中如何实现一种特殊的排序需求:首先根据某个列(如col1)进行分组,然后在每个组内根据另一列(如col2)进行排序,最后再根据每个组的某个聚合值(如col2的最小值)来对这些组进行整体排序。文章介绍了使用numpy.argsort结合groupby().transform()和iloc的规范方法,以及利用sort_values的key参数的替代方案,旨在提供高效且易于理解的解决方案。

问题背景与挑战

在数据处理中,我们经常需要对dataframe进行排序。pandas提供了强大的sort_values()方法,可以轻松地根据一个或多个列进行排序。然而,当需求变得更复杂时,例如需要先按一个列分组,然后组内按另一个列排序,最后再根据每个组的某个聚合值(如最小值、平均值等)来决定组的整体顺序时,标准的sort_values()方法可能无法直接满足。

考虑以下示例DataFrame:

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1': ['A', 'B', 'A', 'B', 'C'],
                   'col2': [3, 1, 2, 4, 3],
                   'col3': [10, 20, 30, 40, 50]})
print("原始DataFrame:")
print(df)

输出:

原始DataFrame:
  col1  col2  col3
0    A     3    10
1    B     1    20
2    A     2    30
3    B     4    40
4    C     3    50

我们的目标是得到以下排序结果:

  col1  col2  col3
1    B     1    20
3    B     4    40
0    A     3    10
2    A     2    30
4    C     3    50

观察上述结果,数据首先按col1分组(B组、A组、C组),然后在每个组内按col2升序排列。最关键的是,组的顺序是根据每个col1组中col2的最小值来确定的:

  • B组 (col2值: 1, 4),最小值为1。
  • A组 (col2值: 3, 2),最小值为2。
  • C组 (col2值: 3),最小值为3。 因此,最终的组顺序是B、A、C。

直接使用df.sort_values(['col1', 'col2'])会先按col1排序,然后组内按col2排序,但组的顺序是按col1的字母顺序(A、B、C),而非col2的最小值。

print("\ndf.sort_values(['col1', 'col2']):")
print(df.sort_values(['col1', 'col2']))

输出:

df.sort_values(['col1', 'col2']):
  col1  col2  col3
2    A     2    30
0    A     3    10
1    B     1    20
3    B     4    40
4    C     3    50

同样,df.sort_values(['col2', 'col1'])则会优先按col2排序,也无法达到预期。

一种常见的“笨拙”做法是创建临时列:

df_temp = df.copy()
df_temp['min_col2'] = df_temp.groupby('col1')['col2'].transform('min')
sorted_df_temp = df_temp.sort_values(['min_col2', 'col1', 'col2']).drop("min_col2", axis="columns")
print("\n使用临时列的方法:")
print(sorted_df_temp)

这种方法虽然能达到目的,但引入了额外的临时列,增加了内存开销和代码复杂度,尤其是在数据管道中不够优雅。

规范解决方案:结合 numpy.argsort 和 groupby().transform()

解决此类问题的规范方法是利用numpy.argsort与groupby().transform()的组合,并通过iloc进行索引重排。

  1. 计算组的排序依据值: 使用df.groupby('col1')['col2'].transform('min'),这将为DataFrame中的每一行计算其所属col1组的col2最小值,并将这个最小值广播回原始DataFrame的形状。
  2. 获取排序索引: 对上一步得到的结果应用np.argsort()。argsort返回的是将数组排序所需的索引。这些索引将决定最终DataFrame行的顺序。
  3. 应用索引: 使用df.iloc[]将DataFrame按照这些索引进行重新排序。
# 规范解决方案
# 1. 计算每个组的排序依据值(例如,每个col1组的col2最小值)
group_min_col2 = df.groupby('col1')['col2'].transform('min')

# 2. 获取这些值的排序索引
# np.argsort返回的是排序后的元素在原始数组中的位置索引
sorted_indices = np.argsort(group_min_col2)

# 3. 使用iloc根据这些索引重新排列DataFrame
out_df = df.iloc[sorted_indices]

# 为了同时实现组内排序,可以先进行一次常规排序,再进行组间排序
# 或者在iloc之后,对每个组进行内部排序
# 更简洁的方式是,在argsort之前,确保数据已经按照组内规则排序
# 最佳实践是,先对df进行一次常规的按组和组内列的排序,然后使用argsort来调整组的顺序
# 这里的需求是:B组1,4;A组2,3;C组3。然后组之间B

这个多级排序的方法是直观且有效的,它避免了iloc和argsort的复杂组合,并且仍然是规范的。然而,如果必须避免临时列,那么np.argsort结合iloc的思路需要更精细地应用。

白果AI论文
白果AI论文

论文AI生成学术工具,真实文献,免费不限次生成论文大纲 10 秒生成逻辑框架,10 分钟产出初稿,智能适配 80+学科。支持嵌入图表公式与合规文献引用

下载

更符合原始问答中np.argsort的用法,且避免临时列的方案:

原始答案的核心是使用np.argsort来生成一个索引序列,这个序列能直接重排DataFrame。

# 原始答案中的解决方案
# 核心思想是:生成一个与df行数相同的Series,其值代表了行所属组的排序优先级。
# 然后对这个Series进行argsort,得到最终的行索引顺序。
# 这里的挑战在于,如何让argsort同时考虑组间排序和组内排序。
# 答案中提供的out = df.iloc[np.argsort(df.groupby('col1')['col2'].transform('min'))]
# 这个代码片段只保证了组的顺序,但组内的顺序是原始的,不是按col2排序的。

# 为了实现“组间按min_col2排序,组内按col2排序”:
# 我们可以创建一个复合的排序键,然后对这个键进行argsort。
# 复合键的思路是:将组的排序值(如min_col2)和行自身的col2值组合起来。
# 例如,可以创建一个元组列表:[(min_col2_for_row_i, col2_for_row_i), ...]

# 步骤1:计算每个行所属组的最小值
min_col2_series = df.groupby('col1')['col2'].transform('min')

# 步骤2:创建复合排序键
# 注意:这里需要确保argsort作用于一个能够反映最终排序顺序的单一序列。
# 将 min_col2_series 和 df['col2'] 结合起来,并对它们进行argsort。
# np.lexsort 可以用于多列排序的索引。
# lexsort(keys, axis=-1): Perform an indirect stable sort using a sequence of keys.
# keys: (k_n, k_n-1, ..., k_0) - keys are sorted from last to first.
# 所以,我们想要先按 min_col2_series 排序,再按 df['col2'] 排序。
# lexsort 的 keys 顺序是:最后排序的键在最前面,最先排序的键在最后面。
# 也就是说,如果想先按A排,再按B排,那么keys=(B, A)。
# 所以,我们想先按 min_col2_series 排,再按 df['col2'] 排,那么 keys=(df['col2'], min_col2_series)。
sorted_indices_complex = np.lexsort((df['col2'], min_col2_series))

final_out_lexsort = df.iloc[sorted_indices_complex]

print("\n使用 np.lexsort 的规范解决方案:")
print(final_out_lexsort)

np.lexsort是处理多键排序的强大工具,它返回的是一个整数索引数组,指示了如何重新排列原始数组以实现多键排序。它的工作方式是:keys元组中的最后一个键是主排序键,倒数第二个是次要排序键,依此类推。因此,np.lexsort((df['col2'], min_col2_series))意味着首先根据min_col2_series进行排序,然后对于min_col2_series值相同的行,再根据df['col2']进行排序。这完美符合了我们的需求。

在管道中使用的变体: 如果需要在Pandas方法链中使用,可以结合lambda表达式:

out_pipeline = df.iloc[lambda d: np.lexsort((d['col2'], d.groupby('col1')['col2'].transform('min')))]
print("\n管道中使用的 np.lexsort 解决方案:")
print(out_pipeline)

替代方案:使用 sort_values 的 key 参数

Pandas sort_values() 方法有一个鲜为人知的 key 参数,它允许在排序前对列值应用一个函数。这个函数会接收待排序的 Series,并返回一个用于排序的 Series。

out_key = df.sort_values(by='col2',
                         key=lambda s: s.groupby(df['col1']).transform('min'))
print("\n使用 sort_values 的 key 参数解决方案:")
print(out_key)

注意事项:

  • key 参数的函数 lambda s: s.groupby(df['col1']).transform('min') 中,s 是df['col2']这个 Series。在s.groupby(df['col1'])中,df['col1']必须能够被s的索引正确对齐。这意味着df['col1']必须与原始DataFrame的索引保持一致。
  • 这种方法虽然简洁,但它的“hacky”之处在于,key函数内部依赖于df['col1']这个外部变量。在某些复杂的Pandas管道操作中,df可能不再是原始的DataFrame,这可能导致错误。因此,在需要严格的数据流控制和可预测性的场景下,np.lexsort方案通常更为健壮。

总结

当需要在Pandas中实现“按组聚合值排序组,同时组内按特定列排序”的复杂需求时,有以下几种主要策略:

  1. 多级 sort_values 结合临时列 (不推荐但易理解):

    • 计算组的聚合值并作为新列加入DataFrame。
    • 使用sort_values按新列、组列、组内排序列的顺序进行多级排序。
    • 最后删除临时列。
    • 优点:直观易懂。缺点:引入临时列,占用内存,不够优雅。
  2. numpy.lexsort 结合 groupby().transform() (推荐):

    • 使用groupby().transform()计算每个行所属组的排序依据值。
    • 利用np.lexsort生成一个复合排序的索引数组,其中包含组间排序和组内排序的逻辑。
    • 使用df.iloc[]根据生成的索引数组重排DataFrame。
    • 优点:高效、内存效率高,不创建临时列,可用于管道操作,更为规范和健壮。
  3. sort_values 的 key 参数 (简洁但有局限):

    • 在sort_values()中,使用key参数传入一个lambda函数,该函数内部利用groupby().transform()生成排序键。
    • 优点:代码简洁。缺点:key函数内部依赖外部DataFrame的列,可能在复杂管道中出现问题,不够通用。

综合来看,numpy.lexsort结合groupby().transform()是处理此类复杂排序问题的最规范和推荐的方法,它在性能、内存使用和代码清晰度之间取得了很好的平衡。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

52

2025.12.04

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

204

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

190

2025.11.08

Python lambda详解
Python lambda详解

本专题整合了Python lambda函数相关教程,阅读下面的文章了解更多详细内容。

49

2026.01.05

云朵浏览器入口合集
云朵浏览器入口合集

本专题整合了云朵浏览器入口合集,阅读专题下面的文章了解更多详细地址。

20

2026.01.20

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

29

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

160

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

120

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

41

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.9万人学习

Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

ASP 教程
ASP 教程

共34课时 | 3.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号