Pandas DataFrame 多条件优先级排序与排名

聖光之護
发布: 2025-12-01 14:41:50
原创
488人浏览过

Pandas DataFrame 多条件优先级排序与排名

本文详细讲解了如何在 pandas dataframe 中,根据多个列的优先级来计算排名。通过将次要排序列进行微小加权并叠加到主要排序列上,再结合 `rank(method='dense', ascending=false)` 方法,能够灵活处理多级平局,确保排名结果的准确性和一致性,有效应对复杂的数据排序需求。

在数据分析和处理中,我们经常需要对数据集进行排名。通常情况下,排名是基于单个指标进行的。然而,当存在多个指标,并且需要按照特定优先级来打破平局时,简单的排序或排名函数可能无法直接满足需求。例如,我们可能需要首先依据“总分”进行排名,如果总分相同,则依据“效率分”进行判别,如果效率分也相同,则最终依据“难度分”来确定名次。本教程将介绍一种在 Pandas DataFrame 中实现这种多条件优先级排名的高级方法。

核心概念:加权综合分数法

为了实现多条件优先级排名,一个有效的方法是构建一个“加权综合分数”。其核心思想是:

  1. 主排序键(例如“Total Score”)保持其原始权重。
  2. 次级排序键(例如“EScore”、“DScore”)被赋予极小的权重。这些权重必须足够小,以至于它们在累加到主排序键上时,不会改变因主排序键不同而产生的排名顺序。它们的作用仅仅是在主排序键值完全相同的情况下,才能够通过其微小的差异来打破平局。
  3. 通过这种方式生成的综合分数,将包含所有排序条件的优先级信息。对这个综合分数进行排名,即可得到满足多条件优先级要求的最终排名。

实现步骤

我们将使用一个示例 DataFrame 来演示这一过程。

1. 准备数据

首先,创建一个包含待排名数据的 Pandas DataFrame:

import pandas as pd

df = pd.DataFrame({
    "DScore": [2, 2, 4, 4, 5],
    "EScore": [6, 7, 9, 9, 10],
    "Total Score": [17, 15, 23, 23, 25]
})

print("原始 DataFrame:")
print(df)
登录后复制

输出:

原始 DataFrame:
   DScore  EScore  Total Score
0       2       6           17
1       2       7           15
2       4       9           23
3       4       9           23
4       5      10           25
登录后复制

我们的目标是根据 Total Score 降序排名,若 Total Score 相同,则根据 EScore 降序排名,若 EScore 也相同,则根据 DScore 降序排名。

2. 构建加权综合分数

根据上述核心概念,我们将 EScore 和 DScore 乘以一个极小的权重,然后加到 Total Score 上。

选择权重的原则是:

瞬映
瞬映

AI 快速创作数字人视频,一站式视频创作平台,让视频创作更简单。

瞬映 57
查看详情 瞬映
  • EScore 的最大可能值乘以其权重,必须小于 Total Score 列中最小的非零差值。
  • DScore 的最大可能值乘以其权重,必须小于 EScore 的最大可能值乘以其权重。

在本例中,Total Score 的最小非零差值是 2 (17-15)。EScore 的最大值是 10。 如果 EScore 权重设为 0.01,则 EScore * 0.01 的最大值为 10 * 0.01 = 0.1。这小于 Total Score 的最小差值 2,因此不会影响 Total Score 间的排名。 DScore 的最大值是 5。 如果 DScore 权重设为 0.0001,则 DScore * 0.0001 的最大值为 5 * 0.0001 = 0.0005。这小于 EScore * 0.01 的最小差值(例如,如果 EScore 差 1,则 0.01),因此不会影响 EScore 间的排名。

# 构建加权综合分数
# EScore权重设为0.01,DScore权重设为0.0001
df['Composite Score'] = df['Total Score'].add(df['EScore'].mul(0.01)).add(df['DScore'].mul(0.0001))

print("\n带有加权综合分数的 DataFrame:")
print(df)
登录后复制

输出:

带有加权综合分数的 DataFrame:
   DScore  EScore  Total Score  Composite Score
0       2       6           17          17.0602
1       2       7           15          15.0702
2       4       9           23          23.0904
3       4       9           23          23.0904
4       5      10           25          25.1005
登录后复制

可以看到,Composite Score 列已经将所有优先级信息编码进去。例如,第2行和第3行的 Total Score 都是 23,EScore 都是 9,DScore 都是 4,所以它们的 Composite Score 完全相同。

3. 应用排名函数

现在,我们可以对 Composite Score 列应用 rank() 函数来生成最终排名。

  • ascending=False:表示分数越高,排名越靠前(即排名值越小)。
  • method='dense':表示在存在相同分数时,它们会获得相同的排名,并且下一个不同的分数会获得紧随其后的排名,不会跳过数字。例如,如果前两名并列第一,下一个将是第二名(1, 1, 2),而不是第三名(1, 1, 3)。
  • .astype('int'):将排名结果转换为整数类型。
df['Rank'] = df['Composite Score'].rank(ascending=False, method='dense').astype('int')

print("\n最终排名结果 DataFrame:")
print(df.drop(columns=['Composite Score'])) # 移除辅助列以展示最终结果
登录后复制

输出:

最终排名结果 DataFrame:
   DScore  EScore  Total Score  Rank
0       2       6           17     3
1       2       7           15     4
2       4       9           23     2
3       4       9           23     2
4       5      10           25     1
登录后复制

可以看到,Total Score 为 25 的获得了第 1 名。Total Score 为 23 的两行都获得了第 2 名。Total Score 为 17 的获得了第 3 名。Total Score 为 15 的获得了第 4 名。这完全符合我们多条件优先级排名的预期。

完整代码示例

import pandas as pd

# 原始数据
df = pd.DataFrame({
    "DScore": [2, 2, 4, 4, 5],
    "EScore": [6, 7, 9, 9, 10],
    "Total Score": [17, 15, 23, 23, 25]
})

print("原始 DataFrame:")
print(df)

# 构建加权综合分数并直接计算排名
# 为EScore和DScore赋予极小的权重,以确保它们只在Total Score相同时代替判别
# 权重选择需确保:
# 1. 次级权重 * 次级分数最大值 < 主级分数最小差异
# 2. 更次级权重 * 更次级分数最大值 < 次级权重 * 次级分数最小差异
df['Rank'] = (
    df['Total Score']
    .add(df['EScore'].mul(0.01))     # EScore作为第一平局打破者,权重0.01
    .add(df['DScore'].mul(0.0001))   # DScore作为第二平局打破者,权重0.0001
    .rank(ascending=False, method='dense') # 降序排名,相同分数使用密集排名
    .astype('int')                   # 转换为整数类型
)

print("\n最终排名结果 DataFrame:")
print(df)
登录后复制

权重选择的考量与注意事项

  1. 权重的相对大小: 选择权重时,最关键的是确保次级排序键的加权值不会影响主排序键的相对顺序。例如,如果 Total Score 的最小差异是 1,那么 EScore 的加权最大值必须远小于 1。如果 EScore 的最大值是 100,权重设为 0.01,那么最大加权值就是 1,这可能会影响 Total Score 的原始顺序。在这种情况下,可能需要选择更小的权重,例如 0.001。
  2. 数据范围: 在实际应用中,需要根据各列数据的实际范围(最小值、最大值)来仔细选择权重。一个好的实践是先计算出各列的数值范围和可能的最小差异,然后据此确定合适的权重。
  3. 浮点数精度: 由于涉及到浮点数运算,在极端情况下可能会遇到浮点数精度问题。但对于大多数排名场景,上述权重选择方法是足够稳健的。
  4. 可读性: 虽然这种方法非常有效,但生成的“加权综合分数”本身可能不具备直观的业务含义。在最终展示时,通常会移除这个辅助列,只保留最终的排名列。

总结

通过构建加权综合分数并结合 Pandas 的 rank() 函数,我们可以高效且灵活地实现基于多列优先级的数据排名。这种方法不仅能够处理简单的单列排名,更能应对复杂的平局打破规则,为数据分析提供了强大的工具。理解权重选择的原则是成功应用此方法的关键,确保排名结果的准确性和业务逻辑的正确性。

以上就是Pandas DataFrame 多条件优先级排序与排名的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号