
在数据分析中,我们经常需要对数据集进行多维度统计。一个常见的需求是,在给定两个或多个分组列(例如 player 和 team)的基础上,统计另一个分类列(例如 result)中每个唯一值的出现次数,并将这些唯一值作为新的列呈现在结果数据框中。
例如,我们有以下数据:
import pandas as pd
df = pd.DataFrame({'player':['A','A','B','B','C','D'],
'team':['tmX','tmX','tmX','tmX','tmY','tmY'],
'result':['hit','hit','hit','miss','miss','hit']})
print(df)输出:
player team result 0 A tmX hit 1 A tmX hit 2 B tmX hit 3 B tmX miss 4 C tmY miss 5 D tmY hit
我们期望得到的结果是:
player team hit miss 0 A tmX 2 0 1 B tmX 1 1 2 C tmY 0 1 3 D tmY 1 0
直接使用 groupby() 并对结果列进行 count() 操作,虽然能得到每个分组的总计数,但无法将 result 列的唯一值(如 'hit', 'miss')展开为独立的列:
new_df = df.groupby(['player','team'])['result'].count().reset_index() print(new_df)
输出:
player team result 0 A tmX 2 1 B tmX 2 2 C tmY 1 3 D tmY 1
这与我们期望的宽格式输出不符,因为它只提供了每个 (player, team) 组合的总 result 计数,而不是按 result 类型分类的计数。传统的 pd.crosstab 通常适用于两个维度,而 df.pivot() 或 df.pivot_table() 在这种情况下可能需要更复杂的参数设置才能达到目标。
为了实现上述需求,Pandas 提供了一个强大且灵活的组合方法:groupby().size().unstack()。这个方法能够有效地将多层分组的计数结果转换为宽格式。
核心思想是:
下面是实现我们期望结果的代码:
import pandas as pd
df = pd.DataFrame({'player':['A','A','B','B','C','D'],
'team':['tmX','tmX','tmX','tmX','tmY','tmY'],
'result':['hit','hit','hit','miss','miss','hit']})
# 解决方案代码
result_df = (
df.groupby(['player', 'team', 'result']) # 1. 按所有相关列分组
.size() # 2. 计算每个分组的大小(计数)
.unstack(level='result', fill_value=0) # 3. 将 'result' 列从索引中解堆叠到列,缺失值填充0
.reset_index() # 4. 将 'player' 和 'team' 从索引重置为列
)
print(result_df)输出:
result player team hit miss 0 A tmX 2 0 1 B tmX 1 1 2 C tmY 0 1 3 D tmY 1 0
df.groupby(['player', 'team', 'result']): 这一步创建了一个多层索引的分组对象。它会根据 player、team 和 result 的所有唯一组合来创建分组。例如,('A', 'tmX', 'hit') 会是一个分组,('B', 'tmX', 'miss') 是另一个分组。
.size(): 对上一步创建的每个最小分组,.size() 方法会计算该分组中元素的数量。此时,df 会变成一个 Series,其索引是 MultiIndex,包含 player、team 和 result,值为对应的计数。 例如,它可能包含类似 (A, tmX, hit): 2 和 (B, tmX, miss): 1 这样的项。
.unstack(level='result', fill_value=0): 这是实现宽格式的关键步骤。unstack() 方法用于将 Series 或 DataFrame 的某一层索引“解堆叠”到列中。
经过这一步,我们得到了一个 DataFrame,其索引是 (player, team),列是 hit 和 miss。
.reset_index(): unstack() 操作后,player 和 team 仍然是 DataFrame 的索引。.reset_index() 将这些索引层转换回普通的列,使得最终结果是一个标准的 DataFrame,具有数字索引和所有数据列。
groupby().size().unstack().reset_index() 组合是 Pandas 中处理多维度分类计数并以宽格式呈现结果的强大工具。它通过明确的分组、计数和解堆叠步骤,提供了一个清晰、高效且易于理解的解决方案,特别适用于需要将某个分类列的唯一值转换为新列的场景。掌握这一技巧将极大地提升您在 Pandas 中进行数据透视和汇总分析的能力。
以上就是Pandas 多列分组统计与结果透视:实现交叉计数表的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号