Pandas数据分析：为每个分类维度强制显示所有区间（Bin）计数，并填充零值-Python教程-PHP中文网

Pandas数据分析：为每个分类维度强制显示所有区间（Bin）计数，并填充零值

心靈之曲

发布： 2025-12-07 19:17:01

原创

493人浏览过

Pandas数据分析：为每个分类维度强制显示所有区间（Bin）计数，并填充零值

本教程旨在解决pandas数据处理中一个常见问题：如何为数据集中每个类别（如大洲）生成所有预定义区间（bin）的计数，即使某些区间在特定类别下没有数据，也需将其计数显示为零。文章将通过详细步骤，演示如何利用`groupby`、`unstack`和`stack`等pandas操作，实现对多维数据进行完整且包含零值的计数统计。

在数据分析中，我们经常需要对数据进行分组统计，例如统计每个大洲在不同数值区间（bins）内的国家数量。然而，一个常见挑战是，如果某个大洲在某个特定区间内没有任何数据，标准的计数方法往往会忽略这个组合，导致结果不完整。为了获得一个结构完整、包含所有类别-区间组合（包括计数为零的组合）的统计结果，我们需要采用一些进阶的Pandas技巧。

数据准备

首先，我们根据原始问题提供的数据，构建一个初始的Pandas DataFrame。这个DataFrame包含两列：Continent（大洲）和Rank（数值区间）。为了确保后续操作的准确性，我们将Rank列中的字符串区间转换为Pandas的Interval对象。

import pandas as pd

# 原始数据，将字符串区间转换为pd.Interval对象
data = {
    'Continent': [
        'Asia', 'North America', 'Asia', 'Europe', 'Europe',
        'North America', 'Europe', 'Asia', 'Europe', 'Asia',
        'Europe', 'Europe', 'Asia', 'Australia', 'South America'
    ],
    'Rank': [
        pd.Interval(15.753, 29.227, closed='right'),
        pd.Interval(2.212, 15.753, closed='right'),
        pd.Interval(2.212, 15.753, closed='right'),
        pd.Interval(2.212, 15.753, closed='right'),
        pd.Interval(15.753, 29.227, closed='right'),
        pd.Interval(56.174, 69.648, closed='right'),
        pd.Interval(15.753, 29.227, closed='right'),
        pd.Interval(2.212, 15.753, closed='right'),
        pd.Interval(15.753, 29.227, closed='right'),
        pd.Interval(2.212, 15.753, closed='right'),
        pd.Interval(29.227, 42.701, closed='right'),
        pd.Interval(29.227, 42.701, closed='right'),
        pd.Interval(2.212, 15.753, closed='right'),
        pd.Interval(2.212, 15.753, closed='right'),
        pd.Interval(56.174, 69.648, closed='right')
    ]
}
df = pd.DataFrame(data)

print("初始DataFrame:")
print(df)

登录后复制

基础分组计数

要计算每个大洲在每个Rank区间内的出现次数，我们通常会使用groupby()方法。Pandas的count()方法在默认情况下需要一个列来计数。如果直接对groupby(['Continent', 'Rank'])的结果调用count()，并且没有指定要计数的列，可能会得到空结果或错误。因此，一个常见的做法是添加一个虚拟列（例如，全部为1），然后对这个虚拟列进行计数。

标贝悦读AI配音

在线文字转语音软件-专业的配音网站

查看详情

# 添加一个虚拟列用于计数
df['count_col'] = 1

# 进行基础分组计数
# as_index=False 将分组键保留为列而非索引
grouped_counts = df.groupby(['Continent', 'Rank'], as_index=False)['count_col'].count()

print("\n基础分组计数结果（不包含零值区间）:")
print(grouped_counts)

登录后复制

上述代码将返回每个Continent-Rank组合的实际计数。然而，这种方法只会显示数据中实际存在的组合。例如，如果某个大洲在某个Rank区间内没有任何记录，那么这个组合就不会出现在结果中。

实现零值填充的完整计数

为了确保所有大洲都列出其所有可能的Rank区间（即使计数为零），我们需要结合groupby()、unstack()、fill_value()和stack()等操作。

groupby(['Continent', 'Rank'])['count_col'].count(): 这一步与基础分组计数类似，得到一个以Continent和Rank为MultiIndex的Series，其值为对应的计数。
.unstack(fill_value=0): unstack()操作将Rank索引级别转换为列。这样，每个大洲都会有一行，而每个Rank区间则成为一个列。如果某个大洲在某个Rank区间没有数据，对应的位置将是NaN。fill_value=0参数会把这些NaN值填充为0。
.stack(): stack()操作是unstack()的逆过程，它将

以上就是Pandas数据分析：为每个分类维度强制显示所有区间（Bin）计数，并填充零值的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

解决Kedro Viz运行失败：版本兼容性排查与解决方案 YOLOv8模型在Jetson Nano上的部署与运行指南 python怎么写txt文件路径 python判断是否大于某值 python下载模块