Pandas数据分组与零值填充：确保所有区间在各类别中完整显示-Python教程-PHP中文网

Pandas数据分组与零值填充：确保所有区间在各类别中完整显示

碧海醫心

发布： 2025-12-09 14:22:16

原创

564人浏览过

Pandas数据分组与零值填充：确保所有区间在各类别中完整显示

本文详细阐述了在pandas中如何对数据进行多级分组计数，并解决分组结果中可能出现的零值缺失问题。通过引入辅助计数列，并结合`groupby()`、`unstack(fill_value=0)`和`stack()`等操作，我们能够确保所有预定义的类别区间在每个分组中都完整显示，即使其计数为零，从而提供更全面的数据视图。

引言：理解数据分组与零值填充的重要性

在数据分析实践中，我们经常需要对数据进行多维度分组并计算每个组的出现频率。然而，默认的分组计数操作（如groupby().count()）只会返回实际存在数据的组合。这意味着如果某个类别与某个区间组合在原始数据中从未出现，它就不会在结果中显示。但在许多场景下，例如地理分布、时间序列分析或市场份额分析，我们期望看到所有可能的类别组合及其对应的计数，包括那些计数为零的组合。这对于全面理解数据分布、识别缺失模式以及进行准确的可视化至关重要。

本文将介绍如何利用Pandas的强大功能，实现为每个主要类别（如“大洲”）完整列出所有子类别区间（如“排名”），并明确显示那些计数为零的组合。

准备原始数据

首先，我们从一个典型的Pandas DataFrame开始。这个DataFrame包含了我们希望进行分组的两个主要列：Continent（大洲）和Rank（代表某个数值区间或分箱）。Rank列的数据类型通常是字符串或Categorical类型。为了确保所有预定义的区间都能被考虑，即使它们在原始数据中完全缺失，我们建议将Rank列转换为Pandas的Categorical类型，并明确指定所有可能的类别。

GitFluence

AI驱动的Git命令生成器，可帮助您快速找到正确的命令

查看详情

以下是一个示例DataFrame的创建，它模拟了国家按大洲和排名区间分布的数据：

import pandas as pd

# 示例原始数据
data = {
    'Continent': [
        'Asia', 'North America', 'Asia', 'Europe', 'Europe',
        'North America', 'Europe', 'Asia', 'Europe', 'Asia',
        'Europe', 'Europe', 'Asia', 'Australia', 'South America'
    ],
    'Rank': [
        '(15.753, 29.227]', '(2.212, 15.753]', '(2.212, 15.753]',
        '(2.212, 15.753]', '(15.753, 29.227]', '(56.174, 69.648]',
        '(15.753, 29.227]', '(2.212, 15.753]', '(15.753, 29.227]',
        '(2.212, 15.753]', '(29.227, 42.701]', '(29.227, 42.701]',
        '(2.212, 15.753]', '(2.212, 15.753]', '(56.174, 69.648]'
    ]
}
df = pd.DataFrame(data)

# 定义所有可能的排名区间，包括在原始数据中可能未出现的区间
all_bins = [
    '(2.212, 15.753]', '(15.753, 29.227]', '(29.227, 42.701]',
    '(42.701, 56.174]', '(56.174, 69.648]'
]

# 将 'Rank

登录后复制

以上就是Pandas数据分组与零值填充：确保所有区间在各类别中完整显示的详细内容，更多请关注php中文网其它相关文章！