0

0

高效 Pandas 数据聚合:计算分组百分比利用率

花韻仙語

花韻仙語

发布时间:2025-09-04 20:14:01

|

200人浏览过

|

来源于php中文网

原创

高效 pandas 数据聚合:计算分组百分比利用率

本文旨在介绍如何使用 Pandas 库高效地对 DataFrame 进行分组聚合,并计算特定指标的百分比利用率。通过 groupby() 和 transform() 方法,避免使用低效的 apply() 函数,实现更快速、简洁的数据处理。我们将以计算设备带宽利用率为例,演示具体操作步骤和代码示例。

使用 Pandas 进行高效分组聚合和百分比计算

Pandas 提供了强大的数据处理功能,其中分组聚合是数据分析中常用的操作。当需要计算每个分组内的特定指标的百分比时,可以使用 groupby() 和 transform() 方法高效地实现。本文将详细介绍如何使用这些方法,并避免使用效率较低的 apply() 函数。

数据准备

首先,我们需要创建一个 Pandas DataFrame 作为示例数据。以下代码创建了一个包含设备名称、接口信息、输入输出流量和带宽使用情况的 DataFrame:

import pandas as pd

data = {'Device': ['Usa123', 'Usa123', 'Emea01', 'Emea01'],
        'int': ['Eth1', 'Eth0', 'Wan1', 'Eth3'],
        'In': [1000, 10000, 1000, 2000],
        'Out': [500, 700, 500, 1000],
        'Bw_in': [100, 200, 150, 200],
        'Bw_out': [75, 80, 90, 70]}

df = pd.DataFrame(data)

print(df)

输出:

云点滴客户关系管理CRM OA系统
云点滴客户关系管理CRM OA系统

云点滴客户解决方案是针对中小企业量身制定的具有简单易用、功能强大、永久免费使用、终身升级维护的智能化客户解决方案。依托功能强大、安全稳定的阿里云平 台,性价比高、扩展性好、安全性高、稳定性好。高内聚低耦合的模块化设计,使得每个模块最大限度的满足需求,相关模块的组合能满足用户的一系列要求。简单 易用的云备份使得用户随时随地简单、安全、可靠的备份客户信息。功能强大的报表统计使得用户大数据分析变的简单,

下载
  Device   int     In   Out  Bw_in  Bw_out
0  Usa123  Eth1   1000   500    100      75
1  Usa123  Eth0  10000   700    200      80
2  Emea01  Wan1   1000   500    150      90
3  Emea01  Eth3   2000  1000    200      70

计算分组百分比利用率

我们的目标是计算每个设备的输入和输出带宽利用率,即 Bw_in / In 和 Bw_out / Out 的总和,并将其添加到 DataFrame 中。可以使用以下代码实现:

g = df.groupby("Device")

df[["%InUsage", "%OutUsage"]] = (
    g[["Bw_in", "Bw_out"]].transform("sum")
    / g[["In", "Out"]].transform("sum").to_numpy()
)
print(df)

输出:

  Device   int     In   Out  Bw_in  Bw_out  %InUsage  %OutUsage
0  Usa123  Eth1   1000   500    100      75  0.027273   0.129167
1  Usa123  Eth0  10000   700    200      80  0.027273   0.129167
2  Emea01  Wan1   1000   500    150      90  0.116667   0.106667
3  Emea01  Eth3   2000  1000    200      70  0.116667   0.106667

代码解释:

  1. df.groupby("Device"): 按照 "Device" 列进行分组,创建一个 DataFrameGroupBy 对象。
  2. g[["Bw_in", "Bw_out"]].transform("sum"): 对每个分组内的 "Bw_in" 和 "Bw_out" 列分别求和。transform("sum") 方法会将求和结果广播到每个分组内的每一行,保持 DataFrame 的原始形状。
  3. g[["In", "Out"]].transform("sum"): 类似地,对每个分组内的 "In" 和 "Out" 列分别求和,并将结果广播到每一行。
  4. .to_numpy(): 将 g[["In", "Out"]].transform("sum") 转换为 NumPy 数组,以便进行广播除法。
  5. /: 将带宽使用总和除以总流量,计算百分比利用率。
  6. df[["%InUsage", "%OutUsage"]] = ...: 将计算结果赋值给 DataFrame 的新列 "%InUsage" 和 "%OutUsage"。

避免使用 apply()

虽然可以使用 apply() 函数实现相同的功能,但 transform() 方法通常更高效,因为它利用了 Pandas 的内部优化。apply() 函数通常在循环中逐行或逐列应用函数,而 transform() 方法可以对整个分组进行批量操作。

以下是使用 apply() 的示例代码(不推荐):

# 不推荐使用
def calculate_usage(x):
    in_usage = x['Bw_in'].sum() / x['In'].sum()
    out_usage = x['Bw_out'].sum() / x['Out'].sum()
    return pd.Series({'%InUsage': in_usage, '%OutUsage': out_usage})

df[['%InUsage', '%OutUsage']] = df.groupby('Device').apply(calculate_usage)

总结

本文介绍了如何使用 Pandas 库高效地进行分组聚合,并计算特定指标的百分比利用率。通过 groupby() 和 transform() 方法,可以避免使用低效的 apply() 函数,实现更快速、简洁的数据处理。 transform() 方法的优势在于它可以将聚合结果广播到每个分组内的每一行,从而避免了显式循环,提高了代码效率。 在处理大型数据集时,这种优化尤为重要。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

64

2025.12.04

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1133

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

213

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1816

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

20

2026.01.19

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

1

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

2

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

0

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

0

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 52.7万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号