0

0

创建堆叠DataFrame中分组变量比率的教程

霞舞

霞舞

发布时间:2025-10-15 11:20:02

|

745人浏览过

|

来源于php中文网

原创

创建堆叠DataFrame中分组变量比率的教程

本文介绍如何在pandas中高效地对堆叠式dataframe进行分组,计算特定类型变量(如'ts'/'td')的行间比率,并将其作为新行添加回原数据。文章通过`set_index`、`unstack`和`div`等pandas核心操作,展示了如何优雅地处理数据转换、比率计算以及缺失值(nan)的填充,同时保留原始数据结构,避免了低效的循环或`apply`方法。

数据结构与目标

在数据分析中,我们经常会遇到需要从“长格式”(或堆叠式)DataFrame中提取特定行值并进行计算的场景。例如,给定一个包含分组键(如G1, G2)、类型标识符(TPE,如'td'或'ts')和数值(QC)的DataFrame,我们的目标是:

  1. 根据G1和G2进行分组。
  2. 在每个组内,计算TPE为'ts'的QC值与TPE为'td'的QC值的比率(ts/td)。
  3. 将这些比率作为新行添加到原始DataFrame中,新行的TPE列标记为'ratio'。
  4. 如果某个组缺少'td'或'ts'值,则对应的比率应为空(NaN)。

以下是输入DataFrame的示例:

import pandas as pd
import numpy as np

data = {
    'G1': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'D'],
    'G2': ['S1', 'S1', 'S2', 'S2', 'S1', 'S1', 'S2', 'S2', 'S1', 'S2'],
    'TPE': ['td', 'ts', 'td', 'ts', 'td', 'ts', 'td', 'ts', 'td', 'ts'],
    'QC': [2, 4, 6, 3, 20, 40, 60, 30, 90, 7]
}
df_in = pd.DataFrame(data)

# 模拟缺失td或ts的情况
df_in.loc[8, 'TPE'] = 'td' # C S1只有td
df_in.loc[9, 'TPE'] = 'ts' # D S2只有ts

print("原始DataFrame (df_in):")
print(df_in)

输出的df_in如下:

   G1  G2 TPE  QC
0  A  S1  td   2
1  A  S1  ts   4
2  A  S2  td   6
3  A  S2  ts   3
4  B  S1  td  20
5  B  S1  ts  40
6  B  S2  td  60
7  B  S2  ts  30
8  C  S1  td  90
9  D  S2  ts   7

传统处理方法的挑战

一种直观但效率不高的做法是使用groupby().apply()结合自定义函数。例如:

def calculate_ratio_inefficient(group):
    td_row = group[group['TPE'] == 'td']
    ts_row = group[group['TPE'] == 'ts']
    if not td_row.empty and not ts_row.empty:
        ratio = ts_row['QC'].values[0] / td_row['QC'].values[0]
        return pd.DataFrame({'G1': [group['G1'].iloc[0]], 
                             'G2': [group['G2'].iloc[0]], 
                             'TPE': ['ratio'], 
                             'QC': [ratio]})
    # 如果缺少td或ts,返回一个空DataFrame,这会导致该组的比率行被忽略
    return pd.DataFrame()

# grouped = df_in.groupby(['G1', 'G2']).apply(calculate_ratio_inefficient).reset_index(drop=True)
# df_out_inefficient = pd.concat([df_in, grouped], ignore_index=True)
# print("\n使用apply的输出 (会丢失缺失比率的组):")
# print(df_out_inefficient)

这种方法虽然能实现比率计算,但存在几个问题:

  • 效率低下:apply()操作通常比Pandas的矢量化操作慢,尤其是在大数据集上。
  • 缺失值处理复杂:为了保留所有组(包括那些缺少'td'或'ts'的组)的比率行并填充NaN,自定义函数需要更复杂的逻辑,否则如上述代码所示,这些组的比率行会被直接丢弃。

利用Pandas实现高效比率计算

Pandas提供了更高效、更“Pythonic”的方式来解决这类问题,核心思想是利用set_index和unstack将不同类型的值转换为列,从而实现矢量化计算。

核心代码解析

# 步骤1: 设置多级索引并将'TPE'列unstack为新列
# 这会将G1, G2作为行索引,TPE的值(td, ts)作为列名,QC的值填充这些新列。
# 如果某个G1/G2组合缺少td或ts,unstack会自动填充NaN。
tmp = df_in.set_index(['G1', 'G2', 'TPE']).unstack()['QC']
print("\n中间结果 (tmp DataFrame):")
print(tmp)

tmp DataFrame的输出:

TPE    td    ts
G1 G2          
A  S1   2.0   4.0
   S2   6.0   3.0
B  S1  20.0  40.0
   S2  60.0  30.0
C  S1  90.0   NaN
D  S2   NaN   7.0

从tmp中可以看到,TPE列的值'td'和'ts'已经变成了新的列名,并且QC值填充了相应的位置。对于C S1,由于没有'ts',ts列显示为NaN;同理,D S2的td列也显示为NaN。

# 步骤2: 计算比率
# 直接对unstacked后的列进行除法操作。Pandas会自动处理NaN。
# ts / td
ratio_series = tmp['ts'].div(tmp['td'])
print("\n计算出的比率Series:")
print(ratio_series)

ratio_series的输出:

Otter.ai
Otter.ai

一个自动的会议记录和笔记工具,会议内容生成和实时转录

下载
G1  G2
A   S1    2.0
    S2    0.5
B   S1    2.0
    S2    0.5
C   S1    NaN
D   S2    NaN
dtype: float64

这里,C S1和D S2的比率因为存在NaN值而计算结果也为NaN,这正是我们期望的行为。

# 步骤3: 将比率Series转换回DataFrame并添加'TPE'列
# reset_index()将多级索引G1, G2变回普通列。
# name='QC'将比率Series的名称设为'QC',使其成为DataFrame中的一列。
# assign(TPE='ratio')添加一个名为'TPE'的新列,并将其值设置为'ratio'。
ratio_df = ratio_series.reset_index(name='QC').assign(TPE='ratio')
print("\n比率DataFrame (ratio_df):")
print(ratio_df)

ratio_df的输出:

  G1  G2  QC    TPE
0  A  S1   2.0  ratio
1  A  S2   0.5  ratio
2  B  S1   2.0  ratio
3  B  S2   0.5  ratio
4  C  S1   NaN  ratio
5  D  S2   NaN  ratio

结果整合与最终输出

最后一步是将原始DataFrame df_in与新生成的比率DataFrame ratio_df合并。

# 步骤4: 合并原始DataFrame和比率DataFrame
df_out = pd.concat([df_in, ratio_df], ignore_index=True)
print("\n最终输出DataFrame (df_out):")
print(df_out)

最终的df_out如下:

   G1  G2    TPE   QC
0   A  S1     td  2.0
1   A  S1     ts  4.0
2   A  S2     td  6.0
3   A  S2     ts  3.0
4   B  S1     td  20.0
5   B  S1     ts  40.0
6   B  S2     td  60.0
7   B  S2     ts  30.0
8   C  S1     td  90.0
9   D  S2     ts  7.0
10  A  S1  ratio  2.0
11  A  S2  ratio  0.5
12  B  S1  ratio  2.0
13  B  S2  ratio  0.5
14  C  S1  ratio  NaN
15  D  S2  ratio  NaN

总结与最佳实践

这种利用set_index、unstack、矢量化操作(如div)和concat的组合方法是Pandas中处理此类数据转换的强大且高效的模式。

优点:

  • 矢量化操作:充分利用Pandas底层C语言实现,性能远超基于Python循环或apply的方案。
  • 简洁性:代码逻辑清晰,易于理解和维护。
  • 健壮性:unstack操作能够自然地处理缺失值,自动引入NaN,避免了手动条件判断的复杂性。
  • 灵活性:此模式可以轻松扩展到计算其他类型的比率或进行更复杂的列间运算。

在处理大型数据集时,优先考虑使用Pandas提供的矢量化函数和数据重塑工具,而不是编写自定义的apply函数,这将显著提升代码的性能和可读性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

638

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

263

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

631

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

564

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

671

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

618

2023.09.22

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号