Pandas：基于条件和 Groupby 替换列中的特定字符

聖光之護

发布时间：2025-09-24 21:23:01

705人浏览过

来源于php中文网

原创

pandas：基于条件和 groupby 替换列中的特定字符

本文介绍了如何使用 Pandas 库，结合 groupby 函数和字符串操作，根据特定条件替换 DataFrame 列中的字符。通过累积计数和字典映射，能够灵活地修改列中的特定部分，并根据替换值调整相关文本，实现数据清洗和转换的目的。

在数据分析和处理中，经常需要根据特定条件修改 DataFrame 中的数据。本文将介绍如何使用 Pandas 库的 groupby 函数和字符串操作，实现根据分组和条件替换 DataFrame 列中的特定字符。

问题描述

假设有一个 DataFrame，其中包含 ACCOUNT 和 ASSET_CLASS 两列。目标是根据 ACCOUNT 列进行分组，然后将 ASSET_CLASS 列中的 "XX" 替换为 "01" 或 "02"，并根据替换的值修改 ASSET_CLASS 列中的其他文本。例如，如果替换为 "01"，则将 "FI CHF" 修改为 "FI CHF Gov"；如果替换为 "02"，则修改为 "FI CHF Corporate"。

解决方案

以下代码展示了如何使用 Pandas 实现上述目标：

import pandas as pd

df = pd.DataFrame({
    'ACCOUNT': [1, 1, 2, 2], 
    'ASSET_CLASS': ['11201XX FI CHF', '11201XX FI CHF', 
                    '12201XX FI EUR', '12201XX FI EUR',
                   ],
})

# 1. 计算每个账户的累积计数，并格式化为两位字符串
s1 = df.groupby('ACCOUNT').cumcount().add(1).astype('str').str.zfill(2)

# 2. 定义一个字典，用于将替换值映射到相应的文本
m = {'01': ' Gov', '02': ' Corporate'}

# 3. 将 ASSET_CLASS 列拆分为两部分，分别位于 "XX" 之前和之后
s2 = df['ASSET_CLASS'].str.split('XX')

# 4. 将各个部分拼接起来，生成新的 ASSET_CLASS 列
df['ASSET_CLASS'] = s2.str[0] + s1 + s2.str[1] + s1.map(m)

print(df)

代码解释：

MagickPen

在线AI英语写作助手，像魔术师一样在几秒钟内写出任何东西。

下载

计算累积计数： 使用 groupby('ACCOUNT').cumcount() 计算每个账户的累积计数。add(1) 将计数从 0 开始调整为从 1 开始。astype('str').str.zfill(2) 将计数转换为字符串，并使用 0 填充到两位数，例如 "01"、"02"。
定义映射字典： 创建一个字典 m，用于将替换值（"01"、"02"）映射到相应的文本（" Gov"、" Corporate"）。
拆分字符串： 使用 str.split('XX') 将 ASSET_CLASS 列中的每个字符串拆分为两部分，分别位于 "XX" 之前和之后。
拼接字符串： 将拆分后的字符串、累积计数和映射的文本拼接起来，生成新的 ASSET_CLASS 列。

扩展应用：处理账户包含多种资产类别的情况

如果一个账户包含多种资产类别（例如 CHF 和 EUR），需要对每种资产类别分别进行计数和替换，可以使用以下代码：

import pandas as pd

df = pd.DataFrame({
    'ACCOUNT': [1, 1, 1, 1, 2, 2], 
    'ASSET_CLASS': ['11201XX FI CHF', '11201XX FI CHF', 
                    '12201XX FI EUR', '12201XX FI EUR',
                    '12201XX FI EUR', '12201XX FI EUR',
                   ],
})

# 1. 根据账户和资产类别进行分组，计算累积计数
s1 = df.groupby(['ACCOUNT', df['ASSET_CLASS'].str.split(' ').str[-1]]).cumcount()\
       .add(1).astype('str').str.zfill(2)

# 2. 定义映射字典
m = {'01': ' Gov', '02': ' Corporate'}

# 3. 拆分字符串
s2 = df['ASSET_CLASS'].str.split('XX')

# 4. 拼接字符串
df['ASSET_CLASS'] = s2.str[0] + s1 + s2.str[1] + s1.map(m)

print(df)

代码解释：

与之前的代码相比，主要的区别在于 groupby 函数的参数。这里使用 groupby(['ACCOUNT', df['ASSET_CLASS'].str.split(' ').str[-1]]) 根据账户和资产类别进行分组。df['ASSET_CLASS'].str.split(' ').str[-1] 用于提取 ASSET_CLASS 列中最后一个空格后的字符串，即资产类别（例如 CHF、EUR）。

注意事项

确保 DataFrame 中需要替换的字符串存在，否则代码可能会出错。
根据实际情况调整映射字典 m，以满足不同的文本替换需求。
cumcount() 函数从 0 开始计数，因此需要使用 add(1) 将计数调整为从 1 开始。

总结

本文介绍了如何使用 Pandas 库，结合 groupby 函数和字符串操作，根据特定条件替换 DataFrame 列中的字符。通过累积计数和字典映射，可以灵活地修改列中的特定部分，并根据替换值调整相关文本。这种方法可以应用于各种数据清洗和转换场景，提高数据处理的效率。

Go模块校验和的Python实现指南

使用 Pydantic 精确描述 Python 复杂字典结构

Python中复杂字典结构的高效类型定义与数据验证：Pydantic实战指南

将字节流转换为 Go 语言中的 float32 数组

Go 语言：从字节数据高效还原 float32 数组的实践指南

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

298

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

212

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1502

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

624

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

633

2024.03.22