0

0

Pandas数据清洗:标准化文本列以实现精准分组聚合

花韻仙語

花韻仙語

发布时间:2025-08-08 12:04:34

|

871人浏览过

|

来源于php中文网

原创

Pandas数据清洗:标准化文本列以实现精准分组聚合

本文将指导如何在Pandas DataFrame中对包含非标准字符的文本列进行清洗和标准化,特别是针对groupby操作前的名称统一问题。通过结合使用Python的正则表达式(re模块)和字符串的strip()方法,可以有效去除不必要的符号、数字和多余空格,确保数据能够正确分组并聚合,从而获得准确的统计结果。

在数据分析过程中,我们经常需要对数据进行分组聚合(groupby)操作以获取统计信息。然而,当分组依据的列包含非标准化的文本数据时,例如同一实体却有多种表示形式(如“michael”、“michael ()”),直接进行groupby会导致错误的分组结果。这是因为pandas会将这些细微差异的字符串视为不同的值。为了解决这一问题,我们需要在分组前对文本数据进行预处理,使其标准化。

核心清洗方法:正则表达式与字符串处理

解决此类问题的关键在于识别并移除文本中不必要的字符,如括号、连字符、数字以及多余的空格。Python的re模块(正则表达式)和字符串的内置方法提供了强大的工具来实现这一点。

  1. 使用正则表达式移除特定字符:re.sub(pattern, repl, string)函数可以根据指定的pattern(正则表达式模式)在string中查找匹配项,并用repl(替换字符串)替换它们。 对于本例,我们的目标是只保留英文字母和空格。因此,可以使用模式[^A-Za-z ]+。

    • []:字符集。
    • ^:在字符集内部表示“非”(取反)。
    • A-Za-z:匹配所有大写和小写英文字母。
    • ` `:匹配空格。
    • +:匹配前一个字符或字符集一次或多次。 结合起来,[^A-Za-z ]+表示匹配一个或多个非英文字母和非空格的字符。将其替换为空字符串''即可达到移除这些字符的目的。
  2. 使用strip()方法移除首尾空格: 在通过正则表达式移除字符后,可能会留下字符串首尾的多余空格(例如,“ Sarah ”)。字符串的strip()方法可以有效地移除这些首尾的空白字符。

以下是针对单个字符串的清洗示例:

import re

# 示例字符串
string1 = 'Sarah - (0)'
string2 = 'Michael ()'

# 步骤1: 使用正则表达式移除符号和数字
clean_string1_step1 = re.sub(r'[^A-Za-z ]+', '', string1) # 结果: 'Sarah  '
clean_string2_step1 = re.sub(r'[^A-Za-z ]+', '', string2) # 结果: 'Michael '

print(f"'{string1}' 经正则处理后: '{clean_string1_step1}'")
print(f"'{string2}' 经正则处理后: '{clean_string2_step1}'")

# 步骤2: 使用strip()移除首尾空格
final_string1 = clean_string1_step1.strip() # 结果: 'Sarah'
final_string2 = clean_string2_step1.strip() # 结果: 'Michael'

print(f"'{clean_string1_step1}' 经strip()处理后: '{final_string1}'")
print(f"'{clean_string2_step1}' 经strip()处理后: '{final_string2}'")

将清洗逻辑应用于Pandas DataFrame

在Pandas DataFrame中,我们需要将上述清洗逻辑封装成一个函数,然后使用.apply()方法将其应用于目标列。为了确保更彻底的标准化,我们还可以考虑将清洗后的字符串统一转换为小写或首字母大写,以避免大小写差异导致的分组问题(例如,“michael”和“Michael”)。

Uni-CourseHelper
Uni-CourseHelper

私人AI助教,高效学习工具

下载
import pandas as pd
import re

# 原始DataFrame数据
data = {
    'Name': ['Michael', 'Michael ()', 'Sarah - (0)', 'Sarah'],
    'Fee': [3, 4, 5, 5]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

# 定义清洗函数
def clean_name_for_groupby(name):
    """
    清洗名称字符串,移除特殊字符和多余空格,并统一首字母大写。
    """
    # 1. 使用正则表达式移除除字母和空格外的所有字符
    cleaned_str = re.sub(r'[^A-Za-z ]+', '', name)
    # 2. 移除首尾空格,并统一转换为首字母大写(例如:sarah -> Sarah)
    return cleaned_str.strip().capitalize()

# 将清洗函数应用于 'Name' 列,创建一个新的清洗后的列
df['Cleaned_Name'] = df['Name'].apply(clean_name_for_groupby)

print("\n清洗后的DataFrame (新增 'Cleaned_Name' 列):")
print(df)

# 根据清洗后的 'Cleaned_Name' 列进行分组聚合
df_grouped = df.groupby('Cleaned_Name')['Fee'].sum().reset_index()

print("\n分组聚合结果:")
print(df_grouped)

代码解释:

  1. 导入必要的库:pandas用于数据操作,re用于正则表达式。
  2. 创建原始DataFrame:模拟了问题中给出的数据结构。
  3. 定义clean_name_for_groupby函数
    • 它接受一个字符串name作为输入。
    • re.sub(r'[^A-Za-z ]+', '', name):执行核心的字符移除操作。
    • .strip():移除可能存在的首尾空白。
    • .capitalize():将字符串的第一个字符转换为大写,其余字符转换为小写。这有助于统一“sarah”和“Sarah”为“Sarah”。如果需要全部小写,可以使用.lower()。
  4. 应用清洗函数:df['Name'].apply(clean_name_for_groupby)将此函数逐个应用于Name列的每个元素,并将结果存储在新列Cleaned_Name中。
  5. 执行分组聚合:现在,我们可以安全地使用Cleaned_Name列进行groupby().sum()操作,得到期望的聚合结果。

注意事项

  • 正则表达式的灵活性:本例中的[^A-Za-z ]+模式适用于只保留英文字母和空格。如果你的数据中包含其他需要保留的字符(如数字、中文、特定符号等),你需要相应地调整正则表达式模式。例如,要保留数字,可以将模式改为[^A-Za-z0-9 ]+。
  • 大小写敏感性:在清洗过程中,统一大小写(如使用.lower()或.capitalize())是确保分组准确性的重要一步,尤其当原始数据存在大小写不一致的情况时。
  • 性能考量:对于非常大的数据集,apply()方法虽然方便,但在性能上可能不如Pandas的向量化字符串方法(如str.replace()、str.contains()等)。然而,对于涉及复杂正则表达式的场景,apply()结合自定义函数通常是更直接和灵活的选择。

总结

对文本数据进行标准化是数据清洗中不可或缺的一步,尤其在进行分组聚合操作时。通过结合使用Python的re模块和字符串的strip()等方法,我们可以高效地处理非标准化的文本数据,将其转换为统一的格式,从而确保后续数据分析的准确性和可靠性。掌握这些技巧将大大提升你在处理真实世界数据时的效率和数据质量。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

778

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

686

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

769

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

760

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1445

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

571

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

581

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

752

2023.08.11

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

9

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.1万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号