使用 Pandas 和正则表达式拆分包含分隔符和全大写值的列

霞舞
发布: 2025-10-08 12:08:24
原创
648人浏览过

使用 pandas 和正则表达式拆分包含分隔符和全大写值的列

本文档介绍了如何使用 Pandas 和正则表达式高效地将 DataFrame 中的一列按照特定分隔符(' - ')和全大写字母组合进行拆分。我们将探讨两种主要方法:一种是使用 Pandas 内置的字符串操作 .str.extract(),另一种是结合使用 re 模块进行更灵活的模式匹配。通过这些方法,你可以轻松地将包含复杂模式的列拆分为多个有意义的列,从而简化数据分析和处理流程。

使用 Pandas 的向量化字符串操作

Pandas 提供了强大的向量化字符串操作,可以高效地处理 DataFrame 中的文本数据。以下是如何使用 .str.extract() 和正则表达式来拆分列的示例:

import pandas as pd

df = pd.DataFrame({
   'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})

# 正则表达式模式
pattern = r'^(.*?) - ([A-Z\s-]+)$'

# 提取分组到两个新列
df[['First', 'Last']] = df['Value'].str.extract(pattern)

# 显示 DataFrame
print(df)
登录后复制

代码解释:

  1. 导入 Pandas: import pandas as pd 导入 Pandas 库,用于数据处理。
  2. 创建 DataFrame: 创建一个包含示例数据的 DataFrame。
  3. 正则表达式模式: pattern = r'^(.*?) - ([A-Z\s-]+)$' 定义了用于拆分字符串的正则表达式模式。这个模式的含义如下:
    • ^: 匹配字符串的开头。
    • (.*?): 匹配任意字符(非贪婪模式),并将其捕获到第一个分组中。
    • -: 匹配分隔符 " - "。
    • ([A-Z\s-]+): 匹配由大写字母、空格或连字符组成的字符串,并将其捕获到第二个分组中。
    • $: 匹配字符串的结尾。
  4. 提取分组: df[['First', 'Last']] = df['Value'].str.extract(pattern) 使用 .str.extract() 方法和定义的正则表达式模式从 'Value' 列中提取分组,并将结果分别存储到 'First' 和 'Last' 列中。
  5. 显示 DataFrame: print(df) 打印修改后的 DataFrame,显示拆分后的结果。

输出:

                                Value                      First          Last
0                   Juan-Diva - HOLLS                  Juan-Diva         HOLLS
1          Carlos - George - ESTE BAN            Carlos - George      ESTE BAN
2  Javier Plain - Hotham Ham - ALPINE  Javier Plain - Hotham Ham        ALPINE
3                  Yul - KONJ KOL MON                        Yul  KONJ KOL MON
登录后复制

此代码使用正则表达式 r'^(.*?) - ([A-Z\s-]+)$' 和 .str.extract()。该模式旨在将字符串拆分为两部分:

  1. ^(.*?) 捕获字符串开头到最后一个 " - " 之间的内容。
  2. ([A-Z\s-]+)$ 捕获字符串的最后一段,该段必须仅包含大写字母、空格或连字符。

此模式确保拆分发生在最后一个 " - " 之后,后跟一系列大写字符、空格或连字符的字符串。

Unscreen
Unscreen

AI智能视频背景移除工具

Unscreen 331
查看详情 Unscreen

使用 re 模块的替代方法

虽然 Pandas 的向量化字符串操作通常更有效,但 re 模块提供了更大的灵活性。以下是如何使用 re 模块实现相同结果的示例:

import pandas as pd
import re

df = pd.DataFrame({
    'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})

# 用于拆分字符串的函数
def split_value(s):
    # 查找最后一次出现的 ' - ' 后跟大写字母
    match = re.search(r'^(.*?) - ([A-Z\s-]+)$', s)
    if match:
        return match.group(1), match.group(2)
    else:
        return s, None

# 将函数应用于 'Value' 列中的每一行
df[['First', 'Last']] = df['Value'].apply(lambda x: split_value(x)).tolist()

print(df)
登录后复制

代码解释:

  1. 导入库: 导入 pandas 用于数据处理和 re 用于正则表达式操作。
  2. 创建 DataFrame: 创建一个包含示例数据的 DataFrame。
  3. 定义 split_value 函数:
    • 此函数接受一个字符串 s 作为输入。
    • 它使用 re.search 函数查找与正则表达式 r'^(.*?) - ([A-Z\s-]+)$' 匹配的模式。
    • 如果找到匹配项(if match:):
      • match.group(1) 返回第一个捕获组的内容(在 " - " 之前的部分)。
      • match.group(2) 返回第二个捕获组的内容(由大写字母、空格或连字符组成的部分)。
      • 函数返回这两个组的元组。
    • 如果没有找到匹配项(else:):
      • 函数返回原始字符串 s 和 None 的元组。
  4. 应用函数并创建新列:
    • df['Value'].apply(lambda x: split_value(x)) 将 split_value 函数应用于 'Value' 列中的每个值。lambda x: split_value(x) 是一个匿名函数,它接受一个值 x 并将其传递给 split_value 函数。
    • .tolist() 将 apply 方法的结果(一系列元组)转换为列表。
    • df[['First', 'Last']] = ... 将列表中的元组分配给新的 'First' 和 'Last' 列。

输出:

                                Value                      First          Last
0                   Juan-Diva - HOLLS                  Juan-Diva         HOLLS
1          Carlos - George - ESTE BAN            Carlos - George      ESTE BAN
2  Javier Plain - Hotham Ham - ALPINE  Javier Plain - Hotham Ham        ALPINE
3                  Yul - KONJ KOL MON                        Yul  KONJ KOL MON
登录后复制

我使用 re.search 函数来根据指定的模式查找匹配项。模式 r'^(.*?) - ([A-Z\s-]+)$' 与上面使用的模式相同。如果找到匹配项,该函数将返回字符串的两个部分;否则,它将返回原始字符串和 'Last' 列的 None。然后将结果转换为列表并分配给新列 'First' 和 'Last'。

注意事项和总结

  • 性能: 对于大型数据集,Pandas 的向量化字符串操作通常比使用 re 模块更有效。但是,对于更复杂的模式匹配,re 模块可能更灵活。
  • 正则表达式: 掌握正则表达式对于文本数据处理至关重要。确保理解所使用的模式,并根据需要进行调整。
  • 错误处理: 在实际应用中,需要考虑错误处理。例如,如果某些行的格式与预期不符,则需要添加适当的逻辑来处理这些情况。
  • 数据清洗 在拆分列之前,可能需要对数据进行清洗,例如删除前导或尾随空格。

总而言之,本文档介绍了两种使用 Pandas 和正则表达式拆分 DataFrame 中列的方法。通过选择合适的方法并根据需要调整正则表达式,你可以高效地处理和转换文本数据。

以上就是使用 Pandas 和正则表达式拆分包含分隔符和全大写值的列的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号