
本文档介绍了如何使用 Pandas 和正则表达式高效地将 DataFrame 中的一列按照特定分隔符(' - ')和全大写字母组合进行拆分。我们将探讨两种主要方法:一种是使用 Pandas 内置的字符串操作 .str.extract(),另一种是结合使用 re 模块进行更灵活的模式匹配。通过这些方法,你可以轻松地将包含复杂模式的列拆分为多个有意义的列,从而简化数据分析和处理流程。
Pandas 提供了强大的向量化字符串操作,可以高效地处理 DataFrame 中的文本数据。以下是如何使用 .str.extract() 和正则表达式来拆分列的示例:
import pandas as pd
df = pd.DataFrame({
'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})
# 正则表达式模式
pattern = r'^(.*?) - ([A-Z\s-]+)$'
# 提取分组到两个新列
df[['First', 'Last']] = df['Value'].str.extract(pattern)
# 显示 DataFrame
print(df)代码解释:
输出:
Value First Last 0 Juan-Diva - HOLLS Juan-Diva HOLLS 1 Carlos - George - ESTE BAN Carlos - George ESTE BAN 2 Javier Plain - Hotham Ham - ALPINE Javier Plain - Hotham Ham ALPINE 3 Yul - KONJ KOL MON Yul KONJ KOL MON
此代码使用正则表达式 r'^(.*?) - ([A-Z\s-]+)$' 和 .str.extract()。该模式旨在将字符串拆分为两部分:
此模式确保拆分发生在最后一个 " - " 之后,后跟一系列大写字符、空格或连字符的字符串。
虽然 Pandas 的向量化字符串操作通常更有效,但 re 模块提供了更大的灵活性。以下是如何使用 re 模块实现相同结果的示例:
import pandas as pd
import re
df = pd.DataFrame({
'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})
# 用于拆分字符串的函数
def split_value(s):
# 查找最后一次出现的 ' - ' 后跟大写字母
match = re.search(r'^(.*?) - ([A-Z\s-]+)$', s)
if match:
return match.group(1), match.group(2)
else:
return s, None
# 将函数应用于 'Value' 列中的每一行
df[['First', 'Last']] = df['Value'].apply(lambda x: split_value(x)).tolist()
print(df)代码解释:
输出:
Value First Last 0 Juan-Diva - HOLLS Juan-Diva HOLLS 1 Carlos - George - ESTE BAN Carlos - George ESTE BAN 2 Javier Plain - Hotham Ham - ALPINE Javier Plain - Hotham Ham ALPINE 3 Yul - KONJ KOL MON Yul KONJ KOL MON
我使用 re.search 函数来根据指定的模式查找匹配项。模式 r'^(.*?) - ([A-Z\s-]+)$' 与上面使用的模式相同。如果找到匹配项,该函数将返回字符串的两个部分;否则,它将返回原始字符串和 'Last' 列的 None。然后将结果转换为列表并分配给新列 'First' 和 'Last'。
总而言之,本文档介绍了两种使用 Pandas 和正则表达式拆分 DataFrame 中列的方法。通过选择合适的方法并根据需要调整正则表达式,你可以高效地处理和转换文本数据。
以上就是使用 Pandas 和正则表达式拆分包含分隔符和全大写值的列的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号