0

0

Pandas DataFrame中日期字符串的清洗与标准化

花韻仙語

花韻仙語

发布时间:2025-10-10 14:16:16

|

388人浏览过

|

来源于php中文网

原创

Pandas DataFrame中日期字符串的清洗与标准化

本文旨在提供多种有效策略,用于清洗Pandas DataFrame中格式不一、包含特殊字符的日期字符串。我们将探讨如何利用pd.to_datetime进行直接转换,以及如何结合正则表达式和str.extract、str.replace方法,精确提取并标准化日期格式,以应对复杂的数据清洗需求。

在数据分析实践中,我们经常会遇到包含非标准日期格式、多余字符或不一致分隔符的日期字符串。这些“脏数据”阻碍了直接的日期时间转换或后续的分析操作。本教程将以一个典型的dataframe为例,展示如何通过pandas的强大功能来解决此类问题。

初始数据结构

假设我们有一个DataFrame,其中包含一个名为date的列,其内容格式多样,如下所示:

import pandas as pd
import io

data = """id date
1  '  : 07/01/2020 23:25'
2  ': 07/02/2020'
3  ' 07/03/2020 23:25 1'
4  '07/04/2020'
5  '23:50 07/05/2020'
6  '07 06 2023'
7  '00:00 07 07 2023'"""

df = pd.read_csv(io.StringIO(data), sep=r'\s{2,}', engine='python')
df['date'] = df['date'].str.strip("' ") # 清理引号和多余空格
print("原始DataFrame:")
print(df)

输出的DataFrame df 如下:

原始DataFrame:
   id                  date
0   1    : 07/01/2020 23:25
1   2          : 07/02/2020
2   3    07/03/2020 23:25 1
3   4            07/04/2020
4   5      23:50 07/05/2020
5   6            07 06 2023
6   7      00:00 07 07 2023

我们的目标是从date列中提取出DD/MM/YYYY格式的日期,并将其标准化。

方法一:利用 pd.to_datetime 进行智能转换

如果最终目标是将这些字符串转换为Pandas的datetime对象,并且字符串中包含的日期格式相对规整,即使有额外的字符,pd.to_datetime函数也能通过设置exact=False参数进行灵活处理。exact=False允许解析器在字符串中查找符合指定格式的部分进行转换,忽略不匹配的部分。

df['datetime_out'] = pd.to_datetime(df['date'], format='%d/%m/%Y', exact=False)
print("\n使用 pd.to_datetime 转换后的DataFrame:")
print(df)

输出结果:

Remover
Remover

几秒钟去除图中不需要的元素

下载
使用 pd.to_datetime 转换后的DataFrame:
   id                  date datetime_out
0   1    : 07/01/2020 23:25   2020-01-07
1   2          : 07/02/2020   2020-02-07
2   3    07/03/2020 23:25 1   2020-03-07
4   4            07/04/2020   2020-04-07
5   5      23:50 07/05/2020   2020-05-07
6   6            07 06 2023   2023-06-07
7   7      00:00 07 07 2023   2023-07-07

注意事项:

  • format='%d/%m/%Y' 指定了期望的日期顺序和分隔符。即使原始字符串是MM/DD/YYYY或其他格式,exact=False会尽力匹配。如果格式差异太大,可能导致NaT(Not a Time)值。
  • 此方法直接生成datetime对象,而非清洗后的字符串。如果需要清洗后的字符串,请考虑下一方法。

方法二:使用正则表达式和 str.extract 提取特定格式日期

当需要从复杂字符串中精确提取特定模式的日期字符串,并保留其字符串形式时,正则表达式结合Pandas的str.extract方法是理想选择。

2.1 提取 / 分隔的日期

首先,我们针对以斜杠/分隔的DD/MM/YYYY格式进行提取。

# 定义正则表达式,匹配 DD/MM/YYYY 格式
# \d{2} 匹配两位数字,\/ 匹配斜杠
regex_slash_date = r'(\d{2}\/\d{2}\/\d{4})'
df['clean_slash_date'] = df['date'].str.extract(regex_slash_date, expand=False)
print("\n使用 str.extract (斜杠分隔) 后的DataFrame:")
print(df)

输出结果:

使用 str.extract (斜杠分隔) 后的DataFrame:
   id                  date datetime_out clean_slash_date
0   1    : 07/01/2020 23:25   2020-01-07       07/01/2020
1   2          : 07/02/2020   2020-02-07       07/02/2020
2   3    07/03/2020 23:25 1   2020-03-07       07/03/2020
3   4            07/04/2020   2020-04-07       07/04/2020
4   5      23:50 07/05/2020   2020-05-07       07/05/2020
5   6            07 06 2023   2023-06-07              NaN
6   7      00:00 07 07 2023   2023-07-07              NaN

分析:

  • str.extract(regex, expand=False) 会返回一个Series,包含匹配到的第一个捕获组。
  • 对于07 06 2023这类以空格分隔的日期,此正则表达式无法匹配,因此对应的值为NaN。

2.2 提取包含 / 或空格分隔的日期并标准化

为了处理日期中可能出现的斜杠/或空格`作为分隔符的情况,我们需要修改正则表达式,并结合str.replace`进行标准化。

# 定义更灵活的正则表达式,匹配 DD/MM/YYYY 或 DD MM YYYY 格式
# [ /] 匹配一个空格或一个斜杠
regex_flexible_date = r'(\d{2}[ /]\d{2}[ /]\d{4})'

df['clean_date_str'] = (df['date']
                        .str.extract(regex_flexible_date, expand=False)
                        .str.replace(' ', '/') # 将空格分隔符替换为斜杠
                       )
print("\n使用 str.extract (灵活分隔符) 和 str.replace 后的DataFrame:")
print(df)

输出结果:

使用 str.extract (灵活分隔符) 和 str.replace 后的DataFrame:
   id                  date datetime_out clean_slash_date clean_date_str
0   1    : 07/01/2020 23:25   2020-01-07       07/01/2020     07/01/2020
1   2          : 07/02/2020   2020-02-07       07/02/2020     07/02/2020
2   3    07/03/2020 23:25 1   2020-03-07       07/03/2020     07/03/2020
3   4            07/04/2020   2020-04-07       07/04/2020     07/04/2020
4   5      23:50 07/05/2020   2020-05-07       07/05/2020     07/05/2020
5   6            07 06 2023   2023-06-07              NaN     07/06/2023
6   7      00:00 07 07 2023   2023-07-07              NaN     07/07/2023

分析:

  • 新的正则表达式 (\d{2}[ /]\d{2}[ /]\d{4}) 能够匹配日期中的分隔符是空格或斜杠的情况。
  • 紧接着使用 .str.replace(' ', '/') 将所有匹配到的日期字符串中的空格替换为斜杠,从而实现了日期格式的统一标准化。
  • 这种方法成功处理了所有原始数据中的日期格式,并得到了我们期望的DD/MM/YYYY字符串形式。

总结与最佳实践

清洗DataFrame中的日期字符串是一个常见但具有挑战性的任务。根据您的具体需求,可以选择不同的策略:

  1. 直接转换为 datetime 对象 (pd.to_datetime):

    • 优点: 最直接的方式,如果目标是进行日期时间计算或排序,此方法效率高。exact=False提供了强大的容错能力。
    • 缺点: 无法直接得到清洗后的日期字符串,且对完全不匹配的格式可能返回NaT。
  2. 提取并标准化日期字符串 (str.extract + str.replace):

    • 优点: 提供了对日期字符串格式的精细控制,能够从复杂字符串中精确提取所需模式,并统一分隔符。
    • 缺点: 需要对正则表达式有一定了解,且处理逻辑可能比pd.to_datetime稍复杂。

在实际应用中,通常建议先尝试使用pd.to_datetime进行转换,因为它更为便捷。如果pd.to_datetime无法满足需求(例如,需要特定格式的字符串输出,或者日期格式过于混乱以至于exact=False也无法处理),那么转向使用正则表达式和str.extract进行模式匹配和清洗将是更强大的解决方案。熟练掌握这两种方法,将大大提高您在Pandas中处理日期数据的能力。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

510

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

248

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

741

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

213

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

351

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

232

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 4.3万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号