Pandas DataFrame中不规则日期字符串的清洗与标准化

心靈之曲

发布时间：2025-10-09 13:14:00

915人浏览过

来源于php中文网

原创

Pandas DataFrame中不规则日期字符串的清洗与标准化

本文详细介绍了如何在Pandas DataFrame中处理包含特殊字符或不规则格式的日期字符串。通过利用pd.to_datetime函数的exact=False参数进行灵活转换，或结合正则表达式str.extract和str.replace方法精确提取并标准化日期格式，即使面对复杂多变的日期字符串，也能高效地将其清洗为统一的日期对象或标准字符串格式，从而为后续数据分析奠定基础。

在数据分析实践中，我们经常会遇到dataframe中日期列包含非标准格式或额外字符的情况。例如，日期字符串可能混杂着时间、冒号、空格甚至不相关的数字。直接使用简单的字符串分割或替换操作往往无法满足需求，甚至可能导致数据丢失或格式错误。本文将探讨两种专业且高效的方法来解决这类问题：一是利用pandas内置的日期时间转换功能，二是结合正则表达式进行精确的字符串提取和标准化。

初始数据场景

假设我们有一个Pandas DataFrame，其中date列包含以下不规则的日期字符串：

import pandas as pd
import io

data = """id date
1  '  : 07/01/2020 23:25'
2  ': 07/02/2020'
3  ' 07/03/2020 23:25 1'
4  '07/04/2020'
5  '23:50 07/05/2020'
6  '07 06 2023'
7  '00:00 07 07 2023'
"""
df = pd.read_csv(io.StringIO(data), sep=r'\s{2,}', engine='python')
df['date'] = df['date'].str.strip("'") # 移除单引号
print("原始DataFrame:")
print(df)

输出：

Chromox

Chromox是一款领先的AI在线生成平台，专为喜欢AI生成技术的爱好者制作的多种图像、视频生成方式的内容型工具平台。

下载

原始DataFrame:
   id                  date
0   1    : 07/01/2020 23:25
1   2          : 07/02/2020
2   3    07/03/2020 23:25 1
3   4            07/04/2020
4   5      23:50 07/05/2020
5   6            07 06 2023
6   7      00:00 07 07 2023

我们的目标是从date列中提取出MM/DD/YYYY或DD/MM/YYYY格式的日期，并将其标准化。

方法一：利用 pd.to_datetime 的灵活解析能力

如果最终目的是将字符串转换为Pandas的datetime对象，pd.to_datetime函数提供了一个非常强大的参数exact=False。当exact=False时，pd.to_datetime会尝试从字符串中解析出日期时间信息，即使字符串中包含额外的字符。结合format参数指定预期的日期格式，可以有效处理不规则数据。

# 假设日期格式为 DD/MM/YYYY
df['parsed_datetime'] = pd.to_datetime(df['date'], format='%d/%m/%Y', exact=False)
print("\n使用 pd.to_datetime(exact=False) 转换后的DataFrame:")
print(df)

输出：

使用 pd.to_datetime(exact=False) 转换后的DataFrame:
   id                  date parsed_datetime
0   1    : 07/01/2020 23:25      2020-01-07
1   2          : 07/02/2020      2020-02-07
2   3    07/03/2020 23:25 1      2020-03-07
4   4            07/04/2020      2020-04-07
5   5      23:50 07/05/2020      2020-05-07
6   6            07 06 2023      2023-06-07
7   7      00:00 07 07 2023      2023-07-07

注意事项：

format参数仍然很重要，它告诉Pandas日期部分的预期顺序（例如，%d/%m/%Y表示日月年）。
exact=False使得解析器在遇到不符合format的额外字符时不会立即报错，而是尝试跳过它们并找到匹配的日期部分。
这种方法直接生成datetime对象，非常适合需要进行日期时间计算和比较的场景。如果只需要字符串形式的日期，可以后续通过dt.strftime('%d/%m/%Y')转换回来。

方法二：使用正则表达式 str.extract 进行精确提取和标准化

如果需要将日期提取为特定的字符串格式，或者pd.to_datetime无法满足所有复杂情况，正则表达式结合str.extract是更灵活的选择。

2.1 提取标准斜杠分隔的日期

首先，我们定义一个正则表达式来匹配DD/MM/YYYY这种精确格式的日期。

# 匹配 DD/MM/YYYY 格式的日期
# (\d{2}\/\d{2}\/\d{4})：捕获两数字/两数字/四数字的模式
df['extracted_date_slash'] = df['date'].str.extract(r'(\d{2}\/\d{2}\/\d{4})')
print("\n使用 str.extract 提取斜杠分隔日期后的DataFrame:")
print(df)

输出：

使用 str.extract 提取斜杠分隔日期后的DataFrame:
   id                  date parsed_datetime extracted_date_slash
0   1    : 07/01/2020 23:25      2020-01-07           07/01/2020
1   2          : 07/02/2020      2020-02-07           07/02/2020
2   3    07/03/2020 23:25 1      2020-03-07           07/03/2020
3   4            07/04/2020      2020-04-07           07/04/2020
4   5      23:50 07/05/2020      2020-05-07           07/05/2020
5   6            07 06 2023      2023-06-07                  NaN
6   7      00:00 07 07 2023      2023-07-07                  NaN

可以看到，对于第5、6行中以空格分隔日期的条目，此正则表达式无法匹配，导致结果为NaN。

2.2 处理多种分隔符并标准化

为了处理日期中可能出现的多种分隔符（例如斜杠/或空格`），我们可以修改正则表达式，并结合str.replace`进行标准化。

# 匹配 DD/MM/YYYY 或 DD MM YYYY 格式的日期
# (\d{2}[ /]\d{2}[ /]\d{4})：捕获两数字后跟斜杠或空格，重复两次，再跟四数字
df['cleaned_date_str'] = (df['date']
                          .str.extract(r'(\d{2}[ /]\d{2}[ /]\d{4})', expand=False)
                          .str.replace(' ', '/') # 将所有空格分隔符替换为斜杠
                         )
print("\n使用 str.extract 结合 str.replace 提取并标准化日期后的DataFrame:")
print(df)

输出：

使用 str.extract 结合 str.replace 提取并标准化日期后的DataFrame:
   id                  date parsed_datetime extracted_date_slash cleaned_date_str
0   1    : 07/01/2020 23:25      2020-01-07           07/01/2020       07/01/2020
1   2          : 07/02/2020      2020-02-07           07/02/2020       07/02/2020
2   3    07/03/2020 23:25 1      2020-03-07           07/03/2020       07/03/2020
3   4            07/04/2020      2020-04-07           07/04/2020       07/04/2020
4   5      23:50 07/05/2020      2020-05-07           07/05/2020       07/05/2020
5   6            07 06 2023      2023-06-07                  NaN       07/06/2023
6   7      00:00 07 07 2023      2023-07-07                  NaN       07/07/2023

现在，cleaned_date_str列成功提取并标准化了所有日期的字符串表示，包括原始数据中用空格分隔的日期。

注意事项：

expand=False参数确保str.extract返回一个Series而不是DataFrame，方便后续链式操作。
正则表达式中的[ /]表示匹配一个空格或一个斜杠。
str.replace(' ', '/')用于将所有匹配到的空格分隔符统一替换为斜杠，实现日期字符串的标准化。

总结与最佳实践

在处理Pandas DataFrame中不规则的日期字符串时，选择合适的方法取决于你的最终需求：

如果目标是获取datetime对象进行日期时间计算和分析：优先考虑使用pd.to_datetime配合format和exact=False。这种方法通常更简洁，且能直接提供Pandas强大的日期时间功能。
如果目标是提取并标准化日期字符串，或者遇到pd.to_datetime难以处理的极端复杂模式：正则表达式str.extract是你的利器。通过精细设计的正则表达式，你可以精确地捕获所需信息，并结合str.replace等方法进行后续的字符串清理和标准化。

通用建议：

明确日期格式：在应用任何方法之前，尽量了解数据中可能存在的日期格式变体。
错误处理：对于pd.to_datetime，可以添加errors='coerce'参数，将无法解析的值转换为NaT（Not a Time），而不是抛出错误。
逐步测试：对于复杂的正则表达式，建议在少量数据上进行测试，逐步完善，确保其准确性。

通过掌握上述方法，你将能够高效、准确地清洗和标准化Pandas DataFrame中的日期数据，为后续的数据分析工作打下坚实的基础。

Python asyncio.sleep怎么用_模拟异步非阻塞耗时操作切出控制权替代time.sleep()

Python多数元素怎么找_摩尔投票法O(1)空间寻找众数

Python爬虫重试机制怎么写_Tenacity库装饰器实现网络异常自动重试与退避策略

Python异步上下文管理器_async with使用与__aenter__及__aexit__魔法方法实现资源管理

Python断言怎么写_assert语句在代码调试与校验中的作用

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

530

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板