0

0

使用 Pandas 高效处理文本文件中的混合数据与计算

霞舞

霞舞

发布时间:2025-11-30 11:33:21

|

533人浏览过

|

来源于php中文网

原创

使用 pandas 高效处理文本文件中的混合数据与计算

本教程旨在指导读者如何使用 Python 的 Pandas 库高效地读取包含混合数据类型(如字符串前缀与浮点数)的文本文件,并进行数据清洗与数值计算。文章将详细介绍如何利用 Pandas 的 `read_csv` 函数导入数据,通过字符串操作(如正则表达式或切片)提取数值,并将其转换为适当的数据类型,最终演示如何计算列或行的平均值,从而简化数据处理流程。

在数据分析和科学计算中,我们经常需要处理来自各种源的文本文件。这些文件可能包含结构化数据,但也可能混杂着需要清洗的非标准格式。例如,一个常见场景是从 .dat 文件中读取数据,其中某些列的数值前缀带有非数字字符。本教程将展示如何利用强大的 Pandas 库,以一种高效且Pythonic的方式解决这类问题。

1. 理解数据结构与挑战

假设我们有一个 .dat 文件,其中包含三列数据。第一列是时间戳,第二列和第三列是数值,但它们分别以 "SA" 和 "SC" 字符串开头。例如:

9:01:15 SA7.998  SC7.968
9:01:16 SA7.998  SC7.968

我们的目标是读取这些数据,移除第二列和第三列中的 "SA" 和 "SC" 前缀,将剩余的字符串转换为浮点数,然后对这些数值执行计算,例如求平均值。

传统的做法可能涉及逐行读取文件,然后使用字符串分割和切片手动提取和转换数据。虽然这种方法可行,但对于大型数据集来说,它通常效率低下且代码冗长。

2. 使用 Pandas 高效读取与清洗数据

Pandas 库提供了 read_csv 函数,它不仅能处理 CSV 文件,还能灵活地读取其他分隔符的文本文件。

2.1 导入数据

首先,我们需要安装 Pandas 和 NumPy(如果尚未安装):

pip install pandas numpy

然后,使用 pd.read_csv 读取数据。由于文件使用一个或多个空格作为分隔符,且没有标题行,我们需要指定 sep='\s+'、header=None,并为列指定名称:

import pandas as pd
import numpy as np

# 假设文件名为 'serial_2.dat'
file_path = 'serial_2.dat' 

# 读取数据
df = pd.read_csv(file_path, sep='\s+', header=None, names=['time', 's1', 's2'])

print("原始数据框:")
print(df)
print("\n数据类型:")
print(df.dtypes)

输出示例:

原始数据框:
      time      s1      s2
0  9:01:15  SA7.998  SC7.968
1  9:01:16  SA7.998  SC7.968

数据类型:
time    object
s1      object
s2      object
dtype: object

可以看到,s1 和 s2 列被正确读取为字符串(object 类型)。

2.2 清洗数据:提取数值

接下来,我们需要从 s1 和 s2 列中移除前缀并转换为浮点数。Pandas 提供了多种方法来实现这一点。

方法一:使用正则表达式 (str.extract)

ChuangxinCMS企业网站管理系统1.0
ChuangxinCMS企业网站管理系统1.0

欢迎使用ChuangxinCMS企业网站管理系统软件! ChuangxinCMS是一个采用PHP技术和MYSQL数据库开发的企业网站管理系统,使用ChuangxinCMS能在最短的时间内花费最少的成本来搭建一个功能完善的企业网站,ChuangxinCMS具有一系列完善的内容管理功能,包括文章发布、分类管理、产品发布展示、下载模块等,整个系统页面设计简洁大方,功能实用高效,是中小型企业建站的最佳选择

下载

如果前缀的模式可能不固定(例如,不总是两个字符,但总是非数字字符),可以使用正则表达式来提取数字部分。^[\D]+(.*) 这个正则表达式的含义是:

  • ^: 匹配字符串的开头。
  • [\D]+: 匹配一个或多个非数字字符。
  • (.*): 捕获之后的所有字符(这通常是我们的数值部分)。
# 使用正则表达式提取数值
df['s1'] = df['s1'].str.extract('^[\D]+(.*)').astype(float)
df['s2'] = df['s2'].str.extract('^[\D]+(.*)').astype(float)

print("\n使用正则表达式清洗后的数据框:")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)

方法二:使用字符串切片 (str[2:])

如果已知前缀总是固定长度(例如,总是两个字符),那么使用字符串切片会更简洁和高效:

# 假设前缀固定为两个字符,使用字符串切片
df['s1'] = df['s1'].str[2:].astype(float)
df['s2'] = df['s2'].str[2:].astype(float)

print("\n使用字符串切片清洗后的数据框:")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)

两种方法都能达到相同的清洗效果,将 s1 和 s2 列转换为浮点数。

3. 执行数值计算:计算平均值

数据清洗完成后,我们可以对 s1 和 s2 列的数值执行各种计算。

3.1 计算全局平均值

要计算 s1 和 s2 列所有数值的全局平均值,可以使用以下方法:

# 方法一:使用 Pandas 的 mean() 链式调用
global_avg_pandas = df[['s1', 's2']].mean().mean()
print(f"\n全局平均值 (Pandas): {global_avg_pandas:.3f}")

# 方法二:将相关列转换为 NumPy 数组后计算
global_avg_numpy = np.mean(df[['s1', 's2']])
print(f"全局平均值 (NumPy): {global_avg_numpy:.3f}")

这两种方法都会给出 s1 和 s2 列中所有数值的总体平均值。

3.2 计算行平均值

如果需要计算每一行的 s1 和 s2 的平均值,并将结果作为新列添加到数据框中,可以使用 mean(axis=1):

# 计算行平均值并添加新列
df['avg'] = df[['s1', 's2']].mean(axis=1)

print("\n添加行平均值列后的数据框:")
print(df)

输出示例:

添加行平均值列后的数据框:
      time     s1     s2    avg
0  9:01:15  7.998  7.968  7.983
1  9:01:16  7.998  7.968  7.983

4. 完整示例代码

下面是整合了上述步骤的完整代码示例,用于处理 serial_2.dat 文件:

import pandas as pd
import numpy as np
import os # 用于创建示例文件

# --- 创建一个示例 .dat 文件 ---
# 在实际应用中,您会直接读取现有文件
file_content = """9:01:15 SA7.998  SC7.968
9:01:16 SA7.998  SC7.968
9:01:17 SA8.001  SC7.971
9:01:18 SA7.999  SC7.969
"""
file_path = 'serial_2.dat'
with open(file_path, 'w') as f:
    f.write(file_content)
print(f"已创建示例文件: {file_path}\n")
# -----------------------------

# 1. 读取数据
df = pd.read_csv(file_path, sep='\s+', header=None, names=['time', 's1', 's2'])
print("--- 原始数据框 ---")
print(df)
print("\n原始数据类型:")
print(df.dtypes)

# 2. 清洗数据:移除前缀并转换为浮点数
# 假设前缀固定为两个字符,使用字符串切片
df['s1'] = df['s1'].str[2:].astype(float)
df['s2'] = df['s2'].str[2:].astype(float)

# 如果前缀不固定,可以使用正则表达式:
# df['s1'] = df['s1'].str.extract('^[\D]+(.*)').astype(float)
# df['s2'] = df['s2'].str.extract('^[\D]+(.*)').astype(float)

print("\n--- 清洗后的数据框 ---")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)

# 3. 执行计算:计算平均值

# 3.1 计算全局平均值
global_avg_pandas = df[['s1', 's2']].mean().mean()
print(f"\n--- 计算结果 ---")
print(f"s1 和 s2 列的全局平均值 (Pandas): {global_avg_pandas:.3f}")

global_avg_numpy = np.mean(df[['s1', 's2']])
print(f"s1 和 s2 列的全局平均值 (NumPy): {global_avg_numpy:.3f}")

# 3.2 计算行平均值并添加新列
df['avg_row'] = df[['s1', 's2']].mean(axis=1)
print("\n--- 添加行平均值列后的数据框 ---")
print(df)

# --- 清理示例文件 (可选) ---
# os.remove(file_path)
# print(f"\n已删除示例文件: {file_path}")
# -----------------------------

总结

本教程详细介绍了如何使用 Python Pandas 库处理包含非标准格式数据的文本文件。通过 pd.read_csv 可以灵活地导入数据,而 Pandas 的 str 访问器结合字符串切片或正则表达式,则能高效地进行数据清洗和类型转换。最后,我们演示了如何利用 Pandas 和 NumPy 的聚合函数轻松计算全局和行级别的平均值。掌握这些技术,将大大提高您处理结构化和半结构化数据的效率和代码可读性

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

219

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

356

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

244

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号