使用 Pandas 高效处理文本文件中的混合数据与计算

霞舞
发布: 2025-11-30 11:33:21
原创
493人浏览过

使用 pandas 高效处理文本文件中的混合数据与计算

本教程旨在指导读者如何使用 Python 的 Pandas 库高效地读取包含混合数据类型(如字符串前缀与浮点数)的文本文件,并进行数据清洗与数值计算。文章将详细介绍如何利用 Pandas 的 `read_csv` 函数导入数据,通过字符串操作(如正则表达式或切片)提取数值,并将其转换为适当的数据类型,最终演示如何计算列或行的平均值,从而简化数据处理流程。

在数据分析和科学计算中,我们经常需要处理来自各种源的文本文件。这些文件可能包含结构化数据,但也可能混杂着需要清洗的非标准格式。例如,一个常见场景是从 .dat 文件中读取数据,其中某些列的数值前缀带有非数字字符。本教程将展示如何利用强大的 Pandas 库,以一种高效且Pythonic的方式解决这类问题。

1. 理解数据结构与挑战

假设我们有一个 .dat 文件,其中包含三列数据。第一列是时间戳,第二列和第三列是数值,但它们分别以 "SA" 和 "SC" 字符串开头。例如:

9:01:15 SA7.998  SC7.968
9:01:16 SA7.998  SC7.968
登录后复制

我们的目标是读取这些数据,移除第二列和第三列中的 "SA" 和 "SC" 前缀,将剩余的字符串转换为浮点数,然后对这些数值执行计算,例如求平均值。

传统的做法可能涉及逐行读取文件,然后使用字符串分割和切片手动提取和转换数据。虽然这种方法可行,但对于大型数据集来说,它通常效率低下且代码冗长。

2. 使用 Pandas 高效读取与清洗数据

Pandas 库提供了 read_csv 函数,它不仅能处理 CSV 文件,还能灵活地读取其他分隔符的文本文件。

2.1 导入数据

首先,我们需要安装 Pandas 和 NumPy(如果尚未安装):

pip install pandas numpy
登录后复制

然后,使用 pd.read_csv 读取数据。由于文件使用一个或多个空格作为分隔符,且没有标题行,我们需要指定 sep='\s+'、header=None,并为列指定名称:

import pandas as pd
import numpy as np

# 假设文件名为 'serial_2.dat'
file_path = 'serial_2.dat' 

# 读取数据
df = pd.read_csv(file_path, sep='\s+', header=None, names=['time', 's1', 's2'])

print("原始数据框:")
print(df)
print("\n数据类型:")
print(df.dtypes)
登录后复制

输出示例:

原始数据框:
      time      s1      s2
0  9:01:15  SA7.998  SC7.968
1  9:01:16  SA7.998  SC7.968

数据类型:
time    object
s1      object
s2      object
dtype: object
登录后复制

可以看到,s1 和 s2 列被正确读取为字符串(object 类型)。

2.2 清洗数据:提取数值

接下来,我们需要从 s1 和 s2 列中移除前缀并转换为浮点数。Pandas 提供了多种方法来实现这一点。

方法一:使用正则表达式 (str.extract)

基于VC与Matlab的混合编程实现图像的三维显示 WORD版
基于VC与Matlab的混合编程实现图像的三维显示 WORD版

本文档主要讲述的是基于VC与Matlab的混合编程实现图像的三维显示;介绍了VC++与Matlab混合编程的一般实现方法,并实现对二维影像图的三维效果显示。 MATLAB既是一种直观、高效的计算机语言,同时又是一个科学计算平台。它为数据分析和数据可视化、算法和应用程序开发提供了最核心的数学和高级图形工具。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看

基于VC与Matlab的混合编程实现图像的三维显示 WORD版 9
查看详情 基于VC与Matlab的混合编程实现图像的三维显示 WORD版

如果前缀的模式可能不固定(例如,不总是两个字符,但总是非数字字符),可以使用正则表达式来提取数字部分。^[\D]+(.*) 这个正则表达式的含义是:

  • ^: 匹配字符串的开头。
  • [\D]+: 匹配一个或多个非数字字符。
  • (.*): 捕获之后的所有字符(这通常是我们的数值部分)。
# 使用正则表达式提取数值
df['s1'] = df['s1'].str.extract('^[\D]+(.*)').astype(float)
df['s2'] = df['s2'].str.extract('^[\D]+(.*)').astype(float)

print("\n使用正则表达式清洗后的数据框:")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)
登录后复制

方法二:使用字符串切片 (str[2:])

如果已知前缀总是固定长度(例如,总是两个字符),那么使用字符串切片会更简洁和高效:

# 假设前缀固定为两个字符,使用字符串切片
df['s1'] = df['s1'].str[2:].astype(float)
df['s2'] = df['s2'].str[2:].astype(float)

print("\n使用字符串切片清洗后的数据框:")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)
登录后复制

两种方法都能达到相同的清洗效果,将 s1 和 s2 列转换为浮点数。

3. 执行数值计算:计算平均值

数据清洗完成后,我们可以对 s1 和 s2 列的数值执行各种计算。

3.1 计算全局平均值

要计算 s1 和 s2 列所有数值的全局平均值,可以使用以下方法:

# 方法一:使用 Pandas 的 mean() 链式调用
global_avg_pandas = df[['s1', 's2']].mean().mean()
print(f"\n全局平均值 (Pandas): {global_avg_pandas:.3f}")

# 方法二:将相关列转换为 NumPy 数组后计算
global_avg_numpy = np.mean(df[['s1', 's2']])
print(f"全局平均值 (NumPy): {global_avg_numpy:.3f}")
登录后复制

这两种方法都会给出 s1 和 s2 列中所有数值的总体平均值。

3.2 计算行平均值

如果需要计算每一行的 s1 和 s2 的平均值,并将结果作为新列添加到数据框中,可以使用 mean(axis=1):

# 计算行平均值并添加新列
df['avg'] = df[['s1', 's2']].mean(axis=1)

print("\n添加行平均值列后的数据框:")
print(df)
登录后复制

输出示例:

添加行平均值列后的数据框:
      time     s1     s2    avg
0  9:01:15  7.998  7.968  7.983
1  9:01:16  7.998  7.968  7.983
登录后复制

4. 完整示例代码

下面是整合了上述步骤的完整代码示例,用于处理 serial_2.dat 文件:

import pandas as pd
import numpy as np
import os # 用于创建示例文件

# --- 创建一个示例 .dat 文件 ---
# 在实际应用中,您会直接读取现有文件
file_content = """9:01:15 SA7.998  SC7.968
9:01:16 SA7.998  SC7.968
9:01:17 SA8.001  SC7.971
9:01:18 SA7.999  SC7.969
"""
file_path = 'serial_2.dat'
with open(file_path, 'w') as f:
    f.write(file_content)
print(f"已创建示例文件: {file_path}\n")
# -----------------------------

# 1. 读取数据
df = pd.read_csv(file_path, sep='\s+', header=None, names=['time', 's1', 's2'])
print("--- 原始数据框 ---")
print(df)
print("\n原始数据类型:")
print(df.dtypes)

# 2. 清洗数据:移除前缀并转换为浮点数
# 假设前缀固定为两个字符,使用字符串切片
df['s1'] = df['s1'].str[2:].astype(float)
df['s2'] = df['s2'].str[2:].astype(float)

# 如果前缀不固定,可以使用正则表达式:
# df['s1'] = df['s1'].str.extract('^[\D]+(.*)').astype(float)
# df['s2'] = df['s2'].str.extract('^[\D]+(.*)').astype(float)

print("\n--- 清洗后的数据框 ---")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)

# 3. 执行计算:计算平均值

# 3.1 计算全局平均值
global_avg_pandas = df[['s1', 's2']].mean().mean()
print(f"\n--- 计算结果 ---")
print(f"s1 和 s2 列的全局平均值 (Pandas): {global_avg_pandas:.3f}")

global_avg_numpy = np.mean(df[['s1', 's2']])
print(f"s1 和 s2 列的全局平均值 (NumPy): {global_avg_numpy:.3f}")

# 3.2 计算行平均值并添加新列
df['avg_row'] = df[['s1', 's2']].mean(axis=1)
print("\n--- 添加行平均值列后的数据框 ---")
print(df)

# --- 清理示例文件 (可选) ---
# os.remove(file_path)
# print(f"\n已删除示例文件: {file_path}")
# -----------------------------
登录后复制

总结

本教程详细介绍了如何使用 Python Pandas 库处理包含非标准格式数据的文本文件。通过 pd.read_csv 可以灵活地导入数据,而 Pandas 的 str 访问器结合字符串切片或正则表达式,则能高效地进行数据清洗和类型转换。最后,我们演示了如何利用 Pandas 和 NumPy 的聚合函数轻松计算全局和行级别的平均值。掌握这些技术,将大大提高您处理结构化和半结构化数据的效率和代码可读性

以上就是使用 Pandas 高效处理文本文件中的混合数据与计算的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号