使用 Pandas 高效处理文本文件中的混合数据与计算-Python教程-PHP中文网

使用 Pandas 高效处理文本文件中的混合数据与计算

霞舞

发布： 2025-11-30 11:33:21

原创

493人浏览过

使用 pandas 高效处理文本文件中的混合数据与计算

本教程旨在指导读者如何使用 Python 的 Pandas 库高效地读取包含混合数据类型（如字符串前缀与浮点数）的文本文件，并进行数据清洗与数值计算。文章将详细介绍如何利用 Pandas 的 `read_csv` 函数导入数据，通过字符串操作（如正则表达式或切片）提取数值，并将其转换为适当的数据类型，最终演示如何计算列或行的平均值，从而简化数据处理流程。

在数据分析和科学计算中，我们经常需要处理来自各种源的文本文件。这些文件可能包含结构化数据，但也可能混杂着需要清洗的非标准格式。例如，一个常见场景是从 .dat 文件中读取数据，其中某些列的数值前缀带有非数字字符。本教程将展示如何利用强大的 Pandas 库，以一种高效且Pythonic的方式解决这类问题。

1. 理解数据结构与挑战

假设我们有一个 .dat 文件，其中包含三列数据。第一列是时间戳，第二列和第三列是数值，但它们分别以 "SA" 和 "SC" 字符串开头。例如：

9:01:15 SA7.998  SC7.968
9:01:16 SA7.998  SC7.968

登录后复制

我们的目标是读取这些数据，移除第二列和第三列中的 "SA" 和 "SC" 前缀，将剩余的字符串转换为浮点数，然后对这些数值执行计算，例如求平均值。

传统的做法可能涉及逐行读取文件，然后使用字符串分割和切片手动提取和转换数据。虽然这种方法可行，但对于大型数据集来说，它通常效率低下且代码冗长。

2. 使用 Pandas 高效读取与清洗数据

Pandas 库提供了 read_csv 函数，它不仅能处理 CSV 文件，还能灵活地读取其他分隔符的文本文件。

2.1 导入数据

首先，我们需要安装 Pandas 和 NumPy（如果尚未安装）：

pip install pandas numpy

登录后复制

然后，使用 pd.read_csv 读取数据。由于文件使用一个或多个空格作为分隔符，且没有标题行，我们需要指定 sep='\s+'、header=None，并为列指定名称：

import pandas as pd
import numpy as np

# 假设文件名为 'serial_2.dat'
file_path = 'serial_2.dat' 

# 读取数据
df = pd.read_csv(file_path, sep='\s+', header=None, names=['time', 's1', 's2'])

print("原始数据框：")
print(df)
print("\n数据类型：")
print(df.dtypes)

登录后复制

输出示例：

原始数据框：
      time      s1      s2
0  9:01:15  SA7.998  SC7.968
1  9:01:16  SA7.998  SC7.968

数据类型：
time    object
s1      object
s2      object
dtype: object

登录后复制

可以看到，s1 和 s2 列被正确读取为字符串（object 类型）。

2.2 清洗数据：提取数值

接下来，我们需要从 s1 和 s2 列中移除前缀并转换为浮点数。Pandas 提供了多种方法来实现这一点。

方法一：使用正则表达式 (str.extract)

基于VC与Matlab的混合编程实现图像的三维显示 WORD版

本文档主要讲述的是基于VC与Matlab的混合编程实现图像的三维显示；介绍了VC++与Matlab混合编程的一般实现方法，并实现对二维影像图的三维效果显示。 MATLAB既是一种直观、高效的计算机语言,同时又是一个科学计算平台。它为数据分析和数据可视化、算法和应用程序开发提供了最核心的数学和高级图形工具。希望本文档会给有需要的朋友带来帮助；感兴趣的朋友可以过来看看

查看详情

如果前缀的模式可能不固定（例如，不总是两个字符，但总是非数字字符），可以使用正则表达式来提取数字部分。^[\D]+(.*) 这个正则表达式的含义是：

^: 匹配字符串的开头。
[\D]+: 匹配一个或多个非数字字符。
(.*): 捕获之后的所有字符（这通常是我们的数值部分）。

# 使用正则表达式提取数值
df['s1'] = df['s1'].str.extract('^[\D]+(.*)').astype(float)
df['s2'] = df['s2'].str.extract('^[\D]+(.*)').astype(float)

print("\n使用正则表达式清洗后的数据框：")
print(df)
print("\n清洗后数据类型：")
print(df.dtypes)

登录后复制

方法二：使用字符串切片 (str[2:])

如果已知前缀总是固定长度（例如，总是两个字符），那么使用字符串切片会更简洁和高效：

# 假设前缀固定为两个字符，使用字符串切片
df['s1'] = df['s1'].str[2:].astype(float)
df['s2'] = df['s2'].str[2:].astype(float)

print("\n使用字符串切片清洗后的数据框：")
print(df)
print("\n清洗后数据类型：")
print(df.dtypes)

登录后复制

两种方法都能达到相同的清洗效果，将 s1 和 s2 列转换为浮点数。

3. 执行数值计算：计算平均值

数据清洗完成后，我们可以对 s1 和 s2 列的数值执行各种计算。

3.1 计算全局平均值

要计算 s1 和 s2 列所有数值的全局平均值，可以使用以下方法：

# 方法一：使用 Pandas 的 mean() 链式调用
global_avg_pandas = df[['s1', 's2']].mean().mean()
print(f"\n全局平均值 (Pandas): {global_avg_pandas:.3f}")

# 方法二：将相关列转换为 NumPy 数组后计算
global_avg_numpy = np.mean(df[['s1', 's2']])
print(f"全局平均值 (NumPy): {global_avg_numpy:.3f}")

登录后复制

这两种方法都会给出 s1 和 s2 列中所有数值的总体平均值。

3.2 计算行平均值

如果需要计算每一行的 s1 和 s2 的平均值，并将结果作为新列添加到数据框中，可以使用 mean(axis=1)：

# 计算行平均值并添加新列
df['avg'] = df[['s1', 's2']].mean(axis=1)

print("\n添加行平均值列后的数据框：")
print(df)

登录后复制

输出示例：

添加行平均值列后的数据框：
      time     s1     s2    avg
0  9:01:15  7.998  7.968  7.983
1  9:01:16  7.998  7.968  7.983

登录后复制

4. 完整示例代码

下面是整合了上述步骤的完整代码示例，用于处理 serial_2.dat 文件：

import pandas as pd
import numpy as np
import os # 用于创建示例文件

# --- 创建一个示例 .dat 文件 ---
# 在实际应用中，您会直接读取现有文件
file_content = """9:01:15 SA7.998  SC7.968
9:01:16 SA7.998  SC7.968
9:01:17 SA8.001  SC7.971
9:01:18 SA7.999  SC7.969
"""
file_path = 'serial_2.dat'
with open(file_path, 'w') as f:
    f.write(file_content)
print(f"已创建示例文件: {file_path}\n")
# -----------------------------

# 1. 读取数据
df = pd.read_csv(file_path, sep='\s+', header=None, names=['time', 's1', 's2'])
print("--- 原始数据框 ---")
print(df)
print("\n原始数据类型:")
print(df.dtypes)

# 2. 清洗数据：移除前缀并转换为浮点数
# 假设前缀固定为两个字符，使用字符串切片
df['s1'] = df['s1'].str[2:].astype(float)
df['s2'] = df['s2'].str[2:].astype(float)

# 如果前缀不固定，可以使用正则表达式：
# df['s1'] = df['s1'].str.extract('^[\D]+(.*)').astype(float)
# df['s2'] = df['s2'].str.extract('^[\D]+(.*)').astype(float)

print("\n--- 清洗后的数据框 ---")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)

# 3. 执行计算：计算平均值

# 3.1 计算全局平均值
global_avg_pandas = df[['s1', 's2']].mean().mean()
print(f"\n--- 计算结果 ---")
print(f"s1 和 s2 列的全局平均值 (Pandas): {global_avg_pandas:.3f}")

global_avg_numpy = np.mean(df[['s1', 's2']])
print(f"s1 和 s2 列的全局平均值 (NumPy): {global_avg_numpy:.3f}")

# 3.2 计算行平均值并添加新列
df['avg_row'] = df[['s1', 's2']].mean(axis=1)
print("\n--- 添加行平均值列后的数据框 ---")
print(df)

# --- 清理示例文件 (可选) ---
# os.remove(file_path)
# print(f"\n已删除示例文件: {file_path}")
# -----------------------------

登录后复制

总结

本教程详细介绍了如何使用 Python Pandas 库处理包含非标准格式数据的文本文件。通过 pd.read_csv 可以灵活地导入数据，而 Pandas 的 str 访问器结合字符串切片或正则表达式，则能高效地进行数据清洗和类型转换。最后，我们演示了如何利用 Pandas 和 NumPy 的聚合函数轻松计算全局和行级别的平均值。掌握这些技术，将大大提高您处理结构化和半结构化数据的效率和代码可读性。

以上就是使用 Pandas 高效处理文本文件中的混合数据与计算的详细内容，更多请关注php中文网其它相关文章！