
本教程旨在指导读者如何使用 Python 的 Pandas 库高效地读取包含混合数据类型(如字符串前缀与浮点数)的文本文件,并进行数据清洗与数值计算。文章将详细介绍如何利用 Pandas 的 `read_csv` 函数导入数据,通过字符串操作(如正则表达式或切片)提取数值,并将其转换为适当的数据类型,最终演示如何计算列或行的平均值,从而简化数据处理流程。
在数据分析和科学计算中,我们经常需要处理来自各种源的文本文件。这些文件可能包含结构化数据,但也可能混杂着需要清洗的非标准格式。例如,一个常见场景是从 .dat 文件中读取数据,其中某些列的数值前缀带有非数字字符。本教程将展示如何利用强大的 Pandas 库,以一种高效且Pythonic的方式解决这类问题。
假设我们有一个 .dat 文件,其中包含三列数据。第一列是时间戳,第二列和第三列是数值,但它们分别以 "SA" 和 "SC" 字符串开头。例如:
9:01:15 SA7.998 SC7.968 9:01:16 SA7.998 SC7.968
我们的目标是读取这些数据,移除第二列和第三列中的 "SA" 和 "SC" 前缀,将剩余的字符串转换为浮点数,然后对这些数值执行计算,例如求平均值。
传统的做法可能涉及逐行读取文件,然后使用字符串分割和切片手动提取和转换数据。虽然这种方法可行,但对于大型数据集来说,它通常效率低下且代码冗长。
Pandas 库提供了 read_csv 函数,它不仅能处理 CSV 文件,还能灵活地读取其他分隔符的文本文件。
首先,我们需要安装 Pandas 和 NumPy(如果尚未安装):
pip install pandas numpy
然后,使用 pd.read_csv 读取数据。由于文件使用一个或多个空格作为分隔符,且没有标题行,我们需要指定 sep='\s+'、header=None,并为列指定名称:
import pandas as pd
import numpy as np
# 假设文件名为 'serial_2.dat'
file_path = 'serial_2.dat'
# 读取数据
df = pd.read_csv(file_path, sep='\s+', header=None, names=['time', 's1', 's2'])
print("原始数据框:")
print(df)
print("\n数据类型:")
print(df.dtypes)输出示例:
原始数据框:
time s1 s2
0 9:01:15 SA7.998 SC7.968
1 9:01:16 SA7.998 SC7.968
数据类型:
time object
s1 object
s2 object
dtype: object可以看到,s1 和 s2 列被正确读取为字符串(object 类型)。
接下来,我们需要从 s1 和 s2 列中移除前缀并转换为浮点数。Pandas 提供了多种方法来实现这一点。
方法一:使用正则表达式 (str.extract)
本文档主要讲述的是基于VC与Matlab的混合编程实现图像的三维显示;介绍了VC++与Matlab混合编程的一般实现方法,并实现对二维影像图的三维效果显示。 MATLAB既是一种直观、高效的计算机语言,同时又是一个科学计算平台。它为数据分析和数据可视化、算法和应用程序开发提供了最核心的数学和高级图形工具。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看
9
如果前缀的模式可能不固定(例如,不总是两个字符,但总是非数字字符),可以使用正则表达式来提取数字部分。^[\D]+(.*) 这个正则表达式的含义是:
# 使用正则表达式提取数值
df['s1'] = df['s1'].str.extract('^[\D]+(.*)').astype(float)
df['s2'] = df['s2'].str.extract('^[\D]+(.*)').astype(float)
print("\n使用正则表达式清洗后的数据框:")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)方法二:使用字符串切片 (str[2:])
如果已知前缀总是固定长度(例如,总是两个字符),那么使用字符串切片会更简洁和高效:
# 假设前缀固定为两个字符,使用字符串切片
df['s1'] = df['s1'].str[2:].astype(float)
df['s2'] = df['s2'].str[2:].astype(float)
print("\n使用字符串切片清洗后的数据框:")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)两种方法都能达到相同的清洗效果,将 s1 和 s2 列转换为浮点数。
数据清洗完成后,我们可以对 s1 和 s2 列的数值执行各种计算。
要计算 s1 和 s2 列所有数值的全局平均值,可以使用以下方法:
# 方法一:使用 Pandas 的 mean() 链式调用
global_avg_pandas = df[['s1', 's2']].mean().mean()
print(f"\n全局平均值 (Pandas): {global_avg_pandas:.3f}")
# 方法二:将相关列转换为 NumPy 数组后计算
global_avg_numpy = np.mean(df[['s1', 's2']])
print(f"全局平均值 (NumPy): {global_avg_numpy:.3f}")这两种方法都会给出 s1 和 s2 列中所有数值的总体平均值。
如果需要计算每一行的 s1 和 s2 的平均值,并将结果作为新列添加到数据框中,可以使用 mean(axis=1):
# 计算行平均值并添加新列
df['avg'] = df[['s1', 's2']].mean(axis=1)
print("\n添加行平均值列后的数据框:")
print(df)输出示例:
添加行平均值列后的数据框:
time s1 s2 avg
0 9:01:15 7.998 7.968 7.983
1 9:01:16 7.998 7.968 7.983下面是整合了上述步骤的完整代码示例,用于处理 serial_2.dat 文件:
import pandas as pd
import numpy as np
import os # 用于创建示例文件
# --- 创建一个示例 .dat 文件 ---
# 在实际应用中,您会直接读取现有文件
file_content = """9:01:15 SA7.998 SC7.968
9:01:16 SA7.998 SC7.968
9:01:17 SA8.001 SC7.971
9:01:18 SA7.999 SC7.969
"""
file_path = 'serial_2.dat'
with open(file_path, 'w') as f:
f.write(file_content)
print(f"已创建示例文件: {file_path}\n")
# -----------------------------
# 1. 读取数据
df = pd.read_csv(file_path, sep='\s+', header=None, names=['time', 's1', 's2'])
print("--- 原始数据框 ---")
print(df)
print("\n原始数据类型:")
print(df.dtypes)
# 2. 清洗数据:移除前缀并转换为浮点数
# 假设前缀固定为两个字符,使用字符串切片
df['s1'] = df['s1'].str[2:].astype(float)
df['s2'] = df['s2'].str[2:].astype(float)
# 如果前缀不固定,可以使用正则表达式:
# df['s1'] = df['s1'].str.extract('^[\D]+(.*)').astype(float)
# df['s2'] = df['s2'].str.extract('^[\D]+(.*)').astype(float)
print("\n--- 清洗后的数据框 ---")
print(df)
print("\n清洗后数据类型:")
print(df.dtypes)
# 3. 执行计算:计算平均值
# 3.1 计算全局平均值
global_avg_pandas = df[['s1', 's2']].mean().mean()
print(f"\n--- 计算结果 ---")
print(f"s1 和 s2 列的全局平均值 (Pandas): {global_avg_pandas:.3f}")
global_avg_numpy = np.mean(df[['s1', 's2']])
print(f"s1 和 s2 列的全局平均值 (NumPy): {global_avg_numpy:.3f}")
# 3.2 计算行平均值并添加新列
df['avg_row'] = df[['s1', 's2']].mean(axis=1)
print("\n--- 添加行平均值列后的数据框 ---")
print(df)
# --- 清理示例文件 (可选) ---
# os.remove(file_path)
# print(f"\n已删除示例文件: {file_path}")
# -----------------------------本教程详细介绍了如何使用 Python Pandas 库处理包含非标准格式数据的文本文件。通过 pd.read_csv 可以灵活地导入数据,而 Pandas 的 str 访问器结合字符串切片或正则表达式,则能高效地进行数据清洗和类型转换。最后,我们演示了如何利用 Pandas 和 NumPy 的聚合函数轻松计算全局和行级别的平均值。掌握这些技术,将大大提高您处理结构化和半结构化数据的效率和代码可读性。
以上就是使用 Pandas 高效处理文本文件中的混合数据与计算的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号