0

0

如何从PSA文件中提取特定行的指定列并关联文件名信息生成CSV

花韻仙語

花韻仙語

发布时间:2026-01-31 08:46:12

|

380人浏览过

|

来源于php中文网

原创

如何从PSA文件中提取特定行的指定列并关联文件名信息生成CSV

本文介绍如何使用pandas直接读取逗号分隔的psa文本文件,精准筛选以“prod”开头的行、提取第3列(索引为2)数值,并自动解析文件名中的门店编号作为第二列,最终导出结构清晰的csv,全程无需中间临时文件。

在处理批量PSA类日志或报告文件时,常需跳过头部注释、忽略无关记录(如pla行),仅提取关键字段(如prod行的第3个值),同时将文件元信息(如门店编号)结构化写入结果。传统做法(先复制到TXT再读取)不仅冗余,还易引入编码、换行或列对齐问题。更优解是:用pandas原生支持的灵活读取 + 正则解析 + 链式数据操作,一步到位。

以下为完整、可扩展的实现方案:

HaiSnap
HaiSnap

一站式AI应用开发和部署工具

下载

✅ 核心步骤说明

  1. 直接读取原始PSA文件:使用 pd.read_csv(..., header=None) 避免首行被误判为列名;usecols=[0, 2] 精确指定只需第1列(类型标识)和第3列(目标数值),跳过全部中间列,提升效率与健壮性;
  2. 动态命名列:通过 names=['type', 'num'] 明确语义,便于后续逻辑过滤;
  3. 条件筛选与清理:df[df['type'] == 'prod'] 保留仅含 prod 的行,.drop(columns='type') 移除冗余标识列;
  4. 文件名智能解析:借助 re.search(r'store\s+(\d+)', filename) 提取连续数字形式的门店号(如 "store 15" → "15"),确保兼容空格/大小写变体;
  5. 注入元数据列:.assign(store=store) 原地添加 store 列,避免 df['store'] = store 可能引发的SettingWithCopyWarning;
  6. 批量处理就绪:该逻辑可无缝嵌入 pathlib.Path 或 os.listdir() 循环,遍历ZIP解压后的所有PSA文件。

? 完整可运行代码(含批量支持)

import pandas as pd
import re
from pathlib import Path

def process_psa_file(filepath: Path) -> pd.DataFrame:
    # 读取:仅取第1列(索引0)和第3列(索引2),无表头
    df = pd.read_csv(
        filepath, 
        usecols=[0, 2], 
        header=None, 
        names=['type', 'num'],
        skip_blank_lines=True,
        on_bad_lines='skip'  # 自动跳过格式异常行(如列数不足)
    )

    # 筛选 prod 行,移除 type 列
    result = df[df['type'] == 'prod'].drop(columns='type').copy()

    # 从文件名提取 store 编号(支持 "store 15", "Store:15", "store_15" 等常见变体)
    store_match = re.search(r'(?:store|STORE|Store)[\s_:.-]+(\d+)', filepath.name)
    store_num = store_match.group(1) if store_match else "unknown"

    # 添加 store 列并重排列顺序
    result = result.assign(store=store_num)[['num', 'store']]
    return result

# 批量处理示例(假设所有 PSA 文件位于 ./psa_files/ 目录下)
input_dir = Path("./psa_files")
output_file = "all_stores_output.csv"

all_dfs = []
for psa_path in input_dir.glob("*.psa"):
    try:
        df = process_psa_file(psa_path)
        print(f"✅ 处理完成: {psa_path.name} → {len(df)} 条 prod 记录")
        all_dfs.append(df)
    except Exception as e:
        print(f"❌ 处理失败 {psa_path.name}: {e}")

# 合并所有结果并导出
if all_dfs:
    final_df = pd.concat(all_dfs, ignore_index=True)
    final_df.to_csv(output_file, index=False)
    print(f"\n? 合并完成!总计 {len(final_df)} 行,已保存至 {output_file}")
else:
    print("⚠️ 未找到任何有效PSA文件")

⚠️ 注意事项与最佳实践

  • 编码兼容性:若PSA文件含中文或特殊字符,建议在 pd.read_csv() 中显式指定 encoding='utf-8' 或 'gbk';
  • 列索引校验:PSA文件若存在空行或不规则分隔符,启用 on_bad_lines='skip' + skip_blank_lines=True 可增强鲁棒性;
  • 正则健壮性:示例正则 r'store\s+(\d+)' 假设门店号紧邻单词 store;如实际格式多变(如 "15_store.psa"),可升级为 r'(\d+)(?=_store|\s+store|\.psa)';
  • 内存优化:处理超大文件时,可用 chunksize 参数分块读取,逐块过滤后追加写入CSV,避免全量加载。

此方案彻底规避了临时文件IO开销,逻辑内聚、易于维护,并天然支持生产环境中的批量自动化场景。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

71

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

1

2026.01.31

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

42

2025.12.13

漫画免费在线观看地址大全
漫画免费在线观看地址大全

想找免费又资源丰富的漫画网站?本合集精选2025-2026年热门平台,涵盖国漫、日漫、韩漫等多类型作品,支持高清流畅阅读与离线缓存。阅读专题下面的文章了解更多详细内容。

1

2026.01.31

漫画防走失登陆入口大全
漫画防走失登陆入口大全

2026最新漫画防走失登录入口合集,汇总多个稳定可用网址,助你畅享高清无广告漫画阅读体验。阅读专题下面的文章了解更多详细内容。

2

2026.01.31

php多线程怎么实现
php多线程怎么实现

PHP本身不支持原生多线程,但可通过扩展如pthreads、Swoole或结合多进程、协程等方式实现并发处理。阅读专题下面的文章了解更多详细内容。

1

2026.01.31

php如何运行环境
php如何运行环境

本合集详细介绍PHP运行环境的搭建与配置方法,涵盖Windows、Linux及Mac系统下的安装步骤、常见问题及解决方案。阅读专题下面的文章了解更多详细内容。

0

2026.01.31

php环境变量如何设置
php环境变量如何设置

本合集详细讲解PHP环境变量的设置方法,涵盖Windows、Linux及常见服务器环境配置技巧,助你快速掌握环境变量的正确配置。阅读专题下面的文章了解更多详细内容。

0

2026.01.31

php图片如何上传
php图片如何上传

本合集涵盖PHP图片上传的核心方法、安全处理及常见问题解决方案,适合初学者与进阶开发者。阅读专题下面的文章了解更多详细内容。

2

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Rust 教程
Rust 教程

共28课时 | 5.1万人学习

Git 教程
Git 教程

共21课时 | 3.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号