如何将按行分组的文本文件高效转换为CSV格式

花韻仙語

发布时间：2026-01-28 15:15:11

142人浏览过

来源于php中文网

原创

如何将按行分组的文本文件高效转换为CSV格式

本文介绍如何将每三行一组的纯文本文件（如ocr识别结果）直接转换为结构化csv文件，避免手动编辑，并提供可集成到python ocr流程中的完整代码方案。

在处理OCR输出（如tesseract识别的地址信息）时，常见模式是：每条记录占据连续三行（姓名、地址、城市州邮编），但原始文本以换行分隔，缺乏行内结构。理想目标是将每三行合并为CSV中的一行，字段间用逗号分隔，最终生成标准CSV文件供后续分析或导入使用。

以下是一个健壮、可复用的解决方案，分为两个典型场景：

✅ 场景一：从已有文本文件（如 address.txt）生成 CSV

假设输入文件 address.txt 内容如下（末尾带多余逗号，需清理）：

First Name,
Address,
City State Zip,
Second Name,
Second Address,
Second City State zip,

使用标准库即可完成清洗、分组与导出：

PictoGraphic

AI驱动的矢量插图库和插图生成平台

下载

import csv

# 1. 读取并清洗：去空行、去换行符、移除所有逗号（避免干扰CSV结构）
with open("address.txt", encoding="utf-8") as f:
    lines = [line.strip().replace(",", "") for line in f if line.strip()]

# 2. 验证数据完整性：必须为3的倍数，否则逻辑错位
if len(lines) % 3 != 0:
    raise ValueError(f"输入行数 {len(lines)} 不是3的倍数，无法按三行一组分组")

# 3. 按每3行切片，构建CSV行列表
rows = [lines[i:i+3] for i in range(0, len(lines), 3)]

# 4. 写入CSV（注意：newline='' 防止Windows下空行）
with open("address.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(rows)

执行后生成 address.csv：

First Name,Address,City State Zip
Second Name,Second Address,Second City State zip

✅ 场景二：在OCR流程中直接生成CSV（推荐——免中间文件）

将清洗与分组逻辑嵌入原 tess_address() 函数，跳过生成 address.txt 的步骤，提升效率与可靠性：

import os
import re
import csv
import pytesseract

def tess_address():
    files = sorted(os.listdir("address"))
    all_lines = []

    for image in files:
        output_path = os.path.join("address", image)
        text = pytesseract.image_to_string(output_path)
        # 清洗：移除所有逗号 + 拆行 + 去空行
        lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()]
        all_lines.extend(lines)

    # 验证总行数是否满足三元组要求
    if len(all_lines) % 3 != 0:
        print(f"警告：共 {len(all_lines)} 行，非3的倍数，将截断末尾不完整组")
        all_lines = all_lines[: (len(all_lines) // 3) * 3]  # 安全截断

    # 构建CSV行并写入
    rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)]

    with open("address.csv", "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerows(rows)

    print(f"✅ 已成功生成 address.csv，共 {len(rows)} 条记录")

⚠️ 注意事项

编码统一：始终显式指定 encoding="utf-8"，避免中文等字符乱码；
逗号处理：replace(",", "") 是为消除OCR误加的冗余逗号；若原始文本中字段本身含逗号（如 "New York, NY"），应改用正则精准替换行尾逗号（rstrip(",\n\r")）或改用 csv.writer 自动转义（需保留原始逗号）；
异常防护：添加 assert 或 if 校验确保数据规整性，避免静默错误；
性能优化：对大文件，可用生成器逐块读取（for line in f:），但本例中OCR输出量通常较小，列表处理更清晰。

通过以上方法，你不仅能彻底摆脱手动编辑文本文件的繁琐步骤，还能将数据预处理无缝融入自动化OCR流水线，输出即用、结构清晰的CSV文件。

Python 正则回溯导致性能问题的分析

Python 命令行参数解析的多种实现方式

Python 内存占用持续增长的治理方案

Python 函数注解在实际项目中的价值

如何在 Python 数据类继承中为父类必填字段设置子类默认值

相关标签:

python windows 编码 csv ai win csv文件标准库 if for ocr 性能优化自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：audit.log 大量 denied 的 ausearch -m avc -i --start today 下一篇：systemd-oomd 优先杀掉低优先级进程的 OOMScoreAdjust 与 systemd 配置

作者最新文章

全民K歌如何开直播

2026-01-28 14:31

如何在 Chrome 扩展内容脚本中正确使用 Floating UI

2026-01-28 14:45

如何修复登录系统中仅能识别第一行用户数据的问题

2026-01-28 14:55

如何在 Java 命令行程序中根据用户输入的参数个数动态调用不同构造方法

2026-01-28 15:06

漫蛙MANWA如何防失联

2026-01-28 15:08

如何将按行分组的文本文件高效转换为CSV格式

2026-01-28 15:15

PHP 表单需提交两次才能获取 $_FILES 数据的原因与解决方案

2026-01-28 15:17

真我回归OPPO后的首款新机卖爆真我Neo8销量超越竞品

2026-01-28 15:28

CSS样式声明中分号缺失导致语法错误的解决方案

2026-01-28 15:36

如何在 PHP 中安全高效地替换字符串中的多个关键词

2026-01-28 15:48

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

777

2023.08.22

PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优，内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例（如高并发接口优化、缓存系统设计、秒杀活动实现），帮助学习者掌握构建高性能PHP后端系统的核心能力。

101

2025.10.16