如何将按行分组的文本文件高效转换为结构化 CSV 文件

霞舞

发布时间：2026-01-28 16:19:15

539人浏览过

来源于php中文网

原创

如何将按行分组的文本文件高效转换为结构化 CSV 文件

本文介绍如何将每三行一组的纯文本文件（如 ocr 输出）直接转换为标准 csv 格式，避免手动编辑；提供完整可运行代码，支持从 ocr 文本实时生成 csv，同时处理多余逗号、换行与分组逻辑。

在 OCR 后处理流程中，常遇到结构松散的文本输出：例如地址信息被拆分为“姓名”“地址”“城市州邮编”各占一行，且末尾带冗余逗号。若每次生成 address.txt 后还需额外脚本整理为 CSV，不仅低效，还易引入错误。理想方案是在 tess_address() 函数中直接完成分组与 CSV 写入，跳过中间文本文件。

以下为优化后的完整实现，分为两部分：（1）直接处理 OCR 文本生成 CSV；（2）兼容已有文本文件的离线转换。

✅ 方案一：OCR 流程中直出 CSV（推荐）

修改原 tess_address() 函数，在内存中完成清洗、分组与写入，不落地中间 .txt 文件：

PageGen

AI页面生成器，支持通过文本、图像、文件和URL一键生成网页。

下载

import os
import csv
import re
import pytesseract

def tess_address():
    files = sorted(os.listdir("address"))
    rows = []  # 存储所有三元组行

    for image in files:
        output_path = os.path.join("address", image)
        text = pytesseract.image_to_string(output_path)

        # 清洗：移除所有逗号（防干扰），并按行分割 + 去首尾空格
        lines = [re.sub(r",", "", line).strip() for line in text.splitlines() if line.strip()]

        # 验证行数是否为3的倍数（确保结构完整）
        if len(lines) % 3 != 0:
            print(f"警告: 图像 {image} 产生 {len(lines)} 行，非3的倍数，将截断至最近3的倍数")
            lines = lines[:len(lines) // 3 * 3]  # 安全截断

        # 每3行合并为1个CSV行
        for i in range(0, len(lines), 3):
            rows.append(lines[i:i+3])

    # 一次性写入CSV（使用newline=''避免Windows下空行）
    with open("address_output.csv", "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerows(rows)

    print(f"✅ 已生成 CSV 文件，共 {len(rows)} 行数据")

关键改进点：使用 re.sub(r",", "", line) 精准清除每行内原有逗号，保留字段内自然逗号（如 "New York, NY" 不会被破坏）； if line.strip() 过滤空行，提升鲁棒性；主动截断非3倍数行，避免 assert 中断程序； encoding="utf-8" 显式声明编码，防止中文乱码。

✅ 方案二：离线转换现有文本文件

若需复用已有 address.txt，可用此独立函数转换：

import csv

def txt_to_csv(input_file="address.txt", output_file="address.csv"):
    with open(input_file, "r", encoding="utf-8") as f:
        lines = [line.strip().rstrip(",") for line in f if line.strip()]

    # 移除每行末尾逗号（保留行内逗号）
    lines = [line.rstrip(",") for line in lines]

    if len(lines) % 3 != 0:
        raise ValueError(f"输入行数 {len(lines)} 不是3的倍数，请检查文件格式")

    rows = [lines[i:i+3] for i in range(0, len(lines), 3)]

    with open(output_file, "w", newline="", encoding="utf-8") as f:
        csv.writer(f).writerows(rows)

    print(f"✅ 已将 {input_file} 转换为 {output_file}")

⚠️ 注意事项

CSV 字段含逗号/换行？ 当前逻辑假设字段内无逗号或引号。若 OCR 输出可能含复杂内容（如 "Smith, John"），建议改用 csv.QUOTE_MINIMAL 并启用 quoting：
```
writer = csv.writer(f, quoting=csv.QUOTE_MINIMAL)
```
性能考量：对超大文件（>10MB），可改用生成器逐块读取，但 OCR 场景通常单文件较小，当前内存加载方案更简洁。
路径安全：生产环境建议用 pathlib.Path 替代字符串拼接，增强跨平台兼容性。

通过以上重构，你彻底摆脱了“生成文本→手动编辑→转CSV”的繁琐链路，让 OCR 处理结果一步到位成为可直接导入 Excel 或 Pandas 的标准 CSV 数据。

如何在 Excel 文件已打开时安全读取数据而不触发权限拒绝错误

如何在 openpyxl 中正确配置数据验证（Data Validation）

如何将 Pandas DataFrame 转置后导出为 Excel 文件

如何将 DataFrame 转置后导出为 Excel 文件

如何将 DataFrame 转置并导出为 Excel 文件

相关标签:

excel windows 编码 app 中文乱码 csv ai win pandas if 字符串 ocr 重构 excel

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：pandas 如何在 read_csv 时强制某些列为 nullable integer 类型下一篇：AWS Lambda 中数据库读写不一致问题的根源与解决方案

作者最新文章

如何使用XPath结合data属性精准提取HTML元素内容

2026-01-27 09:43

《生化危机：代号维罗妮卡》重制版首批细节 2027年Q1发售

2026-01-27 09:44

JavaScript 中数组浅拷贝与深拷贝的正确用法详解

2026-01-27 09:47

如何正确将完整字符串赋值给HTML文本输入框

2026-01-27 09:58

《刺客信条》系列负责人起诉育碧外媒分析或会影响《刺客信条》系列未来

2026-01-27 09:59

《寂静岭2：重制版》开发者表示我们正在见证恐怖游戏的复兴

2026-01-27 10:10

《恶意不息》合作玩法盘活了整个游戏 Steam峰值超6万人

2026-01-27 10:11

《筑梦颂》开发商新作《Star Birds》更新：加入餐饮流水线与关卡生成器

2026-01-27 10:26

《巅峰守卫》Steam多半差评上线几个小时流失一半玩家

2026-01-27 10:31

苹果发布iOS 26.2.1：适配AirTag 2！iPhone 15及以上必升

2026-01-27 10:34

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

776

2023.08.22

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

298

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

212

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1500

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

623

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

613

2024.03.22