0

0

如何将按行分组的文本文件高效转换为CSV格式

花韻仙語

花韻仙語

发布时间:2026-01-28 15:15:11

|

142人浏览过

|

来源于php中文网

原创

如何将按行分组的文本文件高效转换为CSV格式

本文介绍如何将每三行一组的纯文本文件(如ocr识别结果)直接转换为结构化csv文件,避免手动编辑,并提供可集成到python ocr流程中的完整代码方案。

在处理OCR输出(如tesseract识别的地址信息)时,常见模式是:每条记录占据连续三行(姓名、地址、城市州邮编),但原始文本以换行分隔,缺乏行内结构。理想目标是将每三行合并为CSV中的一行,字段间用逗号分隔,最终生成标准CSV文件供后续分析或导入使用。

以下是一个健壮、可复用的解决方案,分为两个典型场景:

✅ 场景一:从已有文本文件(如 address.txt)生成 CSV

假设输入文件 address.txt 内容如下(末尾带多余逗号,需清理):

First Name,
Address,
City State Zip,
Second Name,
Second Address,
Second City State zip,

使用标准库即可完成清洗、分组与导出:

PictoGraphic
PictoGraphic

AI驱动的矢量插图库和插图生成平台

下载
import csv

# 1. 读取并清洗:去空行、去换行符、移除所有逗号(避免干扰CSV结构)
with open("address.txt", encoding="utf-8") as f:
    lines = [line.strip().replace(",", "") for line in f if line.strip()]

# 2. 验证数据完整性:必须为3的倍数,否则逻辑错位
if len(lines) % 3 != 0:
    raise ValueError(f"输入行数 {len(lines)} 不是3的倍数,无法按三行一组分组")

# 3. 按每3行切片,构建CSV行列表
rows = [lines[i:i+3] for i in range(0, len(lines), 3)]

# 4. 写入CSV(注意:newline='' 防止Windows下空行)
with open("address.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(rows)

执行后生成 address.csv:

First Name,Address,City State Zip
Second Name,Second Address,Second City State zip

✅ 场景二:在OCR流程中直接生成CSV(推荐——免中间文件)

将清洗与分组逻辑嵌入原 tess_address() 函数,跳过生成 address.txt 的步骤,提升效率与可靠性:

import os
import re
import csv
import pytesseract

def tess_address():
    files = sorted(os.listdir("address"))
    all_lines = []

    for image in files:
        output_path = os.path.join("address", image)
        text = pytesseract.image_to_string(output_path)
        # 清洗:移除所有逗号 + 拆行 + 去空行
        lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()]
        all_lines.extend(lines)

    # 验证总行数是否满足三元组要求
    if len(all_lines) % 3 != 0:
        print(f"警告:共 {len(all_lines)} 行,非3的倍数,将截断末尾不完整组")
        all_lines = all_lines[: (len(all_lines) // 3) * 3]  # 安全截断

    # 构建CSV行并写入
    rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)]

    with open("address.csv", "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerows(rows)

    print(f"✅ 已成功生成 address.csv,共 {len(rows)} 条记录")

⚠️ 注意事项

  • 编码统一:始终显式指定 encoding="utf-8",避免中文等字符乱码;
  • 逗号处理:replace(",", "") 是为消除OCR误加的冗余逗号;若原始文本中字段本身含逗号(如 "New York, NY"),应改用正则精准替换行尾逗号(rstrip(",\n\r"))或改用 csv.writer 自动转义(需保留原始逗号);
  • 异常防护:添加 assert 或 if 校验确保数据规整性,避免静默错误;
  • 性能优化:对大文件,可用生成器逐块读取(for line in f:),但本例中OCR输出量通常较小,列表处理更清晰。

通过以上方法,你不仅能彻底摆脱手动编辑文本文件的繁琐步骤,还能将数据预处理无缝融入自动化OCR流水线,输出即用、结构清晰的CSV文件。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

777

2023.08.22

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

101

2025.10.16

PHP 数据库操作与性能优化
PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用,详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

86

2025.11.13

JavaScript 性能优化与前端调优
JavaScript 性能优化与前端调优

本专题系统讲解 JavaScript 性能优化的核心技术,涵盖页面加载优化、异步编程、内存管理、事件代理、代码分割、懒加载、浏览器缓存机制等。通过多个实际项目示例,帮助开发者掌握 如何通过前端调优提升网站性能,减少加载时间,提高用户体验与页面响应速度。

29

2025.12.30

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

41

2025.12.13

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

167

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

35

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

74

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号