
本文介绍如何将ocr识别生成的、按行排列的地址信息(如姓名、地址、城市州邮编)自动整理为结构化的csv文件,支持直接从ocr文本处理,无需中间文本文件,避免手动编辑。
在OCR后处理流程中,常见场景是:每组地址信息被识别为连续的三行(例如:姓名、街道地址、城市/州/邮编),但原始输出是扁平化的纯文本行序列。若每次识别后都先写入.txt再二次转换,不仅冗余,还易引入编码、换行或逗号干扰等问题。理想方案是在tess_address()函数中直接完成分组与CSV写入,跳过中间文本文件。
以下是一个完整、健壮且可直接集成的解决方案:
✅ 核心逻辑说明
- 清理与分割:对pytesseract.image_to_string()返回的text,用splitlines()切分为行,并移除每行末尾及内部多余的逗号(避免干扰CSV结构);
- 分组校验:确保总行数能被3整除(即每组含“姓名、地址、城市州邮编”),否则抛出明确错误便于调试;
- 批量重组:使用步长为3的切片(lines[i:i+3])将线性列表转为二维结构——每子列表代表一个CSV记录;
- 安全写入CSV:通过标准csv.writer写入,自动处理字段内逗号、引号和换行等边缘情况(比手动print(..., file=...)更可靠)。
✅ 集成后的 tess_address() 函数(推荐替换原函数)
import os
import csv
import re
import pytesseract
def tess_address():
input_dir = "address"
output_csv = "address_output.csv"
files = sorted(os.listdir(input_dir))
# 初始化所有OCR行的容器(全局收集,避免逐图覆盖)
all_lines = []
for image in files:
image_path = os.path.join(input_dir, image)
text = pytesseract.image_to_string(image_path)
# 清理:移除所有逗号(防止干扰CSV解析),并分割为行
clean_lines = [re.sub(r",", "", line.strip()) for line in text.splitlines() if line.strip()]
all_lines.extend(clean_lines)
# 校验:必须是3的倍数(每组3个字段)
if len(all_lines) % 3 != 0:
raise ValueError(f"OCR共提取 {len(all_lines)} 行,不是3的倍数,请检查识别结果是否完整或存在空行")
# 按每3行分组
rows = [all_lines[i:i+3] for i in range(0, len(all_lines), 3)]
# 写入CSV(注意:newline='' 是csv模块必需参数,避免Windows下空行)
with open(output_csv, "w", newline="", encoding="utf-8") as f:
writer = csv.writer(f)
writer.writerows(rows)
print(f"✅ 已成功生成 {len(rows)} 条记录,保存至 {output_csv}")⚠️ 关键注意事项
- 不要重复打开文件写入:原代码中 print(..., file=open("address.txt", 'a')) 在循环内反复调用 open(),既低效又易因编码/缓冲问题导致乱码;新方案统一收集后批量写入,更稳定。
- 编码与换行:csv.writer 必须指定 newline="",否则在Windows系统中可能产生双换行(\r\n\r\n)。
- 空行过滤:if line.strip() 确保忽略OCR识别出的空白行或仅含空格的行,提升鲁棒性。
- 错误定位友好:assert 或 raise ValueError 明确提示行数异常,便于快速排查OCR漏识别或图像质量问题。
✅ 输出效果示例
输入OCR文本(经清理后):
一款WordPress内核的物流公司网站主题,适合各大物流公司企业建站用,商业主题,免费分享,本主题分享目的旨在学习参考之用,无任何收费行为。 wordpress官方网站上下载并安装wordpress3.32及以上版本。安装方法:上传后进者wp主题至wp-content\themes文件夹,进入后台"外观-主题-选择主题-启用"激活本主题。此为作者在Chinaz投稿第三版,请保
John Doe 123 Main St New York NY 10001 Jane Smith 456 Oak Ave Los Angeles CA 90210
生成的 address_output.csv 内容(可用Excel或pandas.read_csv()直接读取):
John Doe,123 Main St,"New York NY 10001" Jane Smith,456 Oak Ave,"Los Angeles CA 90210"
注:csv.writer 自动为含空格的字段加引号,确保语义无歧义。
通过此方案,你彻底摆脱了“先生成txt → 手动编辑 → 再转csv”的繁琐链路,实现OCR到结构化数据的一站式、可复现、易维护的自动化处理。









