csv.reader读TSV应设delimiter=' '而非' ',用dialect='excel-tab'处理引号换行;BOM文件需encoding='utf-8-sig';pandas读TSV须sep=' '和engine='python'。

csv.reader 读 TSV 时 delimiter=' ' 就够了,别写 '\t'
很多人复制粘贴错误,把 delimiter='\t' 当成“转义制表符”,结果读出来全是单个字母 和 t。Python 字符串里 ' ' 本身就是制表符,'\t' 是两个字符:反斜杠 + 字母 t。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 直接用
delimiter=' '—— 这是标准写法,csv模块内部按字节处理,不需要额外转义 - 如果从配置文件或用户输入拿到字符串
'\t',先用ast.literal_eval("' '")或手动替换:'\t'.replace('\t', ' ') - 用
print(repr(row[0]))检查首字段,看到'a b'才说明分隔符生效;若看到'a\tb',就是 delimiter 写错了
带 BOM 的 UTF-8 TSV 文件会多出乱码头
Windows 记事本保存的 TSV 常带 UTF-8 BOM(b''),直接用 open(filename, 'r') 读,第一行第一列开头会出现  这种东西。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 统一用
open(filename, 'r', encoding='utf-8-sig')——utf-8-sig会自动剥离 BOM,且兼容无 BOM 文件 - 别用
encoding='utf-8'硬扛,否则得手动切片:line.lstrip('ufeff'),麻烦还容易漏 - 如果文件是 GBK/GB2312 编码(比如老国产软件导出),必须显式指定
encoding='gb18030'(比gbk兼容性更好)
字段含换行符或双引号的 TSV 怎么安全读
标准 TSV 不转义换行和引号,但有些工具(如 Excel)导出时会用双引号包裹字段,并允许字段内含
。这时单纯按行切分会错位。
实操建议:
立即学习“Python免费学习笔记(深入)”;
-
csv模块默认不支持 TSV 的引号转义 —— 它的dialect='excel-tab'才是正解,会自动识别双引号包裹、处理内部换行 - 必须写成:
csv.reader(f, dialect='excel-tab'),而不是只改delimiter - 如果字段里有双引号本身,Excel 风格是两个双引号
""表示一个,dialect='excel-tab'会自动还原 - 别自己用
str.split(' '),遇到换行就崩,且无法处理空字段(a c中间字段是空字符串,不是None)
pandas.read_csv 读 TSV 更省心,但要注意 engine 和 dtype
纯 Python csv 模块适合流式读、内存受限场景;日常分析直接上 pandas 更快,但默认参数对 TSV 不友好。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 必须显式传
sep=' '(不是delimiter),否则它按逗号猜格式,TSV 会全挤在一列 - 加
engine='python':默认c引擎不支持字段内换行,一遇到就报Error tokenizing data - 如果某列全是数字但含空值,
pandas可能推成float64,后续.astype(int)会炸 —— 提前用dtype={'col': 'Int64'}(大写 I)支持 nullable int - 大文件加
chunksize=10000流式处理,避免 OOM
dialect='excel-tab' 这两点,不是 delimiter 写法本身。










