Python如何解析TSV文件_csv模块修改delimiter=‘ ’制表符

P粉602998670

发布时间：2026-03-15 11:23:31

726人浏览过

来源于php中文网

原创

csv.reader读TSV应设delimiter=' '而非' '，用dialect='excel-tab'处理引号换行；BOM文件需encoding='utf-8-sig'；pandas读TSV须sep=' '和engine='python'。

$python如何解析tsv文件_csv模块修改delimiter='\t'制表符$

csv.reader 读 TSV 时 delimiter=' ' 就够了，别写 '\t'

很多人复制粘贴错误，把 delimiter='\t' 当成“转义制表符”，结果读出来全是单个字母和 t。Python 字符串里 ' ' 本身就是制表符，'\t' 是两个字符：反斜杠 + 字母 t。

实操建议：

立即学习“Python免费学习笔记（深入）”；

直接用 delimiter=' ' —— 这是标准写法，csv 模块内部按字节处理，不需要额外转义
如果从配置文件或用户输入拿到字符串 '\t'，先用 ast.literal_eval("' '") 或手动替换：'\t'.replace('\t', ' ')
用 print(repr(row[0])) 检查首字段，看到 'a b' 才说明分隔符生效；若看到 'a\tb'，就是 delimiter 写错了

带 BOM 的 UTF-8 TSV 文件会多出乱码头

Windows 记事本保存的 TSV 常带 UTF-8 BOM（b''），直接用 open(filename, 'r') 读，第一行第一列开头会出现 ï»¿ 这种东西。

实操建议：

立即学习“Python免费学习笔记（深入）”；

统一用 open(filename, 'r', encoding='utf-8-sig') —— utf-8-sig 会自动剥离 BOM，且兼容无 BOM 文件
别用 encoding='utf-8' 硬扛，否则得手动切片：line.lstrip('ufeff')，麻烦还容易漏
如果文件是 GBK/GB2312 编码（比如老国产软件导出），必须显式指定 encoding='gb18030'（比 gbk 兼容性更好）

字段含换行符或双引号的 TSV 怎么安全读

标准 TSV 不转义换行和引号，但有些工具（如 Excel）导出时会用双引号包裹字段，并允许字段内含。这时单纯按行切分会错位。

灵云AI开放平台

下载

实操建议：

立即学习“Python免费学习笔记（深入）”；

csv 模块默认不支持 TSV 的引号转义 —— 它的 dialect='excel-tab' 才是正解，会自动识别双引号包裹、处理内部换行
必须写成：csv.reader(f, dialect='excel-tab')，而不是只改 delimiter
如果字段里有双引号本身，Excel 风格是两个双引号 "" 表示一个，dialect='excel-tab' 会自动还原
别自己用 str.split(' ')，遇到换行就崩，且无法处理空字段（a c 中间字段是空字符串，不是 None）

pandas.read_csv 读 TSV 更省心，但要注意 engine 和 dtype

纯 Python csv 模块适合流式读、内存受限场景；日常分析直接上 pandas 更快，但默认参数对 TSV 不友好。

实操建议：

立即学习“Python免费学习笔记（深入）”；

必须显式传 sep=' '（不是 delimiter），否则它按逗号猜格式，TSV 会全挤在一列
加 engine='python'：默认 c 引擎不支持字段内换行，一遇到就报 Error tokenizing data
如果某列全是数字但含空值，pandas 可能推成 float64，后续 .astype(int) 会炸 —— 提前用 dtype={'col': 'Int64'}（大写 I）支持 nullable int
大文件加 chunksize=10000 流式处理，避免 OOM

事情说清了就结束。最常卡住的其实是 BOM 和 dialect='excel-tab' 这两点，不是 delimiter 写法本身。

PyTorch 中高效实现一维张量到多目标索引的聚合映射（无循环）

Python推荐系统怎么写_基于用户物品的协同过滤算法原理与电影推荐实战

NumPy怎么安装_pip安装NumPy与科学计算基础环境配置

Python异常怎么捕获_try-except语句使用与自定义异常编写

Python Flask请求对象怎么用_深入解析获取HTTP头/真实IP/查询参数/二进制文件全集

相关标签:

python pandas print Error 字符串 int Nullable 切片 bom windows excel

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python怎么查看数据概况_info与describe方法获取统计描述下一篇：Python如何降级库版本_pip指定版本安装与特定版本卸载

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

193

2023.09.27

python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容，阅读专题下面的文章了解更多详细教程。

2026.02.03

scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

493

2023.10.18

500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

382

2023.10.25

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板