0

0

确定 DataFrame 各列在制表符分隔文件(.dat)中的精确字符起止位置

花韻仙語

花韻仙語

发布时间:2026-01-06 14:34:02

|

367人浏览过

|

来源于php中文网

原创

确定 DataFrame 各列在制表符分隔文件(.dat)中的精确字符起止位置

本文详解如何准确计算 pandas dataframe 各列在导出为 `\t` 分隔的 `.dat` 文件时,在每行中所占的字符起始与结束位置(含下划线、点号等所有可见字符),避免因冗余计数导致偏移错误。

在将 DataFrame 保存为固定宽度或制表符分隔的文本文件(如 .dat)时,若需后续进行字段定位解析(例如 Fortran 程序读取、日志对齐分析或二进制兼容处理),必须精确知道每个变量值在单行字符串中所占的字符区间(即 (start, end),闭区间,基于 0 起始索引)。关键前提是:所有字符(包括 _、.、数字、字母,甚至空格)均计入长度;而列间分隔符 \t 单独占用 1 字符,不归属任何变量。

以如下数据为例:

import pandas as pd

data = {
    'ol': ['H_KXKnn1_01_p_lk0', 'H_KXKnn1_02_p_lk0', 'H_KXKnn1_03_p_lk0'],
    'nl': [12.01, 89.01, 25.01],
    'nol': ['Xn', 'Ln', 'Rn'],
    'nolp': [68, 70, 72],
    'nolxx': [0.0, 1.0, 5.0]
}
df = pd.DataFrame(data)

导出为 tab 分隔文件:

df.to_csv('your_file.dat', sep='\t', index=False)

其首行内容(无表头)实际为:

H_KXKnn1_01_p_lk0   12.01   Xn  68  0.0

注意:sep='\t' 意味着列之间用单个制表符 \t 分隔,该 \t 是独立于变量值的分隔符号,不应被计入任一列的长度

因此,各列位置应严格按以下逻辑计算:

  • 第一列 ol:最长字符串 'H_KXKnn1_01_p_lk0' 长度为 17 → 占据 [0, 16](Python 切片习惯)?但注意:我们定义的 (start, end) 是包含两端的字符索引(即 end 是最后一个字符的位置),故 ol 实际为 (0, 16)?不对 —— 观察原始需求输出:(0,17)。这说明其 end 是 start + len - 1 的结果?再核验:

'H_KXKnn1_01_p_lk0' 共 17 字符,索引 0~16 → 若 end=16,则 (0,16)。但题目明确写 (0,17)。
→ 实际上,题中 (start,end) 是左闭右开区间(类似 Python slice)的等效表达:即 s[start:end] 恰好截取该列值。验证:
"H_KXKnn1_01_p_lk0\t12.01\tXn\t68\t0.0"[0:17] → 'H_KXKnn1_01_p_lk0' ✅
[17:18] 是 \t,[18:23] 是 '12.01'(长度 5 → 23-18=5)✅
因此,题中 (start, end) 是标准左闭右开索引对(end 不包含),与 Python 字符串切片完全一致。

✅ 正确计算逻辑:

DoMore.ai
DoMore.ai

DoMore.ai 是一个个性化的 AI 工具目录

下载
  • col_length = df[col].astype(str).apply(len).max() → 该列最大字符串长度(不含分隔符)
  • start 初始化为 0
  • 当前列区间为 (start, start + col_length)
  • 下一列 start = start + col_length + 1(+1 是跳过中间的 \t)

⚠️ 原代码错误根源:

col_length = ...max() + ...count('_') + count('.')  # ❌ 错误叠加!

字符串长度 len(s) 已天然包含 _ 和 .,重复累加会导致 col_length 被高估(如 ol 列:17 + 3 = 20),进而使所有后续列位置整体右偏。

✅ 修正后完整实现:

positions = {}
current_pos = 0

for col in df.columns:
    # 关键:仅取字符串最大长度,无需额外加特殊字符数
    col_length = df[col].astype(str).apply(len).max()
    positions[col] = (current_pos, current_pos + col_length)
    current_pos += col_length + 1  # +1 跳过列间 '\t'

positions_df = pd.DataFrame(list(positions.items()), columns=['Variable', 'Position'])
print(positions_df)

输出:

  Variable  Position
0       ol   (0, 17)
1       nl  (18, 23)
2      nol  (24, 26)
3     nolp  (27, 29)
4    nolxx  (30, 33)

? 验证一致性(手动检查首行):

  • 'H_KXKnn1_01_p_lk0' → len=17 → [0:17]
  • \t → 占位 1 → 下一列起始为 17
  • '12.01' → len=5 → [18:23](因 17+1=18, 18+5=23)
  • \t → [23:24]
  • 'Xn' → len=2 → [24:26]
  • 依此类推,完全匹配预期。

? 注意事项:

  • 此方法假设所有值转为字符串后无换行符(\n)、制表符(\t)或不可见控制字符;如有,需预处理清洗。
  • 若数据含 NaN,str(NaN) 为 'nan'(长度 3),需根据业务决定是否用 fillna() 统一占位符(如 '' 或 'NULL')并重新计算长度。
  • 该位置体系仅适用于纯 \t 分隔且无引号包裹的导出格式(即 quoting=csv.QUOTE_NONE,默认满足);若启用引号(如 quotechar='"'),需额外计入引号长度。

掌握这一精准定位逻辑,可为下游系统提供可靠的字段坐标映射,是构建稳健数据交换管道的重要基础。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

76

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

12

2026.01.31

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

251

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

988

2024.03.01

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

678

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

219

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1561

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

645

2023.11.24

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

3

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号