pandas 如何在 read_csv 时强制某些列为 nullable integer 类型

冷漠man

发布时间：2026-01-28 16:10:03

864人浏览过

来源于php中文网

原创

read_csv 默认不推断 nullable integer（如 Int64）是因为其默认整数类型 int64 不支持 NaN，遇缺失值即退化为 float64；Int64 虽支持整数+NaN，但需显式指定 dtype 或配合 na_values、converters 处理脏数据。

pandas 如何在 read_csv 时强制某些列为 nullable integer 类型

为什么 `read_csv` 默认不推断 nullable integer（如 `Int64`）？

pandas 的默认整数类型是 int64，它不能容纳 NaN；一旦列里有缺失值，read_csv 就会退化为 float64。而 Int64（首字母大写）是 pandas 的 nullable integer 类型，专为“整数 + NaN”设计，但不会被自动选中——必须显式指定。

用 `dtype` 参数直接指定 `Int64`

最直接的方式是在调用 read_csv 时通过 dtype 字典声明目标列为 "Int64"（字符串形式）或 pd.Int64Dtype()（对象形式）：

import pandas as pd
df = pd.read_csv("data.csv", dtype={"age": "Int64", "user_id": "Int64"})

"Int64" 字符串写法更简洁，推荐用于简单场景
若列名含空格或特殊字符，必须用字符串键匹配原始列名
如果该列实际包含无法转为整数的值（如 "N/A"、"missing"），会报 ValueError: Integer column has NA values —— 此时需先用 na_values 告诉 pandas 哪些字符串算缺失

配合 `na_values` 处理非标准缺失标识

很多 CSV 用 "NULL"、"\N"、"-999" 表示缺失，pandas 默认不认识这些。若不提前声明，Int64 转换会失败：

艾绘

艾绘：一站式绘本创作平台，AI智能绘本设计神器！

下载

df = pd.read_csv(
    "data.csv",
    dtype={"score": "Int64"},
    na_values=["NULL", "\\N", "-999"]
)

na_values 必须在 dtype 之前生效，否则解析阶段已把非法字符串当有效值读入，后续转 Int64 就会崩
注意：na_values 是全局设置，会影响所有列；若只想对某列生效，得先用 converters 预处理

用 `converters` 实现更灵活的 per-column 类型控制

当某列混合了整数、空字符串、标记符（如 "NA"），且 na_values 不够用时，可用 converters 手动清洗后再转 Int64：

def to_nullable_int(x):
    if pd.isna(x) or x in ["", "NA", "NULL"]:
        return pd.NA
    try:
        return int(x)
    except (ValueError, TypeError):
        return pd.NA
df = pd.read_csv(
"data.csv",
converters={"flag": to_nullable_int},
dtype={"flag": "Int64"}  # 这行其实可省，因 converter 已返回 pd.NA + int
)

converters 优先级高于 dtype，适合做脏数据兜底
返回 pd.NA 是关键，只有这样后续列才能被正确识别为 nullable 类型
性能略低，大数据量时慎用

真正容易被忽略的是：nullable integer 类型在 groupby、merge、fillna 等操作中行为和普通 int 不同，比如 fillna(0) 后类型仍为 Int64，但 astype(int) 会直接报错——得用 astype("Int64").fillna(0).astype("int64") 显式降级。

veth 接口残留的 docker network prune 与 containerd 清理

python人马兽系列主要功能与应用场景

Python 缓存导致的内存风险

AWS Lambda 中数据库连接复用导致读写不一致问题的解决方案

haproxy backend down 但 curl 正常的 check port / interval 配置

相关标签:

大数据 csv 为什么 pandas Integer NULL 字符串 int 整数类型 Nullable 对象 column

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 正则表达式的执行原理下一篇：如何将按行分组的文本文件高效转换为结构化 CSV 文件

作者最新文章

枕刀歌游戏出了没枕刀歌什么时候发行

2026-01-28 13:42

枕刀歌官网入口枕刀歌官网网页版在线进入

2026-01-28 13:49

风灵月影官方登录入口风灵月影官方官方网址是什么

2026-01-28 13:55

ksoftirqd 高占用但 net_rx 正常的 block softirq / timer softirq 排查

2026-01-28 13:56

风铃月影官方入口地址风铃月影官方网页版在线链接

2026-01-28 13:56

美国科幻最高荣誉比赛正式对AI说不！创作过程「任何阶段」使用AI皆淘汰

2026-01-28 14:08

Python 字符编码问题的根本原因

2026-01-28 14:38

deepseek解除限制提示词 DeepSeek突破功能限制方法

2026-01-28 14:42

ipvsadm vip 无 ARP 响应的 keepalived vrrp 配置配合

2026-01-28 14:43

Python 类与实例的属性查找顺序

2026-01-28 15:28

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

236

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

458

2024.03.01

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

298

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

212

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1501

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

624

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

613

2024.03.22