0

0

Python 数据异常的快速定位方法

舞夢輝影

舞夢輝影

发布时间:2026-02-22 19:46:03

|

454人浏览过

|

来源于php中文网

原创

pandas.dataframe.info() 是定位数据异常的首要工具,可查看字段类型、缺失值数量和内存占用;若数值列显示为object,需用unique()检查是否混入空格或字符串;配合describe(include="all")、isna().sum()、duplicated().sum()和infer_dtype()可全面诊断脏数据。

python 数据异常的快速定位方法

pandas.DataFrame.info() 看清数据“底细”

DataFrame.info() 不只是查行列数,它直接暴露字段类型、缺失值数量和内存占用——这是定位异常的第一把尺子。很多“计算结果不对”其实源于某列本该是 int64 却被读成 object(比如混入了空格或“N/A”字符串),导致后续 .sum().mean() 静默跳过。

  • 运行 df.info() 后重点关注 Non-Null Count 列:若明显少于 Total Count,说明有缺失;但更要盯住 Dtype 是否符合预期
  • 如果某数值列显示为 object,别急着转换,先用 df["col"].unique()[:10] 看前10个值,常会发现 " ""-""NULL" 这类伪装成数值的字符串
  • info() 默认不显示全部列,列太多时加参数 verbose=True,或直接用 df.info(memory_usage="deep") 查内存暴增是否由字符串列引起

df.describe(include="all") 横向比对各列分布

describe() 默认只统计数值列,加上 include="all" 才能同时看到分类列的 uniquetopfreq,这对发现脏数据特别有用。比如某用户ID列本应唯一,但 unique 值远小于行数,说明重复或格式混乱。

  • 数值列的 min/max 出现明显离群值(如年龄=999、金额=-1),大概率是占位符没清洗
  • 字符串列的 top 值如果频繁出现 "unknown""--",要确认业务上是否允许,否则后续 groupby 会把它们全归一类
  • 注意 countunique 的差值:若差值大,说明大量重复值,可能意味着上游系统写入异常或去重逻辑失效

df.isna().sum()df.duplicated().sum() 量化异常规模

光看“有没有”不够,得知道“有多少”。isna().sum() 返回每列缺失数,duplicated().sum() 返回完全重复行数——这两个数字决定你该清洗还是换数据源。

95Shop仿醉品商城
95Shop仿醉品商城

95Shop可以免费下载使用,是一款仿醉品商城网店系统,内置SEO优化,具有模块丰富、管理简洁直观,操作易用等特点,系统功能完整,运行速度较快,采用ASP.NET(C#)技术开发,配合SQL Serve2000数据库存储数据,运行环境为微软ASP.NET 2.0。95Shop官方网站定期开发新功能和维护升级。可以放心使用! 安装运行方法 1、下载软件压缩包; 2、将下载的软件压缩包解压缩,得到we

下载
  • 缺失数占比超过 5% 的列,别急着用 fillna(),先查缺失是否集中在某时间段(如某天所有传感器断连),这种系统性缺失填了也没意义
  • duplicated() 默认检查所有列,但业务上可能只关心关键字段(如订单号+时间),这时改用 df.duplicated(subset=["order_id", "timestamp"])
  • 注意 df.duplicated(keep=False) 能标出所有重复项(包括首行),方便批量排查,而默认的 keep="first" 只标记后续重复行

pd.api.types.infer_dtype() 检查单列数据类型可信度

infer_dtype()dtype 更细粒度:它能告诉你一列是 stringmixed-integer 还是 floating,尤其适合发现“看似数字实则混杂”的列。

立即学习Python免费学习笔记(深入)”;

  • 对疑似问题列运行 pd.api.types.infer_dtype(df["col"]),若返回 mixedmixed-integer,基本可以确定存在非标准值
  • 它不修改数据,只诊断,所以可放心在生产环境小样本上跑,比如 pd.api.types.infer_dtype(df["price"].head(1000))
  • 返回 decimal 通常表示有 Decimal 对象混入,这会导致 numpy 运算报 TypeError: unsupported operand type(s)

真实数据里最麻烦的不是缺失或重复,而是那些“看起来正常却悄悄污染结果”的值——比如时间列里混进一个 "2023-02-30"to_datetime() 默认转成 NaT,但没人告诉你它在哪一行。这类问题必须结合多维度交叉验证,不能只信单一函数的输出。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

76

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

7

2026.01.31

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

311

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

223

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

77

2026.02.12

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

810

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

246

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

826

2024.03.01

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

1030

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 4.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号