0

0

如何检测数据中的异常数值(NaN、None、无穷大等)

花韻仙語

花韻仙語

发布时间:2026-01-03 21:18:09

|

677人浏览过

|

来源于php中文网

原创

如何检测数据中的异常数值(NaN、None、无穷大等)

本文介绍在数据管道验证中高效识别异常数值(如 nan、none、inf/-inf)的专业方法,涵盖 python 原生与 numpy 双方案,强调 `math.isfinite()` 的核心作用,并指出常见误区与最佳实践。

在构建健壮的数据处理流水线时,仅依赖数值范围校验(如 x ∈ [-10, 10])无法捕获语义非法值——例如 float('nan')、float('inf')、None 或非数字类型(如字符串 'missing')。这些值虽可能通过范围检查(如 nan > 10 返回 False),但参与后续计算将导致静默错误或崩溃。因此,语义合法性验证必须先于范围验证

✅ 推荐方案:使用 math.isfinite()

Python 标准库的 math.isfinite(x) 是最简洁、准确的判断函数:它同时排除 NaN、+inf 和 -inf,且要求 x 为合法数字类型(int/float)。注意:它不接受 None 或字符串,因此需前置类型检查。

import math

def is_good_number(x) -> bool:
    """判断单个值是否为合法有限数(排除 NaN、Inf、None、str 等)"""
    return isinstance(x, (int, float)) and not isinstance(x, bool) and math.isfinite(x)

# 测试用例
test_cases = [1.5, -42, 0, float('nan'), float('inf'), float('-inf'), None, "123", True, False]
for x in test_cases:
    print(f"{repr(x):>12} → {is_good_number(x)}")

输出:

         1.5 → True
        -42 → True
         0 → True
     nan → False
     inf → False
    -inf → False
    None → False
     '123' → False
      True → False   # bool 是 int 子类,需显式排除
     False → False
⚠️ 关键注意:bool 在 Python 中是 int 的子类(isinstance(True, int) == True),但业务中通常不视为“数字”。因此建议显式排除 bool 类型,避免误判。

? 批量校验:高效检查整个数据集

对列表、数组或 Pandas Series 进行批量验证时,推荐以下方式:

TemPolor
TemPolor

AI音乐生成器,一键创作免版税音乐

下载

纯 Python(小数据集):

def all_good_numbers(data) -> bool:
    return all(is_good_number(x) for x in data)

data = [1.0, -3.14, 0, 999]
print(all_good_numbers(data))  # True

NumPy 加速(大数据集):

import numpy as np

def all_good_numbers_np(arr) -> bool:
    arr = np.asarray(arr)
    # 先转为浮点,再用 isnan/isinf;注意:None 会转为 nan
    if arr.dtype == object:
        # 对 object 数组,先逐元素检查类型和有限性
        return all(is_good_number(x) for x in arr.flat)
    return np.all(np.isfinite(arr))

# 示例
arr = np.array([1.0, 2.5, -np.inf, 0.0])
print(all_good_numbers_np(arr))  # False

❌ 常见误区与替代方案辨析

  • 不要用 x == x 检测 NaN:虽然 nan != nan 成立,但该方式无法区分 None 或字符串,且可读性差;
  • 避免 np.isnan(x) 单独使用:它对非数字类型(如 None、字符串)抛出 TypeError,需额外 try-except;
  • 慎用范围检查替代:-10
  • Pandas 用户注意:pd.isna(x) 可统一检测 NaN、None、pd.NaT,但不识别 inf,需组合 np.isfinite() 使用:
    import pandas as pd
    s = pd.Series([1, np.nan, np.inf, None])
    valid_mask = ~pd.isna(s) & np.isfinite(s)  # 正确:同时排除 NaN/None/Inf

✅ 总结:三步验证法(生产推荐)

  1. 类型安全:isinstance(x, (int, float)) and not isinstance(x, bool)
  2. 数学合法性:math.isfinite(x)(一揽子排除 NaN/Inf/-Inf)
  3. 业务范围校验(可选):min_val

将这三步封装为可复用的验证器,即可为数据管道筑牢第一道质量防线。记住:“好数字”的定义首先是“能参与数学运算而不崩溃”,其次才是“符合业务逻辑范围”。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

78

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

12

2026.01.31

css中float用法
css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列,用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容,可以阅读本专题下面的文章。

594

2024.04.28

C++中int、float和double的区别
C++中int、float和double的区别

本专题整合了c++中int和double的区别,阅读专题下面的文章了解更多详细内容。

105

2025.10.23

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

739

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

220

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1564

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号