0

0

SQL业务数据清洗如何处理_空值异常值处理完整流程【指导】

舞夢輝影

舞夢輝影

发布时间:2025-12-20 11:03:07

|

621人浏览过

|

来源于php中文网

原创

SQL数据清洗需先识别再分类后处置空值与异常值:空值分NULL和空字符串分别查询并统计缺失率;关键字段为空则删除,数值型填0或均值,分类字段填'unknown';异常值依业务规则界定并标记后谨慎处理。

sql业务数据清洗如何处理_空值异常值处理完整流程【指导】

SQL业务数据清洗中,空值和异常值是影响分析结论准确性的两大核心问题。处理不能一删了之,需结合业务逻辑判断:空值是否代表“未发生”还是“数据丢失”,异常值是否真实存在还是录入错误。关键在于先识别、再分类、后处置。

识别空值:分字段检查 + 统计比例

空值不是简单的“空白”,而是数据库中的 NULL 或空字符串(''),二者含义不同,需分开查:

  • 查 NULL 值:用 IS NULL,例如 SELECT * FROM orders WHERE amount IS NULL;
  • 查空字符串:用 = '',例如 SELECT * FROM users WHERE phone = '';
  • 统计各字段缺失率:便于优先处理关键字段,例如
    SELECT
      COUNT(*) AS total,
      COUNT(user_id) AS user_id_nonnull,
      1 - COUNT(user_id)/COUNT(*) AS user_id_null_ratio
    FROM userbehavior;

处置空值:按字段重要性选择策略

不建议全局删除,应分场景处理:

快剪辑
快剪辑

国内⼀体化视频⽣产平台

下载
  • 关键字段(如订单ID、用户ID)为空 → 直接删除整行:DELETE FROM orders WHERE order_id IS NULL;
  • 数值型字段(如销售额、数量)可填充为 0 或均值:UPDATE sales SET revenue = COALESCE(revenue, 0);
  • 分类字段(如渠道来源、商品类目)宜填充为 'unknown''other',保留维度可用性:UPDATE userbehavior SET source = COALESCE(source, 'unknown');
  • 时间字段为空且无法推断 → 不建议填默认值,可设为 NULL 并在后续分析中显式过滤

识别异常值:从业务规则出发定义边界

异常 ≠ 错误,要靠业务常识划界。例如:

  • 年龄字段:WHERE age 120
  • 下单时间早于注册时间:需关联两张表做逻辑校验
  • 单笔订单金额远超历史均值 5 倍以上:用子查询计算阈值:SELECT * FROM orders WHERE amount > (SELECT AVG(amount)*5 FROM orders);
  • 行为时间戳超出业务周期(如只跑 2017-11 至 12 月数据):WHERE FROM_UNIXTIME(`timestamp`, '%Y-%m-%d') NOT BETWEEN '2017-11-25' AND '2017-12-03';

处置异常值:保留证据,慎用 DELETE

推荐先标记再处理,避免误删:

  • 新增标记列记录问题类型:ALTER TABLE userbehavior ADD COLUMN clean_flag VARCHAR(20);
  • 将疑似异常行打标:UPDATE userbehavior SET clean_flag = 'age_outlier' WHERE age 120;
  • 对确认错误的数据,再执行清理:DELETE FROM userbehavior WHERE clean_flag = 'age_outlier';
  • 对存疑但可能真实的数据(如超高客单价),改用 CASE WHEN 替换为上限值:SELECT item_id, CASE WHEN price > 10000 THEN 10000 ELSE price END AS clean_price FROM products;

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

678

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

320

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

346

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1095

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

357

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

675

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

573

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

415

2024.04.29

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

2

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.2万人学习

swoole入门物联网开发与实战
swoole入门物联网开发与实战

共15课时 | 1.2万人学习

swoole项目实战(第二季)
swoole项目实战(第二季)

共15课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号