0

0

SQL数据清洗常见操作_SQL处理脏数据技巧

冷漠man

冷漠man

发布时间:2025-12-04 20:13:02

|

714人浏览过

|

来源于php中文网

原创

SQL数据清洗核心是识别并修正不一致、重复、缺失或格式错误的数据,关键在于理清脏数据类型后用基础操作精准处理:空值需用IS NULL判断并填充或过滤;重复记录通过GROUP BY+HAVING查重、DELETE或建新表去重;文本用TRIM、REPLACE、UPPER等统一格式;数值/日期用范围校验和函数转换修复逻辑错误。

sql数据清洗常见操作_sql处理脏数据技巧

SQL数据清洗的核心是识别并修正不一致、重复、缺失或格式错误的数据,让原始数据变得可靠可用。关键不在于写多复杂的语句,而在于理清脏数据的类型,再用对应的基础操作精准处理。

处理空值和缺失数据

空值(NULL)最常见也最容易被忽略。直接用= NULL会失效,必须用IS NULLIS NOT NULL判断。

  • 填充默认值:用COALESCE(age, 0)把空年龄替换成0;用CASE WHEN name IS NULL THEN '未知' ELSE name END做条件替换
  • 过滤掉关键字段为空的行:WHERE email IS NOT NULL AND email != ''(注意还要排除空字符串)
  • 统计缺失比例有助于判断是否要删字段:SELECT COUNT(*)*100.0/COUNT(*) FROM table对比COUNT(col)

清理重复记录

重复可能源于导入错误或业务逻辑漏洞。先确认是否真要删——有时重复本身有业务含义(如多次下单),不能一概而论。

  • 查重:用GROUP BY + HAVING COUNT(*) > 1定位重复组合,例如SELECT email, COUNT(*) FROM users GROUP BY email HAVING COUNT(*) > 1
  • 删重(保留最小id):DELETE FROM users WHERE id NOT IN (SELECT MIN(id) FROM users GROUP BY email)
  • 更安全的做法是先创建去重后的新表,验证无误再替换原表

统一文本格式与异常字符

姓名、地址、电话等字段常混入空格、换行符、全角符号或大小写混乱。

PageOn
PageOn

AI驱动的PPT演示文稿创作工具

下载
  • 去首尾空格:TRIM(name);去全部空格:REPLACE(name, ' ', '')
  • 标准化大小写:UPPER(email)INITCAP(name)(PostgreSQL);MySQL可用CONCAT(UPPER(LEFT(name,1)), LOWER(SUBSTRING(name,2)))
  • 剔除不可见字符:REGEXP_REPLACE(phone, '[^0-9+\\-()]', '')(不同数据库语法略有差异,核心是正则匹配非预期字符)

校验和修正数值/日期逻辑错误

比如出生年份写成2025、订单金额为负数、注册时间晚于下单时间——这类问题靠约束难覆盖,得靠清洗脚本主动拦截。

  • BETWEEN或范围条件筛出异常值:WHERE age 120
  • 修复日期格式错乱:STR_TO_DATE(birth_str, '%Y-%m-%d')(MySQL)或TO_DATE(birth_str, 'YYYY-MM-DD')(PostgreSQL),失败时返回NULL便于后续处理
  • 业务逻辑校验举例:WHERE order_date 可找出明显不合理记录,人工复核或打标待处理

基本上就这些。SQL清洗不是一步到位的事,而是“查→标→修→验”的循环过程。真正耗时的往往不是写SQL,而是理解业务含义、定义什么是“脏”。定好规则,剩下的就是组合几个函数和子查询的事。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

683

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

322

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

348

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1095

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

358

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

677

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

575

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

417

2024.04.29

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

SQL 教程
SQL 教程

共61课时 | 3.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号