SQL 如何处理分析中的缺失值？

舞夢輝影

发布时间：2026-01-23 20:18:45

761人浏览过

来源于php中文网

原创

NULL是缺失标记而非值，WHERE中必须用IS NULL而非= NULL；GROUP BY将NULL视为相等并归为一组；JOIN时NULL无法匹配，需用LEFT JOIN配合COALESCE处理。

sql 如何处理分析中的缺失值？

WHERE 子句中 `IS NULL` 和 `= NULL` 的区别必须分清

SQL 里 NULL 不是值，而是“缺失”的标记，所以不能用等号判断。写 WHERE column = NULL 永远不返回任何行，因为 NULL = NULL 返回 UNKNOWN，而 WHERE 只接受 TRUE。

正确写法只有：WHERE column IS NULL 或 WHERE column IS NOT NULL。

某些方言（如 PostgreSQL）支持 IS DISTINCT FROM，能安全比较含 NULL 的字段，但 MySQL、SQL Server 不支持
COALESCE(column, 'default') 常用来临时替换 NULL，但注意它会改变原始数据语义，做统计前要确认是否合理
聚合函数如 COUNT(column) 自动忽略 NULL，但 COUNT(*) 统计所有行——这点常被误用

GROUP BY 中遇到 `NULL` 会被当成同一组吗？

是的。在标准 SQL 中，所有 NULL 在 GROUP BY 中被视为相等，会归入同一组。比如 SELECT region, COUNT(*) FROM sales GROUP BY region，所有 region IS NULL 的记录会挤在一行里，显示为 NULL。

如果想把缺失值单独标记（比如叫 'Unknown'），得提前转换：

SELECT COALESCE(region, 'Unknown') AS region_group, COUNT(*) 
FROM sales 
GROUP BY COALESCE(region, 'Unknown');

别在 GROUP BY 里直接写 COALESCE(region, 'Unknown') 而不重命名，否则 SELECT 列名和 GROUP BY 表达式不一致，在严格模式（如 PostgreSQL）下报错
MySQL 5.7+ 默认开启 ONLY_FULL_GROUP_BY，要求 SELECT 中所有非聚合列必须出现在 GROUP BY 中，这时候裸写 region 会失败

窗口函数里 `NULL` 怎么影响排序和计算？

ORDER BY 在窗口函数中决定计算顺序，而 NULL 的排序行为因数据库而异：PostgreSQL 默认 NULLS LAST，MySQL 8.0 默认 NULLS FIRST（实际取决于版本和 SQL mode）。这会导致 ROW_NUMBER()、LAG() 等结果不一致。

吐槽大师

吐槽大师（Roast Master） - 终极 AI 吐槽生成器，适用于 Instagram，Facebook，Twitter，Threads 和 Linkedin

下载

显式声明更安全：

SELECT id, value,
       LAG(value) OVER (ORDER BY created_at NULLS LAST) AS prev_value
FROM logs;

LAG(value, 1, 0) 的第三个参数是默认值，当上一行是 NULL 或越界时返回 0，避免结果列出现意外 NULL
AVG() 窗口函数仍会跳过 NULL，但如果你先用 ROWS BETWEEN 2 PRECEDING AND CURRENT ROW 定义帧，空值不会被“补上”，只是参与计数但不参与求和——容易误判平均值分母

JOIN 时 `NULL` 匹配逻辑容易引发漏数据

两个表 ON 条件里如果涉及可能为 NULL 的字段（比如 ON a.category_id = b.id），而 a.category_id 是 NULL，那这行一定不会匹配成功——因为 NULL = anything 永远不成立。

若业务上希望把“未知分类”的记录也连过去（比如挂到 b.id IS NULL 的虚拟行），得拆成两步或改用条件逻辑：

用 LEFT JOIN 保证左表全量，再在 WHERE 或 SELECT 中用 COALESCE(b.name, 'Uncategorized') 标记
避免写 ON a.category_id = b.id OR a.category_id IS NULL——这会引发笛卡尔积，性能爆炸
部分场景更适合用 UNION ALL 分开处理：先正常 JOIN，再补上 a.category_id IS NULL 的行并关联默认值

缺失值不是技术边缘问题，它是分析链路里最常被静默吞掉的信息源。每加一层聚合、一次 JOIN、一个窗口定义，都得重新检查 NULL 是否还在按你设想的方式参与计算。

SQL如何实现全外连接_FULL OUTER JOIN与左右连接合并

MySQL如何实现全量与增量备份_mysqldump工具与binlog结合

MySQL如何实现级联复制_A到B到C架构设计与log_slave_updates

SQL如何在不加锁的情况下读取数据_快照读与当前读的区别

MySQL如何锁定恶意登录的用户账号_ACCOUNT LOCK与失败次数策略

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL 中条件顺序是否影响性能？下一篇：SQL 数据血缘关系如何梳理？

作者最新文章

Linux跨服务器同步数据_数据同步思路

2026-03-12 09:12

华为手表怎么连接手机打电话华为手表蓝牙通话设置方法

2026-03-12 09:42

Linux服务依赖异常处理_依赖关系排查

2026-03-12 10:57

视频号要怎么涨1000粉丝，2026年要怎么才能做好视频号

2026-03-12 10:57

视频号怎么快速涨1000粉？（教你一个简单实用的办法）

2026-03-12 11:03

PHP 自动加载机制面试高频题

2026-03-12 11:22

JavaScript代码压缩与混淆对运行环境执行的影响

2026-03-12 11:25

腾讯会议视频打不开是什么原因

2026-03-12 12:00

Linux挂载目录不可写_挂载权限问题分析

2026-03-12 13:20

Linux系统Swap交换分区创建管理及虚拟内存优化策略详解

2026-03-12 14:02

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1134

2023.10.12