SQL如何过滤重复记录_DISTINCT关键字与ROW_NUMBER过滤

P粉602998670

发布时间：2026-03-15 19:25:03

500人浏览过

来源于php中文网

原创

DISTINCT按整行去重，字段值任意不同即视为不重复；需按业务规则保留某条记录时应使用ROW_NUMBER()窗口函数配合PARTITION BY和ORDER BY。

sql如何过滤重复记录_distinct关键字与row_number过滤

用 `DISTINCT` 去重时，为什么结果还是有“重复”？

因为 DISTINCT 是对整行去重，不是按某个字段。只要任意一列值不同，两行就被视为不重复。

常见错误现象：SELECT DISTINCT name, email, created_at FROM users 返回了多个同名同邮箱的记录——因为 created_at 时间戳不同。

如果只想按 name 和 email 去重，必须先决定保留哪一条（比如最新/最早），DISTINCT 本身不支持这个逻辑
DISTINCT 无法跳过 NULL 值特殊处理：两个 NULL 在多数数据库中被视为“相等”，但有些场景下（如 GROUP BY 后聚合）行为不一致
性能影响：全字段去重会加大排序/哈希开销，尤其在宽表或大结果集上比只选关键字段慢不少

`ROW_NUMBER()` 窗口函数去重的实际写法

真正可控的去重靠 ROW_NUMBER() 配合子查询或 CTE，核心是“分组 + 排序 + 取第 1 条”。

使用场景：需要按业务规则保留某条记录，比如每个用户只留最新登录记录、每个订单只留首条发货明细。

Fotor

Fotor 在线照片编辑器

下载

示例（PostgreSQL / SQL Server / MySQL 8.0+）：

SELECT id, user_id, order_time, status
FROM (
  SELECT id, user_id, order_time, status,
         ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_time DESC) AS rn
  FROM orders
) t
WHERE rn = 1;

PARTITION BY user_id 定义“去重维度”，相当于“每组内独立编号”
ORDER BY order_time DESC 决定谁排第一；升序则取最早，降序取最新
注意：MySQL 5.7 或更早不支持窗口函数，强行用会报错 ERROR 1064
如果分区键含 NULL，不同数据库处理方式不同（如 PostgreSQL 把 NULL 视为同一组，Oracle 默认不合并）

`DISTINCT` 和 `ROW_NUMBER()` 的选择依据

别凭感觉选，看数据语义和控制粒度。

纯字段组合唯一性校验、导出报表初筛、临时查重 —— 用 DISTINCT，简单直接
要保留完整行且必须指定优先级（如“最新”“最高金额”“非空邮箱优先”）—— 必须用 ROW_NUMBER() 或类似窗口函数
如果只是想删库里的重复数据，ROW_NUMBER() + DELETE 是主流做法，但注意某些数据库（如 MySQL）不允许在子查询中直接 DELETE 同一张表，得套一层 CTE 或临时表
兼容性提醒：SQLite 直到 3.25.0 才支持窗口函数，旧版本只能用关联子查询模拟，性能差很多

容易被忽略的 NULL 处理和索引影响

去重逻辑里，NULL 不是“空值”，它是未知值，在比较和分组中行为特殊。

DISTINCT 中，(1, NULL) 和 (1, NULL) 通常算重复；但 (1, NULL) 和 (1, 'a') 肯定不重复
ROW_NUMBER() OVER (PARTITION BY col)：若 col 是 NULL，大多数数据库会把所有 NULL 值归为同一组（PostgreSQL / SQL Server 是这样；Oracle 需显式写 col IS NULL 才能捕获）
性能陷阱：没给 PARTITION BY 字段建索引，ROW_NUMBER() 会强制全表扫描+排序，百万级表可能秒变几十秒
如果业务允许，提前用 WHERE col IS NOT NULL 过滤，能显著减少窗口计算量

实际去重没有银弹。DISTINCT 简单但死板，ROW_NUMBER() 灵活但得写清楚排序逻辑，而 NULL 和索引这两块，十次有八次会漏掉。

相关标签:

sql mysql NULL select Error delete sqlite oracle postgresql 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：SQL数据倾斜问题解决_数据分布均衡策略下一篇：暂无

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

1135

2023.10.12