DISTINCT用于SQL查询结果整行去重,非单字段去重;适用于查某字段所有不同值、多字段唯一组合等场景;不能保证保留哪条原始记录,需配合窗口函数或GROUP BY实现精准去重。

DISTINCT 是 SQL 中最常用的去重关键字,它能直接在查询结果中剔除重复行,让每条记录唯一。但它的行为有明确规则——是基于整行数据完全相同才去重,不是针对某一个字段单独“去重”。用错场景或忽略细节,容易导致结果不符合预期。
什么时候该用 DISTINCT
适合以下典型场景:
- 查某个字段的所有不同取值,比如“查出所有销售地区”:
SELECT DISTINCT region FROM orders; - 查多个字段组合的唯一组合,比如“查出所有出现过的客户城市+省份搭配”:
SELECT DISTINCT city, province FROM customers; - 配合聚合函数前先确认维度唯一性,例如统计每个部门人数前,先确认 department 字段无歧义(虽然此时更常用 GROUP BY)
DISTINCT 不等于 “按某列删重”
很多人误以为 SELECT DISTINCT name FROM users 能返回“每个名字只留一条完整用户记录”,这是错的。DISTINCT 只影响结果集结构,不决定哪条原始记录被保留。它不会自动关联 id、email 等其他字段。
如果需要“每个名字只取一条最新/最早/指定条件的记录”,必须用 窗口函数(如 ROW_NUMBER) 或 GROUP BY + 聚合(如 MAX(id)) 配合子查询,不能只靠 DISTINCT。
性能和写法注意事项
DISTINCT 本质是排序或哈希去重,数据量大时可能明显拖慢查询:
- 尽量避免对多字段、长文本字段(如 description)使用 DISTINCT
- 在 WHERE 条件中提前过滤,减少参与去重的数据量
- DISTINCT 不能直接用于部分字段加别名后又引用原字段,例如
SELECT DISTINCT name AS n, id FROM t是合法的,但SELECT DISTINCT n, id(n 是别名)会报错——别名在 DISTINCT 执行时尚未生成 - NULL 值会被视为相同值:多行某字段为 NULL,DISTINCT 后只保留一个 NULL
替代方案比 DISTINCT 更精准的情况
当目标是“去重并保留某条代表记录”时,推荐以下方式:
- 用
ROW_NUMBER() OVER (PARTITION BY name ORDER BY create_time DESC)标记每组内的序号,再取 rn = 1 的行 - 用
GROUP BY name配合MAX(id)或MIN(create_time)获取关联字段 - 某些数据库支持
SELECT DISTINCT ON (name) *(PostgreSQL),可按 name 分组取首行,但非标准 SQL,移植性差
不复杂但容易忽略:DISTINCT 是结果级去重,不是逻辑级筛选。想控制“留哪一条”,得靠排序、分组或窗口函数来定义规则。










