去重关键在明确去重维度和是否保留原始行信息:DISTINCT适用于整行唯一且无需聚合的场景;GROUP BY支持分组聚合与HAVING筛选;窗口函数如ROW_NUMBER()可精准控制每组保留哪一行。

SQL去重查询核心靠 DISTINCT 和 GROUP BY,但选错方法容易拖慢速度、漏数据或逻辑出错。关键不在“能不能去重”,而在“按什么维度去重”和“要不要保留原始行信息”。
用 DISTINCT 快速筛出唯一值
适合只要结果不重复,不关心原始行数或其它字段关联的场景。它作用于整行(所有 SELECT 字段组合),只要有一列不同,就算不同记录。
- 写法简单:SELECT DISTINCT name, city FROM users; —— 返回 name+city 组合唯一的行
- 注意:DISTINCT 必须放在 SELECT 后第一个位置,不能写成 SELECT name, DISTINCT city
- 性能提示:在 name 和 city 上建联合索引,能显著加速 DISTINCT 执行
- 限制:无法配合聚合函数(如 COUNT、MAX)直接使用,也不能过滤去重后的结果(WHERE 不生效于去重后)
用 GROUP BY 实现带逻辑的去重
当你需要“每个分组只留一行”,同时还要取该组的某个代表值(比如最新时间、最高分数),GROUP BY 就比 DISTINCT 更灵活有力。
- 基础写法:SELECT user_id, MAX(create_time) FROM orders GROUP BY user_id; —— 每个用户取最后下单时间
- 想查完整行?得配合子查询或窗口函数,例如用 ROW_NUMBER() 标记每组序号再筛选第1条
- GROUP BY 字段必须出现在 SELECT 中(除非是聚合列),否则报错(SQL 标准严格模式下)
- 小技巧:加 HAVING 可过滤分组结果,比如 HAVING COUNT(*) > 1 查出重复用户
用窗口函数精准控制“留哪一行”
当业务要求明确——比如“每个手机号只留注册时间最早的那条用户记录”,DISTINCT 和 GROUP BY 都不够直接,这时窗口函数是更优解。
- 典型写法:SELECT * FROM (SELECT *, ROW_NUMBER() OVER (PARTITION BY phone ORDER BY create_time) rn FROM users) t WHERE rn = 1;
- PARTITION BY 定义去重维度(如 phone),ORDER BY 决定保留优先级(早注册排第1)
- ROW_NUMBER() 保证每组编号唯一;用 RANK() 或 DENSE_RANK() 则会处理并列情况(按需选择)
- 优势:不丢失原始字段,支持复杂排序逻辑,且可扩展做分页、TopN 等
避免常见坑:NULL、大小写、空格也参与去重
DISTINCT 和 GROUP BY 默认把 NULL 当作相同值处理,但大小写敏感性取决于字段的 collation(排序规则),空格前后也可能影响结果一致性。
- 字符串去重前建议统一处理:TRIM(UPPER(name)) 再 DISTINCT,避免 'Tom' 和 'tom ' 被当成两条
- 含 NULL 的字段参与 GROUP BY 时,所有 NULL 会被归为同一组——合理,但需确认是否符合业务预期
- 如果表很大,先 WHERE 过滤再 DISTINCT,比全表去重快得多(例如加 WHERE status = 'active')
- 临时表或 CTE 预处理重复逻辑,比嵌套多层子查询更易读、更好优化
基本上就这些。去重不是语法难题,而是对业务规则的理解题——想清楚“什么是重复”“该留谁”“要不要追溯原始数据”,再选工具,效率和准确性自然到位。










