sql处理重复数据分三类:查重用distinct或group by+having;删重留一用cte+row_number()或自连接;预防靠unique/primary key约束。

SQL中处理重复数据,核心是区分场景:临时去重查数据用DISTINCT或GROUP BY,清理已有脏数据用DELETE配合子查询或CTE,预防未来重复则靠唯一约束(UNIQUE)或主键(PRIMARY KEY)。三者目标一致,但作用时机和持久性完全不同。
查重不删:快速识别重复记录
日常分析常需知道“哪些字段组合重复了、重复几次”,不改动原表。推荐用GROUP BY + HAVING:
-
SELECT name, email, COUNT(*) FROM users GROUP BY name, email HAVING COUNT(*) > 1;—— 找出姓名+邮箱完全相同的多条记录 - 若只要去重后的结果集(如报表展示),用
SELECT DISTINCT name, email FROM users;,但注意它对整行生效,无法保留ID等其他字段 - 想看每组重复的完整行?可用窗口函数:
SELECT *, COUNT(*) OVER (PARTITION BY name, email) AS dup_count FROM users;,再加WHERE dup_count > 1筛选
删重留一:安全清理历史脏数据
已有重复行需删除,但必须保留每组中的一条(如最新或最早那条)。避免直接DELETE全删,推荐用CTE或自关联:
- PostgreSQL / SQL Server / MySQL 8.0+ 支持CTE:
-
WITH duplicates AS (SELECT id, ROW_NUMBER() OVER (PARTITION BY name, email ORDER BY id DESC) rn FROM users) DELETE FROM users WHERE id IN (SELECT id FROM duplicates WHERE rn > 1);—— 按id降序,留最大ID的那条 - MySQL旧版本可用自连接:
DELETE u1 FROM users u1 INNER JOIN users u2 WHERE u1.email = u2.email AND u1.name = u2.name AND u1.id —— 删除ID较小的重复项
防重为先:用唯一约束堵住源头
最有效的重复控制不是事后清理,而是建表时或上线前加约束。唯一约束会拒绝插入/更新导致重复的操作,并报错提示:
- 单字段唯一:
ALTER TABLE users ADD CONSTRAINT uk_email UNIQUE (email); - 多字段联合唯一(如防同名同邮箱注册):
ALTER TABLE users ADD CONSTRAINT uk_name_email UNIQUE (name, email); - 注意:添加约束前务必确认当前数据无重复,否则语句会失败。可先用前面“查重”方法清完再加
- 若字段允许NULL,多数数据库将多个NULL视为不重复(标准行为),需留意业务是否接受
主键与唯一约束的区别要点
主键(PRIMARY KEY)本质是带NOT NULL + UNIQUE的特殊约束。选哪个?
- 有自然业务唯一标识(如身份证号、手机号)且不为空 → 可设为
PRIMARY KEY,但慎用,因主键常被外键引用,变更成本高 - 更常见做法:用自增
id作主键,再对业务字段(如email)加UNIQUE约束 —— 灵活、安全、符合规范 - 一个表只能有一个主键,但可有多个
UNIQUE约束










