
SQL DISTINCT 关键字详解:高效去除重复行
SQL 中的 DISTINCT 关键字主要用于过滤查询结果中的重复行,确保返回结果集中每一行数据的唯一性。
DISTINCT 工作机制
SELECT 查询有时会返回包含重复行的结果。DISTINCT 关键字的作用就是去除这些冗余数据,仅保留每组唯一值的单一行记录。
语法
SELECT DISTINCT column1, column2, ... FROM table_name;
示例
1. 去除重复值
假设有一个名为 employees 的员工表:
| employeeid | department |
|---|---|
| 1 | hr |
| 2 | it |
| 3 | hr |
| 4 | sales |
执行以下查询:
SELECT DISTINCT department FROM employees;
结果:
| department |
|---|
| hr |
| it |
| sales |
如您所见,重复的 "hr" 部门已被去除。
2. 选择唯一组合
考虑另一个名为 orders 的订单表:
| orderid | customerid | productid |
|---|---|---|
| 101 | 1 | a |
| 102 | 1 | b |
| 103 | 1 | a |
| 104 | 2 | c |
执行以下查询:
SELECT DISTINCT CustomerID, ProductID FROM Orders;
结果:
| customerid | productid |
|---|---|
| 1 | a |
| 1 | b |
| 2 | c |
DISTINCT 根据 customerid 和 productid 的组合去除了重复行。
DISTINCT 的应用场景
- 获取唯一值: 当需要查找某列或列组合中的所有唯一值时。例如,列出数据库中所有不同的产品类别。
- 去除冗余数据: 在数据分析或报告中,如果不需要重复行时。例如,从员工表中获取唯一的部门名称。
- 数据清洗: 用于清理数据集,去除重复数据。
DISTINCT 的局限性
-
性能影响:
DISTINCT会增加查询执行时间,尤其是在大型数据集上,因为它需要扫描和比较所有行。 -
无法实现条件去重: 如果需要根据特定条件去除重复数据(例如,保留每个唯一值的最新行),则需要使用其他技术,例如
ROW_NUMBER()函数。
使用 DISTINCT 的技巧
- 仅在必要时使用
DISTINCT,因为它会影响性能。 - 对于复杂的去重操作,考虑使用聚合函数 (
GROUP BY) 或分析函数作为替代方案。
总结
DISTINCT 关键字是 SQL 中一个简洁而强大的工具,用于去除查询结果中的重复行,从而确保结果数据的唯一性。在使用时,应权衡其性能影响,并根据实际需求选择合适的技术。










