SQL 实战：复杂数据去重与唯一值提取

在实际开发中，数据重复是常见问题，例如用户多次登录记录、订单状态重复更新等。如何高效提取符合业务需求的唯一值或最新记录，对系统性能和数据准确性至关重要。

本文将探讨如何使用 SQL 的 窗口函数、分组查询 以及 DISTINCT 实现复杂场景下的数据去重与唯一值提取，避免重复数据干扰业务分析。

一、核心 SQL 函数与技术

函数/技术

说明

示例

DISTINCT

去除重复行，返回唯一记录

SELECT DISTINCT(user_id) FROM logins

GROUP BY

按指定列分组，返回每组的聚合结果

SELECT user_id, MAX(login_time) FROM logins GROUP BY user_id

ROW_NUMBER()

窗口函数，为每组记录编号，通常用于去重或排名

ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC)

RANK()

类似 ROW_NUMBER()，但排名相同记录具有相同序号

RANK() OVER (PARTITION BY user_id ORDER BY score DESC)

DENSE_RANK()

连续排名，不跳跃

DENSE_RANK() OVER (PARTITION BY user_id ORDER BY amount DESC)

二、实战案例

案例 1：查询每个用户的最新登录记录

需求描述：
系统中存储了用户的多次登录记录，我们需要提取每个用户最近的一次登录记录，去除重复数据。

表结构 `logins`

login_id

user_id

login_time

101

2024-01-01 08:30:00

102

2024-01-02 10:00:00

103

2024-01-01 09:15:00

104

2024-01-03 14:45:00

105

2024-01-02 11:00:00

方法 1：使用 GROUP BY 结合 MAX()

SELECT user_id, MAX(login_time) AS latest_login  
FROM logins  
GROUP BY user_id;

查询结果

user_id

latest_login

2024-01-02 10:00:00

2024-01-03 14:45:00

2024-01-02 11:00:00

解释：

通过 GROUP BY user_id 对每个用户分组，MAX(login_time) 提取每组中最新的登录时间。
该方法高效，适用于简单去重场景，但无法返回完整的记录（如 login_id）。

方法 2：使用窗口函数 ROW_NUMBER()

SELECT login_id, user_id, login_time  
FROM (  SELECT login_id, user_id, login_time,  ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC) AS rn  FROM logins  
) t  
WHERE rn = 1;

查询结果

login_id

user_id

login_time

102

2024-01-02 10:00:00

104

2024-01-03 14:45:00

105

2024-01-02 11:00:00

解释：

ROW_NUMBER() 为每个用户的登录记录按时间降序排序，并按用户分区。
只保留排名为 1 的记录，即最新的登录记录。
优势：保留了原始记录的完整性（包括 login_id）。

案例 2：提取每个用户的最高订单金额记录

需求描述：
在电商系统中，每个用户可能有多笔订单，我们需要提取每个用户最高的订单记录。

表结构 `orders`

order_id

user_id

amount

order_time

1001

500

2024-01-05 09:00:00

1002

800

2024-01-06 14:00:00

1003

1200

2024-01-04 16:30:00

1004

900

2024-01-05 11:00:00

1005

700

2024-01-06 10:00:00

方法 1：使用 RANK() 保留最高金额记录

SELECT order_id, user_id, amount, order_time  
FROM (  SELECT order_id, user_id, amount, order_time,  RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rnk  FROM orders  
) t  
WHERE rnk = 1;

查询结果

order_id

user_id

amount

order_time

1002

800

2024-01-06 14:00:00

1003

1200

2024-01-04 16:30:00

1005

700

2024-01-06 10:00:00

解释：

RANK() 允许处理最高金额相同的情况，例如如果两个订单金额相同，则两条记录都将保留。
区别：RANK() 和 DENSE_RANK() 不会跳跃记录，而 ROW_NUMBER() 只保留一条记录。

案例 3：去除重复订单记录，保留最新一笔

需求描述：
订单系统中可能存在重复提交的订单记录，如何保留每个用户最新的一笔订单。

SQL 实现

DELETE t1  
FROM orders t1  
JOIN orders t2  
ON t1.user_id = t2.user_id  
AND t1.order_time < t2.order_time;

解释：

通过自联结（JOIN）比较同一用户的订单时间，保留最新的订单记录，删除早期的重复记录。

三、去重与唯一值提取的优化建议

使用窗口函数提升性能：
窗口函数如 ROW_NUMBER() 和 RANK() 能够在一次查询中完成分组与排序，减少多次查询操作，提高去重效率。
索引优化：
在频繁去重或分组查询的场景下，为分组字段（如 user_id）和时间字段（如 login_time）创建索引，可以显著提升查询性能。

CREATE INDEX idx_user_login ON logins(user_id, login_time DESC);
聚合函数慎用：
在只需要统计数据时，可以使用 GROUP BY 和 MAX()，但在保留完整记录时，应选择窗口函数进行精细控制。

四、总结

去重策略多样化：根据业务需求选择合适的去重方法，GROUP BY 适用于简单去重，ROW_NUMBER() 和 RANK() 适用于复杂场景。
窗口函数灵活高效：ROW_NUMBER() 等函数可以在保留完整记录的同时，精确筛选唯一值，解决复杂去重需求。
索引优化：在大数据量环境下，合理使用索引能有效提升去重查询的性能。

SQL 实战：复杂数据去重与唯一值提取

一、核心 SQL 函数与技术

二、实战案例

案例 1：查询每个用户的最新登录记录

表结构 `logins`

方法 1：使用 GROUP BY 结合 MAX()

方法 2：使用窗口函数 ROW_NUMBER()

案例 2：提取每个用户的最高订单金额记录

表结构 `orders`

方法 1：使用 RANK() 保留最高金额记录

案例 3：去除重复订单记录，保留最新一笔

SQL 实现

三、去重与唯一值提取的优化建议

四、总结

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

SQL 实战：复杂数据去重与唯一值提取

一、核心 SQL 函数与技术

二、实战案例

案例 1：查询每个用户的最新登录记录

表结构 logins

方法 1：使用 GROUP BY 结合 MAX()

方法 2：使用窗口函数 ROW_NUMBER()

案例 2：提取每个用户的最高订单金额记录

表结构 orders

方法 1：使用 RANK() 保留最高金额记录

案例 3：去除重复订单记录，保留最新一笔

SQL 实现

三、去重与唯一值提取的优化建议

四、总结

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

表结构 `logins`

表结构 `orders`