在SQL表中查找重复值

使用一个字段很容易找到重复项：

SELECT email, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

所以如果我们有一张桌子

ID   NAME   EMAIL
1    John   asd@asd.com
2    Sam    asd@asd.com
3    Tom    asd@asd.com
4    Bob    bob@asd.com
5    Tom    asd@asd.com

这个查询将告诉我们John、Sam、Tom和Tom，因为他们都有相同的电子邮件。

然而，我想要的是获得相同电子邮件和名称的副本。

也就是说，我想得到“汤姆”，“汤姆”。

我需要这个的原因是：我犯了一个错误，允许插入重复的名称和电子邮件值。现在我需要删除/更改重复项，所以我需要先找到它们。

当前回答

派对晚了一点，但我找到了一个非常酷的解决方法来查找所有重复的ID：

SELECT email, GROUP_CONCAT(id)
FROM   users
GROUP  BY email
HAVING COUNT(email) > 1;

2015-11-17 10:21:14

其他回答

SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

只需在两列上分组。

注意：旧的ANSI标准是在GROUP BY中包含所有非聚合列，但这已经随着“功能依赖性”的思想而改变：

在关系数据库理论中，函数依赖是数据库关系中两组属性之间的约束。换句话说，函数依赖是描述关系中属性之间关系的约束。

支持不一致：

最近的PostgreSQL支持它。SQL Server（截至SQL Server 2017）仍然需要GROUP BY中的所有非聚合列。MySQL是不可预测的，您需要sql_mode=only_full_group_by：GROUP BY lname ORDER BY显示错误结果；在缺少ANY（）的情况下，这是最便宜的聚合函数（请参阅公认答案中的注释）。甲骨文还不够主流（警告：幽默，我不了解甲骨文）。

2010-04-07 18:20:18

从表中的重复记录检查。

select * from users s 
where rowid < any 
(select rowid from users k where s.name = k.name and s.email = k.email);

select * from users s 
where rowid not in 
(select max(rowid) from users k where s.name = k.name and s.email = k.email);

删除表中的重复记录。

delete from users s 
where rowid < any 
(select rowid from users k where s.name = k.name and s.email = k.email);

delete from users s 
where rowid not in 
(select max(rowid) from users k where s.name = k.name and s.email = k.email);

2019-03-18 17:32:16

尝试此代码

WITH CTE AS

( SELECT Id, Name, Age, Comments, RN = ROW_NUMBER()OVER(PARTITION BY Name,Age ORDER BY ccn)
FROM ccnmaster )
select * from CTE

2014-09-13 04:03:53

这将从每组重复项中选择/删除除一条记录之外的所有重复记录。因此，删除操作会留下所有唯一的记录+每组重复项中的一条记录。

选择重复项：

SELECT *
FROM <table>
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY <column1>, <column2>
);

删除重复项：

DELETE FROM <table>
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY <column1>, <column2>
);

请注意大量的记录，这可能会导致性能问题。

2017-02-22 15:02:29

在使用Microsoft Access的情况下，此方法有效：

CREATE TABLE users (id int, name varchar(10), email varchar(50));

INSERT INTO users VALUES (1, 'John', 'asd@asd.com');
INSERT INTO users VALUES (2, 'Sam', 'asd@asd.com');
INSERT INTO users VALUES (3, 'Tom', 'asd@asd.com');
INSERT INTO users VALUES (4, 'Bob', 'bob@asd.com');
INSERT INTO users VALUES (5, 'Tom', 'asd@asd.com');

SELECT name, email, COUNT(*) AS CountOf
FROM users
GROUP BY name, email
HAVING COUNT(*)>1;

DELETE *
FROM users
WHERE id IN (
    SELECT u1.id 
    FROM users u1, users u2 
    WHERE u1.name = u2.name AND u1.email = u2.email AND u1.id > u2.id
);

感谢Tancrede Chazallet的删除代码。

2020-12-16 15:50:06

在SQL表中查找重复值

推荐文章

最新文章

标签