如何删除重复的行?

我需要从一个相当大的SQL Server表(即300,000+行)中删除重复的行。

当然，由于RowID标识字段的存在，这些行不会完全重复。

MyTable

RowID int not null identity(1,1) primary key,
Col1 varchar(20) not null,
Col2 varchar(2048) not null,
Col3 tinyint not null

我该怎么做呢?

当前回答

哦,当然。使用临时表。如果你想要一个“工作”的单一的、性能不太好的语句，你可以使用:

DELETE FROM MyTable WHERE NOT RowID IN
    (SELECT 
        (SELECT TOP 1 RowID FROM MyTable mt2 
        WHERE mt2.Col1 = mt.Col1 
        AND mt2.Col2 = mt.Col2 
        AND mt2.Col3 = mt.Col3) 
    FROM MyTable mt)

基本上，对于表中的每一行，子选择将查找与所考虑行的完全相同的所有行的顶部RowID。因此，您最终会得到一个表示“原始”非重复行的RowIDs列表。

2008-08-20 22:27:53

其他回答

另一种可能的方法是

; 

--Ensure that any immediately preceding statement is terminated with a semicolon above
WITH cte
     AS (SELECT ROW_NUMBER() OVER (PARTITION BY Col1, Col2, Col3 
                                       ORDER BY ( SELECT 0)) RN
         FROM   #MyTable)
DELETE FROM cte
WHERE  RN > 1;

我在上面使用ORDER BY (SELECT 0)，因为在出现平局的情况下，保留哪一行是任意的。

例如，要以RowID顺序保存最新的一个，您可以使用order BY RowID DESC

执行计划

它的执行计划通常比接受的答案更简单和更有效，因为它不需要自连接。

然而，情况并非总是如此。GROUP BY解决方案可能会优先于选择散列聚合而不是流聚合的情况。

ROW_NUMBER解决方案总是给出几乎相同的计划，而GROUP BY策略则更加灵活。

可能有利于哈希聚合方法的因素是

分区列上没有有用的索引相对较少的组，每组的重复数相对较多

在第二种情况的极端版本中(如果每个组中有很多重复的组)，还可以考虑简单地插入要保留到新表中的行，然后截断原始的行并将它们复制回来，以最大限度地减少日志记录，而不是删除非常高比例的行。

2010-09-29 14:52:32

下面的查询用于删除重复的行。本例中的表以ID作为标识列，具有重复数据的列是Column1、Column2和Column3。

DELETE FROM TableName
WHERE  ID NOT IN (SELECT MAX(ID)
                  FROM   TableName
                  GROUP  BY Column1,
                            Column2,
                            Column3
                  /*Even if ID is not null-able SQL Server treats MAX(ID) as potentially
                    nullable. Because of semantics of NOT IN (NULL) including the clause
                    below can simplify the plan*/
                  HAVING MAX(ID) IS NOT NULL)

下面的脚本显示GROUP BY、HAVING、ORDER BY在一个查询中的用法，并返回带有重复列及其计数的结果。

SELECT YourColumnName,
       COUNT(*) TotalCount
FROM   YourTableName
GROUP  BY YourColumnName
HAVING COUNT(*) > 1
ORDER  BY COUNT(*) DESC

2011-11-23 15:32:19

在微软支持网站上有一篇关于删除重复文件的好文章。这是相当保守的——他们让你在不同的步骤中做所有的事情——但它应该适用于大的表格。

在过去，我使用了自连接来实现这一点，尽管它可能会用一个HAVING子句来美化:

DELETE dupes
FROM MyTable dupes, MyTable fullTable
WHERE dupes.dupField = fullTable.dupField 
AND dupes.secondDupField = fullTable.secondDupField 
AND dupes.uniqueField > fullTable.uniqueField

2008-08-20 21:53:14

DELETE LU 
FROM   (SELECT *, 
               Row_number() 
                 OVER ( 
                   partition BY col1, col1, col3 
                   ORDER BY rowid DESC) [Row] 
        FROM   mytable) LU 
WHERE  [row] > 1

2014-05-21 07:54:47

从应用程序级别(不幸的是)。我同意防止重复的正确方法是在数据库级别上使用唯一的索引，但是在SQL Server 2005中，一个索引只能是900字节，而我的varchar(2048)字段打破了这一规定。

我不知道它的性能如何，但我认为您可以编写一个触发器来强制执行这一点，即使您不能直接使用索引。喜欢的东西:

-- given a table stories(story_id int not null primary key, story varchar(max) not null)
CREATE TRIGGER prevent_plagiarism 
ON stories 
after INSERT, UPDATE 
AS 
    DECLARE @cnt AS INT 

    SELECT @cnt = Count(*) 
    FROM   stories 
           INNER JOIN inserted 
                   ON ( stories.story = inserted.story 
                        AND stories.story_id != inserted.story_id ) 

    IF @cnt > 0 
      BEGIN 
          RAISERROR('plagiarism detected',16,1) 

          ROLLBACK TRANSACTION 
      END

另外，varchar(2048)对我来说听起来很可疑(生活中有些东西是2048字节，但这很少见);它真的应该不是varchar(max)吗?

2008-08-20 22:53:12

如何删除重复的行?

推荐文章

最新文章

标签