我有一个PostgreSQL数据库表称为“user_links”,目前允许以下重复字段:
year, user_id, sid, cid
唯一的约束目前是第一个字段称为“id”,但我现在希望添加一个约束,以确保年份,user_id, sid和cid都是唯一的,但我不能应用约束,因为重复的值已经存在,违反这一约束。
有没有办法找到所有的副本?
我有一个PostgreSQL数据库表称为“user_links”,目前允许以下重复字段:
year, user_id, sid, cid
唯一的约束目前是第一个字段称为“id”,但我现在希望添加一个约束,以确保年份,user_id, sid和cid都是唯一的,但我不能应用约束,因为重复的值已经存在,违反这一约束。
有没有办法找到所有的副本?
当前回答
您可以在将被复制的字段上连接到同一个表,然后在id字段上反连接。从第一个表别名(tn1)中选择id字段,然后对第二个表别名的id字段使用array_agg函数。最后,为了使array_agg函数正常工作,您将根据tn1对结果进行分组。id字段。这将产生一个结果集,其中包含记录的id和符合连接条件的所有id的数组。
select tn1.id,
array_agg(tn2.id) as duplicate_entries,
from table_name tn1 join table_name tn2 on
tn1.year = tn2.year
and tn1.sid = tn2.sid
and tn1.user_id = tn2.user_id
and tn1.cid = tn2.cid
and tn1.id <> tn2.id
group by tn1.id;
显然,在duplicate_entries数组中的id在结果集中也有自己的条目。你必须使用这个结果集来决定你想要哪个id成为“真相”的来源。唯一不应该被删除的记录。也许你可以这样做:
with dupe_set as (
select tn1.id,
array_agg(tn2.id) as duplicate_entries,
from table_name tn1 join table_name tn2 on
tn1.year = tn2.year
and tn1.sid = tn2.sid
and tn1.user_id = tn2.user_id
and tn1.cid = tn2.cid
and tn1.id <> tn2.id
group by tn1.id
order by tn1.id asc)
select ds.id from dupe_set ds where not exists
(select de from unnest(ds.duplicate_entries) as de where de < ds.id)
选择具有重复的最小数字ID(假设ID在PK中递增)。这些就是你要保存的ID。
其他回答
为了方便起见,我假设您希望仅对列year应用唯一约束,并且主键是名为id的列。
为了找到重复的值,您应该运行,
SELECT year, COUNT(id)
FROM YOUR_TABLE
GROUP BY year
HAVING COUNT(id) > 1
ORDER BY COUNT(id);
使用上面的sql语句,您将得到一个包含表中所有重复年份的表。为了删除除最新重复条目外的所有重复条目,您应该使用上面的sql语句。
DELETE
FROM YOUR_TABLE A USING YOUR_TABLE_AGAIN B
WHERE A.year=B.year AND A.id<B.id;
遵循SQL语法可以在检查重复行的时候提供更好的性能。
SELECT id, count(id)
FROM table1
GROUP BY id
HAVING count(id) > 1
受到Sandro Wiggers的启发,我做了一些类似的事情
WITH ordered AS (
SELECT id,year, user_id, sid, cid,
rank() OVER (PARTITION BY year, user_id, sid, cid ORDER BY id) AS rnk
FROM user_links
),
to_delete AS (
SELECT id
FROM ordered
WHERE rnk > 1
)
DELETE
FROM user_links
USING to_delete
WHERE user_link.id = to_delete.id;
如果你想测试它,稍微改变一下:
WITH ordered AS (
SELECT id,year, user_id, sid, cid,
rank() OVER (PARTITION BY year, user_id, sid, cid ORDER BY id) AS rnk
FROM user_links
),
to_delete AS (
SELECT id,year,user_id,sid, cid
FROM ordered
WHERE rnk > 1
)
SELECT * FROM to_delete;
这将给出将要删除的内容的概述(在运行删除时,在to_delete查询中保留year,user_id,sid,cid是没有问题的,但随后它们就不需要了)
从“用PostgreSQL查找重复行”这里有一个聪明的解决方案:
select * from (
SELECT id,
ROW_NUMBER() OVER(PARTITION BY column1, column2 ORDER BY id asc) AS Row
FROM tbl
) dups
where
dups.Row > 1
您可以在将被复制的字段上连接到同一个表,然后在id字段上反连接。从第一个表别名(tn1)中选择id字段,然后对第二个表别名的id字段使用array_agg函数。最后,为了使array_agg函数正常工作,您将根据tn1对结果进行分组。id字段。这将产生一个结果集,其中包含记录的id和符合连接条件的所有id的数组。
select tn1.id,
array_agg(tn2.id) as duplicate_entries,
from table_name tn1 join table_name tn2 on
tn1.year = tn2.year
and tn1.sid = tn2.sid
and tn1.user_id = tn2.user_id
and tn1.cid = tn2.cid
and tn1.id <> tn2.id
group by tn1.id;
显然,在duplicate_entries数组中的id在结果集中也有自己的条目。你必须使用这个结果集来决定你想要哪个id成为“真相”的来源。唯一不应该被删除的记录。也许你可以这样做:
with dupe_set as (
select tn1.id,
array_agg(tn2.id) as duplicate_entries,
from table_name tn1 join table_name tn2 on
tn1.year = tn2.year
and tn1.sid = tn2.sid
and tn1.user_id = tn2.user_id
and tn1.cid = tn2.cid
and tn1.id <> tn2.id
group by tn1.id
order by tn1.id asc)
select ds.id from dupe_set ds where not exists
(select de from unnest(ds.duplicate_entries) as de where de < ds.id)
选择具有重复的最小数字ID(假设ID在PK中递增)。这些就是你要保存的ID。