SQL: PARTITION BY和GROUP BY的区别

多年来，我一直在对所有类型的聚合查询使用GROUP BY。最近，我一直在逆向工程一些使用PARTITION BY来执行聚合的代码。

在阅读我能找到的所有关于PARTITION BY的文档时，它听起来很像GROUP BY，可能还添加了一些额外的功能。

它们是相同功能的两个版本还是完全不同的东西?

当前回答

假设我们在表中有14条name列的记录

在小组由

select name,count(*) as totalcount from person where name='Please fill out' group BY name;

它将给出单行计数，即14

但是在除以

select row_number() over (partition by name) as total from person where name = 'Please fill out';

它将增加14行计数

其他回答

PARTITION BY是分析的，GROUP BY是聚合的。为了使用PARTITION BY，你必须用OVER子句来包含它。

它们被用在不同的地方。GROUP BY修改整个查询，比如:

select customerId, count(*) as orderCount
from Orders
group by customerId

但是PARTITION BY只适用于窗口函数，比如ROW_NUMBER():

select row_number() over (partition by customerId order by orderId)
    as OrderNumberForThisCustomer
from Orders

GROUP BY通常减少滚动返回的行数他们计算每行的平均值或总和。 PARTITION BY不影响返回的行数，但是它更改窗口函数结果的计算方式。

使用GROUP BY时，生成的行通常比输入的行少。

但是，当使用PARTITION BY时，得到的行数应该与传入的行数相同。

它有非常不同的使用场景。当您使用GROUP BY时，您合并了相同列的一些记录，并获得了结果集的聚合。

然而，当你使用PARTITION BY时，你的结果集是相同的，但你只是对窗口函数进行了聚合，而你没有合并记录，你仍然会有相同的记录计数。

以下是一篇对市场有帮助的文章，解释了两者的区别: http://alevryustemov.com/sql/sql-partition-by/

据我所知，Partition By与Group By几乎相同，但有以下区别:

这个group by实际上对结果集进行分组，每个组返回一行，因此SQL Server只允许在SELECT列表中聚合函数或列，这些函数或列是group by子句的一部分(在这种情况下，SQL Server可以保证每个组都有唯一的结果)。

以MySQL为例，它允许在SELECT列表中有Group By子句中没有定义的列，在这种情况下，每个组仍然返回一行，但是如果列没有唯一的结果，那么就不能保证将输出什么!

但是使用Partition By，尽管该函数的结果与使用Group By的聚合函数的结果相同，但仍然得到正常的结果集，这意味着每个底层行得到一行，而不是每个组得到一行，因此在SELECT列表中每个组的列可能不是唯一的。

因此，作为一个总结，当需要每个组输出一行时，Group By是最好的，当需要所有行但仍然需要基于组的聚合函数时，Partition By是最好的。

当然，也可能存在性能问题，请参阅http://social.msdn.microsoft.com/Forums/ms-MY/transactsql/thread/0b20c2b5-1607-40bc-b7a7-0c60a2a55fba。

推荐文章