前几天我学了一些关于SQL的简单知识:
SELECT c FROM myTbl GROUP BY C
结果与:
SELECT DISTINCT C FROM myTbl
我好奇的是,SQL引擎处理命令的方式有什么不同,还是它们真的是一样的东西?
我个人更喜欢独特的语法,但我相信这更多是出于习惯而不是其他原因。
编辑:这不是一个关于聚合的问题。理解了GROUP BY与聚合函数的使用。
前几天我学了一些关于SQL的简单知识:
SELECT c FROM myTbl GROUP BY C
结果与:
SELECT DISTINCT C FROM myTbl
我好奇的是,SQL引擎处理命令的方式有什么不同,还是它们真的是一样的东西?
我个人更喜欢独特的语法,但我相信这更多是出于习惯而不是其他原因。
编辑:这不是一个关于聚合的问题。理解了GROUP BY与聚合函数的使用。
当前回答
GROUP BY有一个非常具体的含义,它与distinct函数不同。
GROUP BY使用选择的表达式对查询结果进行分组,然后可以应用聚合函数,这些函数将作用于每个组,而不是整个结果集。
这里有一个例子可能会有所帮助:
给定一个这样的表:
name
------
barry
dave
bill
dave
dave
barry
john
这个查询:
SELECT name, count(*) AS count FROM table GROUP BY name;
将产生如下输出:
name count
-------------
barry 2
dave 3
bill 1
john 1
这显然与使用DISTINCT非常不同。如果您想对结果进行分组,请使用group BY,如果您只想要特定列的唯一列表,请使用DISTINCT。这将使数据库有机会根据您的需要优化查询。
其他回答
GROUP BY有一个非常具体的含义,它与distinct函数不同。
GROUP BY使用选择的表达式对查询结果进行分组,然后可以应用聚合函数,这些函数将作用于每个组,而不是整个结果集。
这里有一个例子可能会有所帮助:
给定一个这样的表:
name
------
barry
dave
bill
dave
dave
barry
john
这个查询:
SELECT name, count(*) AS count FROM table GROUP BY name;
将产生如下输出:
name count
-------------
barry 2
dave 3
bill 1
john 1
这显然与使用DISTINCT非常不同。如果您想对结果进行分组,请使用group BY,如果您只想要特定列的唯一列表,请使用DISTINCT。这将使数据库有机会根据您的需要优化查询。
group by用于聚合操作——比如当您想要获得按列C分解的b的计数时
select C, count(B) from myTbl group by C
Distinct就是它听起来的样子——你得到唯一的行。
在sql server 2005中,查询优化器似乎能够优化掉我运行的简单示例中的差异。不过,不知道你是否能在所有情况下都指望它。
我预计在执行上可能会有细微的差异。 我检查了Oracle 10g中两个功能相同的查询的执行计划:
core> select sta from zip group by sta;
---------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
---------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 58 | 174 | 44 (19)| 00:00:01 |
| 1 | HASH GROUP BY | | 58 | 174 | 44 (19)| 00:00:01 |
| 2 | TABLE ACCESS FULL| ZIP | 42303 | 123K| 38 (6)| 00:00:01 |
---------------------------------------------------------------------------
core> select distinct sta from zip;
---------------------------------------------------------------------------
| Id | Operation | Name | Rows | Bytes | Cost (%CPU)| Time |
---------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 58 | 174 | 44 (19)| 00:00:01 |
| 1 | HASH UNIQUE | | 58 | 174 | 44 (19)| 00:00:01 |
| 2 | TABLE ACCESS FULL| ZIP | 42303 | 123K| 38 (6)| 00:00:01 |
---------------------------------------------------------------------------
中间的操作略有不同:“HASH GROUP BY”和。“HASH唯一”,但估计成本等是相同的。然后,我在跟踪的情况下执行这些操作,两者的实际操作计数是相同的(除了第二个操作由于缓存而不需要进行任何物理读取)。
但我认为,由于操作名称不同,执行将遵循不同的代码路径,这可能会带来更大的差异。
出于这个目的,我认为您应该更喜欢DISTINCT语法。这不仅仅是习惯,它更清楚地表明了查询的目的。
当你指的是DISTINCT时,请不要使用GROUP BY,即使它们的工作方式是一样的。我假设您正在尝试从查询中减少毫秒数,我必须指出,开发人员的时间比计算机的时间要昂贵几个数量级。
如果您只想删除重复项,请使用DISTINCT。如果你想应用聚合操作符(MAX, SUM, GROUP_CONCAT,…),请使用GROUPY BY,或HAVING从句)。