如果我有一张桌子

CREATE TABLE users (
  id int(10) unsigned NOT NULL auto_increment,
  name varchar(255) NOT NULL,
  profession varchar(255) NOT NULL,
  employer varchar(255) NOT NULL,
  PRIMARY KEY  (id)
)

我想获得所有专业领域的独特价值,什么会更快(或建议):

SELECT DISTINCT u.profession FROM users u

or

SELECT u.profession FROM users u GROUP BY u.profession

?


当前回答

如果问题允许,请尝试使用EXISTS,因为它被优化为只要找到结果就结束(并且不缓冲任何响应),因此,如果您只是试图为这样的WHERE子句规范化数据

SELECT FROM SOMETHING S WHERE S.ID IN ( SELECT DISTINCT DCR.SOMETHING_ID FROM DIFF_CARDINALITY_RELATIONSHIP DCR ) -- to keep same cardinality

更快的回答是:

SELECT FROM SOMETHING S WHERE EXISTS ( SELECT 1 FROM DIFF_CARDINALITY_RELATIONSHIP DCR WHERE DCR.SOMETHING_ID = S.ID )

这并不总是可行的,但当可用时,你会看到一个更快的响应。

其他回答

这不是规则

对于每个查询....试着分开,然后按…分组比较完成每个查询的时间,并使用更快的....

在我的项目中,有时我使用group by和other distinct

(更多的是功能性说明)

有些情况下,你必须使用GROUP BY,例如,如果你想获得每个雇主的员工数量:

SELECT u.employer, COUNT(u.id) AS "total employees" FROM users u GROUP BY u.employer

在这种情况下,DISTINCT u.c uemployer就行不通了。也许有办法,只是我不知道。(如果有人知道如何使用DISTINCT进行这样的查询,请添加注释!)

如果可以,尽量选择最简单、最简短的答案——DISTINCT似乎更符合你的要求,因为它会给你你需要的答案,而且只有这个答案!

对于单个列上的DISTINCT和单个列上的GROUP BY,上面的所有答案都是正确的。 每个db引擎都有自己的实现和优化,如果你只关心一点点差异(在大多数情况下),那么你必须针对特定的服务器和特定的版本进行测试!由于实现可能会改变…

但是,如果在查询中选择多个列,则DISTINCT本质上是不同的!因为在这种情况下,它将比较所有行的所有列,而不仅仅是一列。

如果你有这样的东西:

// This will NOT return unique by [id], but unique by (id,name)
SELECT DISTINCT id, name FROM some_query_with_joins

// This will select unique by [id].
SELECT id, name FROM some_query_with_joins GROUP BY id

认为DISTINCT关键字通过指定的第一列来区分行是一个常见的错误,但DISTINCT是这种方式的通用关键字。

所以朋友们,你们要小心,不要把上面的答案当成所有情况下的正确答案……你可能会感到困惑,得到错误的结果,而你想要的只是优化!

似乎这些查询并不完全相同。至少对MySQL是这样。

比较:

描述从northwind.products中选择不同的产品名称 描述从北风选择的产品名称。产品组按产品名称

第二个查询在Extra中额外给出了“Using filesort”。