JOIN查询是否比多个查询快?(运行主查询,然后根据主查询的结果运行许多其他select)

我这么问是因为加入它们会使我的应用程序的设计复杂化

如果它们快了,有人能大致估计出快了多少吗?如果是1.5倍,我不在乎,但如果是10倍,我就在乎。


当前回答

有几个因素,这意味着没有二元答案。什么对性能最好取决于您的环境。顺便说一下,如果带有标识符的单个选择不是次秒级的,那么您的配置可能有问题。

真正要问的问题是您希望如何访问数据。单个选择支持后期绑定。例如,如果您只想要员工信息,您可以从Employees表中进行选择。外键关系可用于在以后根据需要检索相关资源。选择已经有一个键指向,所以它们应该非常快,你只需要检索你需要的。必须始终考虑到网络延迟。

联接将一次检索所有数据。如果您正在生成一个报告或填充一个网格,这可能正是您想要的。在这种情况下,编译和优化的连接将比单一选择更快。请记住,Ad-hoc连接可能没有那么快——您应该将它们编译(到存储的proc中)。速度取决于执行计划,该计划详细说明了DBMS检索数据所采取的步骤。

其他回答

是否应该使用连接首先是关于连接是否有意义。只有在这种情况下,性能才会被考虑,因为几乎所有其他情况都会导致明显更差的性能。

性能差异很大程度上取决于所查询信息的相关性。联接是有用的,当数据相关且索引正确时,联接速度很快,但它们通常会导致一些冗余,有时结果比需要的多。如果您的数据集不是直接相关的,那么将它们放在一个查询中将导致所谓的笛卡尔积(基本上是所有可能的行组合),这几乎不是您想要的结果。

这通常是由多对一对多关系引起的。例如,HoldOffHunger的回答提到了一个关于帖子、标签和评论的查询。评论与一篇文章相关,标签也是如此。但是标签与注释无关。

+------------+     +---------+     +---------+
|  comment   |     |   post  |     |  tag    |
|------------|*   1|---------|1   *|---------|
| post_id    |-----| post_id |-----| post_id |
| comment_id |     | ...     |     | tag_id  |
| user_id    |     |         |     | ...     |
| ...        |     |         |     | ...     |
+------------+     +---------+     +---------+

在这种情况下,最好至少有两个独立的查询。如果您试图连接标记和注释,因为两者之间没有直接的关系,您最终会得到标记和注释的所有可能组合。许多*许多=许多许多。除此之外,由于帖子和标签是不相关的,您可以并行执行这两个查询,从而获得潜在的收益。

让我们考虑一个不同的场景:您希望将评论附加到一篇文章,以及评论者的联系信息。

 +----------+     +------------+     +---------+
 |   user   |     |  comment   |     |   post  |
 |----------|1   *|------------|*   1|---------|
 | user_id  |-----| post_id    |-----| post_id |
 | username |     | user_id    |     | ...     |
 | ...      |     | ...        |     +---------+
 +----------+     +------------+

This is where you should consider a join. Aside from being a much more natural query, most database systems (including MySQL) have lots of smart people put lots of hard work into optimizing queries just like it. For separate queries, since each query depends on the results of the previous one, the queries can't be done in parallel, and the total time becomes not just the actual execute time of the queries, but also the time spent fetching results, sifting through them for IDs for the next query, linking rows together, etc.

是的,使用join的查询会更快。虽然不知道要查询的表之间的关系、数据集的大小或主键的位置,但几乎不可能说速度有多快。

为什么不把这两种情况都测试一下,然后你就会确定……

根据数据库的复杂性与开发人员的复杂性的不同,执行多次SELECT调用可能更简单。

尝试对JOIN和多个select运行一些数据库统计信息。看看在您的环境中,JOIN是否比SELECT更快/更慢。

然后,如果将其更改为JOIN将意味着额外的一天/一周/一个月的开发工作,我将坚持使用多个select

欢呼,

BLT

这里有100个有用的查询链接,这些都是在Oracle数据库中测试的,但记住SQL是标准的,Oracle, MS SQL Server, MySQL和其他数据库之间的区别是SQL方言:

http://javaforlearn.com/100-sql-queries-learn/

实际上,我自己也在寻找这个问题的答案,在阅读了给出的答案后,我只能同意比较DB查询性能的最佳方法是获得真实世界的数字,因为有太多的变量需要考虑,但是,我也认为比较它们之间的数字在几乎所有情况下都不会有好的结果。我的意思是,这些数字应该始终与一个可接受的数字进行比较,而绝对不是相互比较。

我可以理解,如果一种查询方式需要0.02秒,而另一种需要20秒,这是一个巨大的差异。但是,如果一种查询方式需要0.0000000002秒,而另一种需要0.0000002秒呢?在这两种情况下,一种方式比另一种方式快1000倍,但在第二种情况下,它真的仍然“惊人”吗?

就我个人而言,底线是:如果它表现良好,就寻求简单的解决方案。