树对树

我一直很喜欢树，O(n*log(n))和它们的整洁。然而，我所认识的每个软件工程师都尖锐地问过我为什么要使用TreeSet。从CS的背景来看，我不认为你使用什么很重要，我也不关心在哈希函数和桶(在Java的情况下)上搞得一团糟。

在哪些情况下，我应该在树集上使用HashSet ?

当前回答

如果您没有插入足够多的元素导致频繁重散列(或冲突，如果您的HashSet不能调整大小)，那么HashSet当然可以为您提供常量时间访问的好处。但是对于有大量增长或收缩的集合，使用Treesets实际上可能会获得更好的性能，这取决于实现。

如果我没记错的话，平摊时间可以接近于一个功能性红黑树的O(1)。冈崎的书会有比我更好的解释。(或参阅他的出版物列表)

其他回答

HashSet是O(1)来访问元素，所以这当然很重要。但是保持集合中对象的顺序是不可能的。

如果维护顺序(根据值而不是插入顺序)对您很重要，TreeSet是有用的。但是，正如您所注意到的，您正在以顺序换取访问元素的更慢时间:基本操作为O(log n)。

来自TreeSet的javadocs:

该实现为基本操作(添加、删除和包含)提供了log(n)的时间成本。

如果我没记错的话，平摊时间可以接近于一个功能性红黑树的O(1)。冈崎的书会有比我更好的解释。(或参阅他的出版物列表)

当然，HashSet实现要快得多——开销更少，因为没有排序。http://java.sun.com/docs/books/tutorial/collections/implementations/set.html提供了Java中各种Set实现的很好的分析。

这里的讨论还指出了一种有趣的“中间地带”方法来解决树与哈希的问题。Java提供了一个LinkedHashSet，它是一个HashSet，其中运行着一个“面向插入”的链表，也就是说，链表中的最后一个元素也是最近插入到哈希中的元素。这允许您避免无序散列的无序性，而不会增加TreeSet的成本。

TreeSet的一个尚未被提及的优点是它有更大的“局部性”，这是以下说法的简写:(1)如果两个条目在顺序上是相邻的，TreeSet将它们放在数据结构中彼此相邻的地方，因此在内存中也是如此;并且(2)这种布局利用了局部性原则，该原则说类似的数据通常被一个应用程序以相似的频率访问。

这与HashSet相反，HashSet将条目分布在内存中，而不管它们的键是什么。

当从硬盘读取的延迟成本是从缓存或RAM读取的延迟成本的数千倍，并且当数据确实是通过局部性访问时，TreeSet可能是更好的选择。

消息编辑(完全重写)当顺序无关紧要时，就是这样。两者都应该给出Log(n) -看看其中一个是否比另一个快5%以上是有用的。HashSet可以在循环中给出O(1)测试，应该可以揭示它是否正确。

推荐文章