什么是最有效的方法来删除重复和排序一个向量?

我需要采取一个c++向量与潜在的很多元素，擦除重复，并排序。

我目前有下面的代码，但它不起作用。

vec.erase(
      std::unique(vec.begin(), vec.end()),
      vec.end());
std::sort(vec.begin(), vec.end());

我怎样才能正确地做到这一点呢?

此外，是先删除副本(类似于上面的编码)还是先执行排序更快?如果我先执行排序，它是否保证在std::unique执行后保持排序?

或者是否有另一种(也许更有效的)方法来完成这一切?

当前回答

使用Ranges v3库，您可以简单地使用

action::unique(vec);

注意，它实际上删除了重复的元素，而不仅仅是移动它们。

不幸的是，动作在c++ 20中没有标准化，因为即使在c++ 20中，范围库的其他部分仍然必须使用原始库。

其他回答

我同意R. Pate和Todd Gardner的观点;std::set在这里可能是个好主意。即使你在使用向量时遇到了困难，如果你有足够多的副本，你最好创建一个集合来做这些肮脏的工作。

让我们来比较三种方法:

用向量，sort + unique

sort( vec.begin(), vec.end() );
vec.erase( unique( vec.begin(), vec.end() ), vec.end() );

转换为set(手动)

set<int> s;
unsigned size = vec.size();
for( unsigned i = 0; i < size; ++i ) s.insert( vec[i] );
vec.assign( s.begin(), s.end() );

转换为set(使用构造函数)

set<int> s( vec.begin(), vec.end() );
vec.assign( s.begin(), s.end() );

下面是它们在重复数量变化时的表现:

总结:当副本的数量足够大时，实际上更快地将数据转换为一个集合，然后将数据转储回一个向量。

出于某种原因，手动进行set转换似乎比使用set构造函数更快——至少在我使用的随机数据上是这样。

假设a是一个向量，使用

a.erase(独特(a.begin (), a.end ()), a.end ());运行时间为O(n)。

unique只适用于重复元素的连续运行，所以你最好先排序。但是，它是稳定的，所以你的向量是有序的。

我不知道你在用这个干什么，所以我不能100%肯定地说，但通常当我想到“排序的，唯一的”容器时，我想到std::set。它可能更适合你的用例:

std::set<Foo> foos(vec.begin(), vec.end()); // both sorted & unique already

否则，在调用unique之前进行排序(正如其他答案所指出的那样)才是正确的方法。

在调用unique之前需要对它进行排序，因为unique只删除相邻的重复项。

编辑:38秒……

推荐文章