在文件中找到重复的行，并计算每一行重复了多少次?

假设我有一个类似于下面的文件:

我想知道123被复制了多少次，234被复制了多少次，等等。所以理想情况下，输出应该是这样的:

123  3 
234  2 
345  1

当前回答

假设每行有一个数字:

sort <file> | uniq -c

你也可以在GNU版本中使用更详细的计数标志，例如在Linux上:

sort <file> | uniq --count

其他回答

要查找和计数多个文件中的重复行，您可以尝试以下命令:

sort <files> | uniq -c | sort -nr

or:

cat <files> | sort | uniq -c | sort -nr

这将只打印重复的行，并带有计数:

sort FILE | uniq -cd

或者，使用GNU long选项(在Linux上):

sort FILE | uniq --count --repeated

在BSD和OSX上，你必须使用grep来过滤掉唯一的行:

sort FILE | uniq -c | grep -v '^ *1 '

对于给定的示例，结果将是:

  3 123
  2 234

如果你想打印所有行，包括那些只出现一次的行:

sort FILE | uniq -c

或者，使用GNU long选项(在Linux上):

sort FILE | uniq --count

对于给定的输入，输出为:

  3 123
  2 234
  1 345

为了用最频繁的行对输出进行排序，您可以执行以下操作(以获得所有结果):

sort FILE | uniq -c | sort -nr

或者，为了只得到重复的行，先得到最频繁的行:

sort FILE | uniq -cd | sort -nr

在OSX和BSD上，最后一个变成:

sort FILE | uniq -c | grep -v '^ *1 ' | sort -nr

假设每行有一个数字:

sort <file> | uniq -c

你也可以在GNU版本中使用更详细的计数标志，例如在Linux上:

sort <file> | uniq --count

在Windows中，使用“Windows PowerShell”，我使用下面提到的命令来实现这一点

Get-Content .\file.txt | Group-Object | Select Name, Count

此外，我们还可以使用where-object Cmdlet来过滤结果

Get-Content .\file.txt | Group-Object | Where-Object { $_.Count -gt 1 } | Select Name, Count

假设你可以访问一个标准的Unix shell和/或cygwin环境:

tr -s ' ' '\n' < yourfile | sort | uniq -d -c
       ^--space char

基本上:将所有空格字符转换为换行符，然后对转换后的输出进行排序并将其提供给uniq并计数重复的行。

推荐文章