从bash模拟“group by”的最佳方法?

假设你有一个包含IP地址的文件，每行一个地址:

10.0.10.1
10.0.10.1
10.0.10.3
10.0.10.2
10.0.10.1

您需要一个shell脚本来计算每个IP地址在文件中出现的次数。对于前面的输入，您需要以下输出:

10.0.10.1 3
10.0.10.2 1
10.0.10.3 1

一种方法是:

cat ip_addresses |uniq |while read ip
do
    echo -n $ip" "
    grep -c $ip ip_addresses
done

然而，它真的是远远不是有效的。

如何使用bash更有效地解决这个问题?

(有一件事要补充:我知道它可以从perl或awk解决，我对bash中更好的解决方案感兴趣，而不是在那些语言中。)

额外的信息:

假设源文件是5GB，运行算法的机器有4GB。所以排序不是一个有效的解决方案，多次读取文件也不是。

我喜欢类似散列表的解决方案-任何人都可以提供改进的解决方案?

附加信息#2:

有些人问我为什么要在bash中做，而在例如perl中更容易。原因是，在机器上，我必须这样做perl是不可为我。这是一台定制的linux机器，没有我使用过的大多数工具。我认为这是一个有趣的问题。

所以，请不要责怪这个问题，如果你不喜欢它，就忽略它。：-）

当前回答

如果顺序不重要，排序可以省略

uniq -c <source_file>

echo "$list" | uniq -c

如果源列表是一个变量

2008-12-19 12:28:01

其他回答

我会这样做:

perl -e 'while (<>) {chop; $h{$_}++;} for $k (keys %h) {print "$k $h{$k}\n";}' ip_addresses

但uniq可能适合你。

2008-12-19 16:52:49

似乎您必须使用大量代码在bash中模拟哈希以获得线性行为，或者坚持使用二次超线性版本。

在这些版本中，saua的解决方案是最好的(也是最简单的):

sort -n ip_addresses.txt | uniq -c

我找到了http://unix.derkeiler.com/Newsgroups/comp.unix.shell/2005-11/0118.html。但它丑得要命……

2008-12-19 12:33:18

我知道你在Bash中寻找一些东西，但如果其他人可能在Python中寻找一些东西，你可能会考虑这样做:

mySet = set()
for line in open("ip_address_file.txt"):
     line = line.rstrip()
     mySet.add(line)

由于集合中的值在默认情况下是唯一的，而Python在这方面非常擅长，因此您可能会在这里赢得一些东西。我还没有测试代码，所以它可能有漏洞，但这可能会让你明白。如果你想要计数出现的次数，使用字典而不是集合很容易实现。

编辑: 我不擅长阅读，所以我答错了。这里有一个字典片段，可以计算发生的次数。

mydict = {}
for line in open("ip_address_file.txt"):
    line = line.rstrip()
    if line in mydict:
        mydict[line] += 1
    else:
        mydict[line] = 1

字典mydict现在保存一个唯一IP的列表作为键，它们出现的次数作为值。

2008-12-20 15:10:58

sort ip_addresses | uniq -c

这将首先打印计数，但除此之外，它应该完全是您想要的。

2008-12-19 12:22:35

又快又脏的方法如下:

Cat ip_addresses | sort -n | uniq -c

如果需要使用bash中的值，可以将整个命令赋值给一个bash变量，然后循环遍历结果。

如果省略sort命令，就不会得到正确的结果，因为uniq只查看连续的相同行。

2008-12-19 12:18:32

从bash模拟“group by”的最佳方法?

推荐文章

最新文章

标签