我有一个包含数千个数字的文件,每个数字都在自己的行上:

34
42
11
6
2
99
...

我想写一个脚本,它将打印文件中所有数字的总和。我有一个解决办法,但不是很有效。(运行需要几分钟。)我在寻找一个更有效的解决方案。有什么建议吗?


当前回答

对于Perl一行程序,它基本上与Ayman Hourieh回答中的awk解决方案是一样的:

 % perl -nle '$sum += $_ } END { print $sum'

如果您对Perl一行程序的功能感到好奇,可以将它们分离:

 %  perl -MO=Deparse -nle '$sum += $_ } END { print $sum'

结果是一个更冗长的程序版本,其形式是没有人会自己编写的:

BEGIN { $/ = "\n"; $\ = "\n"; }
LINE: while (defined($_ = <ARGV>)) {
    chomp $_;
    $sum += $_;
}
sub END {
    print $sum;
}
-e syntax OK

只是为了搞笑,我用一个包含1,000,000个数字(范围为0 - 9,999)的文件尝试了这个方法。在我的Mac Pro上,它几乎是立即返回的。这太糟糕了,因为我希望使用mmap会非常快,但它只是在同一时间:

use 5.010;
use File::Map qw(map_file);

map_file my $map, $ARGV[0];

$sum += $1 while $map =~ m/(\d+)/g;

say $sum;

其他回答

考虑到你需要通读整个文件,我不知道你是否能找到比这更好的。

$sum = 0;
while(<>){
   $sum += $_;
}
print $sum;

GNU Parallel可以通过将工作负载分散到多个核心来改进上面的许多问题。

在下面的例子中,我们将500个数字的块(——max-lines=500)发送给bc进程,这些进程一次并行执行4个(-j 4)。然后,结果由最终的bc聚合。

time parallel --max-lines=500 -j 4 --pipe "paste -sd+ - | bc" < random_numbers | paste -sd+ - | bc

工作规模和并行过程数量的最佳选择取决于机器和问题。请注意,这种解决方案只有在存在大量并行流程且每个流程都有大量工作时才会真正发挥作用。

用+替换所有的新行,加一个0并把它发送给Ruby解释器不是更容易吗?

(sed -e "s/$/+/" file; echo 0)|irb

如果你没有irb,你可以把它发送到bc,但是你必须删除所有的换行符,除了最后一个(echo)。最好使用tr,除非您拥有sed的博士学位。

(sed -e "s/$/+/" file|tr -d "\n"; echo 0)|bc

你可以使用awk:

awk '{ sum += $1 } END { print sum }' file

另一个是为了好玩

sum=0;for i in $(cat file);do sum=$((sum+$i));done;echo $sum

或者再来一次

s=0;while read l; do s=$((s+$l));done<file;echo $s

但awk解决方案可能是最好的,因为它最紧凑。