我有一个包含数千个数字的文件,每个数字都在自己的行上:
34
42
11
6
2
99
...
我想写一个脚本,它将打印文件中所有数字的总和。我有一个解决办法,但不是很有效。(运行需要几分钟。)我在寻找一个更有效的解决方案。有什么建议吗?
我有一个包含数千个数字的文件,每个数字都在自己的行上:
34
42
11
6
2
99
...
我想写一个脚本,它将打印文件中所有数字的总和。我有一个解决办法,但不是很有效。(运行需要几分钟。)我在寻找一个更有效的解决方案。有什么建议吗?
当前回答
对于Perl一行程序,它基本上与Ayman Hourieh回答中的awk解决方案是一样的:
% perl -nle '$sum += $_ } END { print $sum'
如果您对Perl一行程序的功能感到好奇,可以将它们分离:
% perl -MO=Deparse -nle '$sum += $_ } END { print $sum'
结果是一个更冗长的程序版本,其形式是没有人会自己编写的:
BEGIN { $/ = "\n"; $\ = "\n"; }
LINE: while (defined($_ = <ARGV>)) {
chomp $_;
$sum += $_;
}
sub END {
print $sum;
}
-e syntax OK
只是为了搞笑,我用一个包含1,000,000个数字(范围为0 - 9,999)的文件尝试了这个方法。在我的Mac Pro上,它几乎是立即返回的。这太糟糕了,因为我希望使用mmap会非常快,但它只是在同一时间:
use 5.010;
use File::Map qw(map_file);
map_file my $map, $ARGV[0];
$sum += $1 while $map =~ m/(\d+)/g;
say $sum;
其他回答
到目前为止,没有一个解决方案使用浆糊。这里有一个:
paste -sd+ filename | bc
如果文件有一个尾随换行符,尾随+将导致语法错误。通过移除后面的+来修复错误:
paste -sd+ fiilename | sed 's/+$//g' | bc
例如,计算Σn,其中1<=n<=100000:
$ seq 100000 | paste -sd+ | bc -l
5000050000
(对于好奇的人来说,seqn会在给定正数n的情况下打印从1到n的数字序列。)
为了好玩,让我们对其进行基准测试:
$ for ((i=0; i<1000000; i++)) ; do echo $RANDOM; done > random_numbers
$ time perl -nle '$sum += $_ } END { print $sum' random_numbers
16379866392
real 0m0.226s
user 0m0.219s
sys 0m0.002s
$ time awk '{ sum += $1 } END { print sum }' random_numbers
16379866392
real 0m0.311s
user 0m0.304s
sys 0m0.005s
$ time { { tr "\n" + < random_numbers ; echo 0; } | bc; }
16379866392
real 0m0.445s
user 0m0.438s
sys 0m0.024s
$ time { s=0;while read l; do s=$((s+$l));done<random_numbers;echo $s; }
16379866392
real 0m9.309s
user 0m8.404s
sys 0m0.887s
$ time { s=0;while read l; do ((s+=l));done<random_numbers;echo $s; }
16379866392
real 0m7.191s
user 0m6.402s
sys 0m0.776s
$ time { sed ':a;N;s/\n/+/;ta' random_numbers|bc; }
^C
real 4m53.413s
user 4m52.584s
sys 0m0.052s
5分钟后,我中止了sed运行
我一直在lua潜水,速度很快:
$ time lua -e 'sum=0; for line in io.lines() do sum=sum+line end; print(sum)' < random_numbers
16388542582.0
real 0m0.362s
user 0m0.313s
sys 0m0.063s
当我更新这个的时候,ruby:
$ time ruby -e 'sum = 0; File.foreach(ARGV.shift) {|line| sum+=line.to_i}; puts sum' random_numbers
16388542582
real 0m0.378s
user 0m0.297s
sys 0m0.078s
听从埃德·莫顿的建议:使用1美元
$ time awk '{ sum += $1 } END { print sum }' random_numbers
16388542582
real 0m0.421s
user 0m0.359s
sys 0m0.063s
Vs使用$0
$ time awk '{ sum += $0 } END { print sum }' random_numbers
16388542582
real 0m0.302s
user 0m0.234s
sys 0m0.063s
在shell中使用awk,我使用下面的脚本来这样做:
#!/bin/bash
total=0;
for i in $( awk '{ print $1; }' <myfile> )
do
total=$(echo $total+$i | bc )
((count++))
done
echo "scale=2; $total " | bc
$ perl -MList::Util=sum -le 'print sum <>' nums.txt
另一个是为了好玩
sum=0;for i in $(cat file);do sum=$((sum+$i));done;echo $sum
或者再来一次
s=0;while read l; do s=$((s+$l));done<file;echo $s
但awk解决方案可能是最好的,因为它最紧凑。