我有一个包含数千个数字的文件,每个数字都在自己的行上:

34
42
11
6
2
99
...

我想写一个脚本,它将打印文件中所有数字的总和。我有一个解决办法,但不是很有效。(运行需要几分钟。)我在寻找一个更有效的解决方案。有什么建议吗?


当前回答

下面是一个使用python和生成器表达式的解决方案。在我破旧的笔记本电脑上测试了无数个数字。

time python -c "import sys; print sum((float(l) for l in sys.stdin))" < file

real    0m0.619s
user    0m0.512s
sys     0m0.028s

其他回答

下面是一个使用python和生成器表达式的解决方案。在我破旧的笔记本电脑上测试了无数个数字。

time python -c "import sys; print sum((float(l) for l in sys.stdin))" < file

real    0m0.619s
user    0m0.512s
sys     0m0.028s

GNU Parallel可以通过将工作负载分散到多个核心来改进上面的许多问题。

在下面的例子中,我们将500个数字的块(——max-lines=500)发送给bc进程,这些进程一次并行执行4个(-j 4)。然后,结果由最终的bc聚合。

time parallel --max-lines=500 -j 4 --pipe "paste -sd+ - | bc" < random_numbers | paste -sd+ - | bc

工作规模和并行过程数量的最佳选择取决于机器和问题。请注意,这种解决方案只有在存在大量并行流程且每个流程都有大量工作时才会真正发挥作用。

另一个是为了好玩

sum=0;for i in $(cat file);do sum=$((sum+$i));done;echo $sum

或者再来一次

s=0;while read l; do s=$((s+$l));done<file;echo $s

但awk解决方案可能是最好的,因为它最紧凑。

这是另一个:

open(FIL, "a.txt");

my $sum = 0;
foreach( <FIL> ) {chomp; $sum += $_;}

close(FIL);

print "Sum = $sum\n";

到目前为止,没有一个解决方案使用浆糊。这里有一个:

paste -sd+ filename | bc

如果文件有一个尾随换行符,尾随+将导致语法错误。通过移除后面的+来修复错误:

paste -sd+ fiilename | sed 's/+$//g' | bc

例如,计算Σn,其中1<=n<=100000:

$ seq 100000 | paste -sd+ | bc -l
5000050000

(对于好奇的人来说,seqn会在给定正数n的情况下打印从1到n的数字序列。)