我有一个包含数千个数字的文件,每个数字都在自己的行上:

34
42
11
6
2
99
...

我想写一个脚本,它将打印文件中所有数字的总和。我有一个解决办法,但不是很有效。(运行需要几分钟。)我在寻找一个更有效的解决方案。有什么建议吗?


当前回答

Ruby:

ruby -e "File.read('file.txt').split.inject(0){|mem, obj| mem += obj.to_f}"

其他回答

只是为了好玩,让我们用PDL (Perl的数组数学引擎)来做!

perl -MPDL -E 'say rcols(shift)->sum' datafile

rcols将列读入矩阵(在本例中为1D), sum (surprise)对矩阵中的所有元素求和。

GNU Parallel可以通过将工作负载分散到多个核心来改进上面的许多问题。

在下面的例子中,我们将500个数字的块(——max-lines=500)发送给bc进程,这些进程一次并行执行4个(-j 4)。然后,结果由最终的bc聚合。

time parallel --max-lines=500 -j 4 --pipe "paste -sd+ - | bc" < random_numbers | paste -sd+ - | bc

工作规模和并行过程数量的最佳选择取决于机器和问题。请注意,这种解决方案只有在存在大量并行流程且每个流程都有大量工作时才会真正发挥作用。

对于这样的任务,我更喜欢使用GNU数据集,因为它比perl或awk更简洁易读。例如

datamash sum 1 < myfile

其中1表示数据的第一列。

sed ':a;N;s/\n/+/;ta' file|bc

这是另一个:

open(FIL, "a.txt");

my $sum = 0;
foreach( <FIL> ) {chomp; $sum += $_;}

close(FIL);

print "Sum = $sum\n";