我正在寻找一个命令,它将接受(作为输入)多行文本,每行包含一个整数,并输出这些整数的和。
作为一点背景知识,我有一个日志文件,其中包括计时测量。通过grepping的相关行和一点sed重新格式化,我可以列出该文件中的所有时间。我想算出总数。我可以将这个中间输出输出到任何命令,以便进行最终求和。我过去一直使用expr,但除非它在RPN模式下运行,否则我不认为它会处理这个问题(即使这样也会很棘手)。
我怎样才能得到整数的和?
我正在寻找一个命令,它将接受(作为输入)多行文本,每行包含一个整数,并输出这些整数的和。
作为一点背景知识,我有一个日志文件,其中包括计时测量。通过grepping的相关行和一点sed重新格式化,我可以列出该文件中的所有时间。我想算出总数。我可以将这个中间输出输出到任何命令,以便进行最终求和。我过去一直使用expr,但除非它在RPN模式下运行,否则我不认为它会处理这个问题(即使这样也会很棘手)。
我怎样才能得到整数的和?
当前回答
awk的美妙之处在于,使用一个简单的整数流,它可以同时生成多个并发(可能是交叉交互的)序列,几乎不需要任何代码:
jot - -10 399 |
mawk2 '__+=($++NF+=__+=-($++NF+=(--$!_)*9^9-1)+($!_^=2))' CONVFMT='%.20g'
121 4261625501 -4261625380
100 12397455993 -3874204891
81 28281696469 -3486784402
64 59662756915 -3099363913
49 122037457303 -2711943424
36 246399437577 -2324522935
25 494735977625 -1937102446
16 991021637223 -1549681957
9 1983205535923 -1162261468
4 3967185912829 -774840979
1 7934759246149 -387420490
0 15869518492299 -1
1 31738649564111 387420488
4 63476524287249 774840977
9 126951886313041 1162261466
16 253902222944143 1549681955
25 507802508785867 1937102444
36 1015602693048837 2324522933
49 2031202674154301 2711943422
64 4062402248944755 3099363911
81 8124801011105191 3486784400
这是一个不太为人所知的功能,但mawk-1可以直接生成格式化输出,而无需使用printf()或sprintf():
jot - -11111111555359 900729999999999 49987777777556 |
mawk '$++NF=_+=$!__' CONVFMT='%+\047\043 30.f' OFS='\t'
-11111111555359 -11,111,111,555,359.
38876666222197 +27,765,554,666,838.
88864443999753 +116,629,998,666,591.
138852221777309 +255,482,220,443,900.
188839999554865 +444,322,219,998,765.
238827777332421 +683,149,997,331,186.
288815555109977 +971,965,552,441,163.
338803332887533 +1,310,768,885,328,696.
388791110665089 +1,699,559,995,993,785.
438778888442645 +2,138,338,884,436,430.
488766666220201 +2,627,105,550,656,631.
538754443997757 +3,165,859,994,654,388.
588742221775313 +3,754,602,216,429,701.
638729999552869 +4,393,332,215,982,570.
688717777330425 +5,082,049,993,312,995.
738705555107981 +5,820,755,548,420,976.
788693332885537 +6,609,448,881,306,513.
838681110663093 +7,448,129,991,969,606.
888668888440649 +8,336,798,880,410,255.
使用nawk,一个更模糊的功能是能够打印出精确的IEEE 754双精度浮点十六进制:
jot - .00001591111137777 \
9007299999.1111111111 123.990333333328 |
nawk '$++NF=_+=_+= cos(exp(log($!__)/1.1))' CONVFMT='[ %20.13p ]' OFS='\t' \_=1
0.00001591111137777 [ 0x400fffffffbf27f8 ]
123.99034924443937200 [ 0x401f1a2498670bcc ]
247.98068257776736800 [ 0x40313bd908775e35 ]
371.97101591109537821 [ 0x4040516a505a57a3 ]
495.96134924442338843 [ 0x4050b807540a1c3a ]
619.95168257775139864 [ 0x4060f800d1abb906 ]
743.94201591107935201 [ 0x407112ffc8adec4a ]
867.93234924440730538 [ 0x40810bab4a485ad9 ]
991.92268257773525875 [ 0x4091089e1149c279 ]
1115.91301591106321212 [ 0x40a10ac8cfb09c62 ]
1239.90334924439116548 [ 0x40b10a7bfa7fa42d ]
1363.89368257771911885 [ 0x40c109c2d1b9947c ]
1487.88401591104707222 [ 0x40d10a2644d5ab3b ]
gawk w/ GMP甚至更有趣-他们愿意为您提供逗号格式的十六进制,并在左侧空白区域添加奇怪的额外逗号
=
jot - .000591111137777 90079.1111111111 123.990333333328 |
gawk -v PREC=20000 -nMbe '
$++NF = _ +=(15^16 * log($!__)/log(sqrt(10)))' \
CONVFMT='< 0x %\04724.12x >' OFS=' | ' \_=1
# rows skipped in the middle for illustration clarity
4339.662257777619743 | < 0x , ,4e6,007,2f4,08a,b93,8b3 >
4463.652591110947469 | < 0x , ,50f,967,27f,e5a,963,518 >
4835.623591110930647 | < 0x , ,58d,250,b65,a8d,45d,b79 >
7315.430257777485167 | < 0x , ,8eb,b36,ee9,fe6,149,da5 >
11779.082257777283303 | < 0x , ,f4b,c34,a75,82a,826,abb >
12151.053257777266481 | < 0x , ,fd7,3c2,25e,1ab,a09,bbf >
16738.695591110394162 | < 0x , 1,6b0,f3b,350,ed3,eca,c58 >
17978.598924443671422 | < 0x , 1,894,2f2,aba,a30,f63,bae >
20458.405591110225942 | < 0x , 1,c64,a40,87e,e35,4d4,896 >
23434.173591110091365 | < 0x , 2,108,186,96e,0dc,2ef,d46 >
31741.525924443049007 | < 0x , 2,e45,bae,b73,24f,981,637 >
32857.438924442998541 | < 0x , 3,014,3a7,b9e,daf,18c,c3e >
33849.361591109620349 | < 0x , 3,1b0,9b7,5f1,536,49c,74e >
41536.762257775939361 | < 0x , 3,e51,7c1,9b2,e74,516,220 >
45876.423924442409771 | < 0x , 4,58c,52d,078,edb,db4,4ba >
53067.863257775417878 | < 0x , 5,1aa,cf3,eed,33c,638,456 >
59391.370257775131904 | < 0x , 5,c73,38a,54d,b41,98d,a02 >
61127.234924441720068 | < 0x , 5,f6d,ce2,c40,117,6d2,6e7 >
66830.790257774875499 | < 0x , 6,944,fe1,378,9ea,235,7b0 >
71170.451924441600568 | < 0x , 7,0ce,de6,797,df3,009,35d >
76254.055591108335648 | < 0x , 7,9b0,f6d,03d,878,edf,97d >
83073.523924441760755 | < 0x , 8,5b0,aa9,7f7,a31,89a,f2e >
86669.243591108475812 | < 0x , 8,c0d,678,fa3,3b1,aad,f26 >
89149.050257775175851 | < 0x , 9,074,278,19d,4c7,443,a00 >
89769.001924441850861 | < 0x , 9,18e,464,ff9,0eb,ee4,4e1 >
但是要对语法错误感到厌倦
这是打印到STDOUT的内容的选择, 所有256字节的选择都被打印出来,即使它是终端窗口
=
jot 3000 |
gawk -Me ' _=$++NF=____+=$++NF=___-= $++NF=__+=$++NF=\
_^= exp(cos($++NF=______+=($1) %10 + 1))' \
____=-111111089 OFMT='%32c`'
char >>[ --[ U+ 2 | 2 (ASCII) freq >>[ 8 sumtotal >>[ 45151
char >>[ --[ U+ 4 | 4 (ASCII) freq >>[ 11 sumtotal >>[ 45166
char >>[ --[ U+ 14 | 20 (ASCII) freq >>[ 9 sumtotal >>[ 45301
char >>[ + --[ U+ 2B | 43 (ASCII) freq >>[ 9 sumtotal >>[ 60645
char >>[ --[ U+ 9 | 9 (ASCII) freq >>[ 12 sumtotal >>[ 45216
char >>[ 8 --[ U+ 38 | 56 (ASCII) freq >>[ 1682 sumtotal >>[ 82522
char >>[ Q --[ U+ 51 | 81 (ASCII) freq >>[ 6 sumtotal >>[ 85040
char >>[ Y --[ U+ 59 | 89 (ASCII) freq >>[ 8 sumtotal >>[ 85105
char >>[ g --[ U+ 67 | 103 (ASCII) freq >>[ 10 sumtotal >>[ 85212
char >>[ p --[ U+ 70 | 112 (ASCII) freq >>[ 7 sumtotal >>[ 85411
char >>[ v --[ U+ 76 | 118 (ASCII) freq >>[ 7 sumtotal >>[ 85462
char >>[ ? --[ \216 \x8E | 142 (8-bit byte) freq >>[ 15 sumtotal >>[ 85653
char >>[ ? --[ \222 \x92 | 146 (8-bit byte) freq >>[ 13 sumtotal >>[ 85698
char >>[ ? --[ \250 \xA8 | 168 (8-bit byte) freq >>[ 9 sumtotal >>[ 85967
char >>[ ? --[ \307 \xC7 | 199 (8-bit byte) freq >>[ 7 sumtotal >>[ 86345
char >>[ ? --[ \332 \xDA | 218 (8-bit byte) freq >>[ 69 sumtotal >>[ 86576
char >>[ ? --[ \352 \xEA | 234 (8-bit byte) freq >>[ 6 sumtotal >>[ 86702
char >>[ ? --[ \354 \xEC | 236 (8-bit byte) freq >>[ 5 sumtotal >>[ 86713
char >>[ ? --[ \372 \xFA | 250 (8-bit byte) freq >>[ 11 sumtotal >>[ 86823
char >>[ ? --[ \376 \xFE | 254 (8-bit byte) freq >>[ 9 sumtotal >>[ 86859
其他回答
perl -lne '$x += $_; END { print $x; }' < infile.txt
一点awk就行了?
awk '{s+=$1} END {print s}' mydatafile
注意:如果要添加超过2^31(2147483647)的值,某些版本的awk会有一些奇怪的行为。查看评论了解更多背景信息。一个建议是使用printf而不是print:
awk '{s+=$1} END {printf "%.0f", s}' mydatafile
更新的基准
所以我合成了随机分布的100mn个整数
之间的
0^0 - 1
and
8^8 - 1
代码生成器
mawk2 '
BEGIN {
__=_=((_+=_^=_<_)+(__=_*_*_))^(___=__)
srand()
___^=___
do {
print int(rand()*___)
} while(--_) }' | pvE9 > test_large_int_100mil_001.txt
out9: 795MiB 0:00:11 [69.0MiB/s] [69.0MiB/s] [ <=> ]
f='test_large_int_100mil_001.txt'
wc5 < "${f}"
rows = 100000000. | UTF8 chars = 833771780. | bytes = 833771780.
最后一位的奇/偶分布
Odd 49,992,332
Even 50,007,668
AWK -最快的,有很大的优势(可能C更快,我不知道)
in0: 795MiB 0:00:07 [ 103MiB/s] [ 103MiB/s] [============>] 100%
( pvE 0.1 in0 < "${f}" | mawk2 '{ _+=$__ } END { print _ }'; )
7.64s user 0.35s system 103% cpu 7.727 total
1 838885279378716
Perl -相当不错
in0: 795MiB 0:00:10 [77.6MiB/s] [77.6MiB/s] [==============>] 100%
( pvE 0.1 in0 < "${f}" | perl -lne '$x += $_; END { print $x; }'; )
10.16s user 0.37s system 102% cpu 10.268 total
1 838885279378716
Python3——稍微落后于Perl
in0: 795MiB 0:00:11 [71.5MiB/s] [71.5MiB/s] [===========>] 100%
( pvE 0.1 in0 < "${f}" | python3 -c ; )
11.00s user 0.43s system 102% cpu 11.140 total
1 838885279378716
RUBY -不错
in0: 795MiB 0:00:13 [61.0MiB/s] [61.0MiB/s] [===========>] 100%
( pvE 0.1 in0 < "${f}" | ruby -e 'puts ARGF.map(&:to_i).inject(&:+)'; )
15.30s user 0.70s system 101% cpu 15.757 total
1 838885279378716
JQ -慢
in0: 795MiB 0:00:25 [31.1MiB/s] [31.1MiB/s] [========>] 100%
( pvE 0.1 in0 < "${f}" | jq -s 'add'; )
36.95s user 1.09s system 100% cpu 37.840 total
1 838885279378716
DC
- ( had to kill it after no response in minutes)
你可以使用你喜欢的'expr'命令,你只需要先欺骗一下输入:
seq 10 | tr '[\n]' '+' | sed -e 's/+/ + /g' -e's/ + $/\n/' | xargs expr
流程如下:
"tr"将elon字符替换为+符号, Sed在“+”的两边加空格,然后从行中去掉最后的+ Xargs将管道输入插入到命令行,以便expr使用。
使用env变量tmp
tmp=awk -v tmp="$tmp" '{print $tmp" "$1}' <filename>|echo $tmp|sed "s/ /+/g"|bc
tmp=cat <filename>|awk -v tmp="$tmp" '{print $tmp" "$1}'|echo $tmp|sed "s/ /+/g"|bc
谢谢。