我正在对一个科学应用程序进行数值优化。我注意到的一件事是,GCC将通过将调用pow(a,2)编译为a*a来优化它,但调用pov(a,6)并没有优化,实际上会调用库函数pow,这会大大降低性能。(相比之下,可执行icc的“英特尔C++编译器”将消除对pow(a,6)的库调用。)
我好奇的是,当我使用GCC 4.5.1和选项“-O3-lm-funroll-loops-msse4”将pow(a,6)替换为a*a*a*a*a*a时,它使用了5条多指令:
movapd %xmm14, %xmm13
mulsd %xmm14, %xmm13
mulsd %xmm14, %xmm13
mulsd %xmm14, %xmm13
mulsd %xmm14, %xmm13
mulsd %xmm14, %xmm13
而如果我写(a*a*a)*(a*a*a),它将产生
movapd %xmm14, %xmm13
mulsd %xmm14, %xmm13
mulsd %xmm14, %xmm13
mulsd %xmm13, %xmm13
这将乘法指令的数量减少到3。icc也有类似的行为。
为什么编译器不认识这种优化技巧?
Lambdageek正确地指出,由于关联性不适用于浮点数,所以a*a*a*a*a*a到(a*a**a)*(a*a*a)的“优化”可能会改变值。这就是C99不允许它的原因(除非用户通过编译器标志或pragma特别允许)。一般来说,假设程序员写的东西是有原因的,编译器应该尊重这一点。如果你想要(a*a*a)*(a*a*a),请写下。
不过,写起来可能会很痛苦;当你使用pow(a,6)时,编译器为什么不能做正确的事情?因为这样做是错误的。在一个拥有良好数学库的平台上,pow(a,6)比a*a*a*a*a*a或(a*a**a)*(a*a*a)要准确得多。为了提供一些数据,我在我的Mac Pro上做了一个小实验,测量了在评估所有[1,2)之间的单精度浮点数的^6时的最差误差:
worst relative error using powf(a, 6.f): 5.96e-08
worst relative error using (a*a*a)*(a*a*a): 2.94e-07
worst relative error using a*a*a*a*a*a: 2.58e-07
使用pow而不是乘法树可以将误差范围减少4倍。编译器不应该(通常也不会)进行增加错误的“优化”,除非获得用户的许可(例如通过-fast math)。
注意,GCC提供__builtin_powi(x,n)作为pow()的替代方案,pow应该生成内联乘法树。如果您想以精度换取性能,但不想启用快速数学,请使用该选项。
gcc实际上可以进行这种优化,即使对于浮点数也是如此。例如
double foo(double a) {
return a*a*a*a*a*a;
}
变成
foo(double):
mulsd %xmm0, %xmm0
movapd %xmm0, %xmm1
mulsd %xmm0, %xmm1
mulsd %xmm1, %xmm0
ret
使用-O-funcafe数学优化。但是,这种重新排序违反了IEEE-754,因此需要标记。
正如Peter Cordes在一篇评论中指出的,有符号整数可以在没有funsafe数学优化的情况下进行这种优化,因为它恰好在没有溢出的情况下有效,如果有溢出,则会出现未定义的行为。所以你得到
foo(long):
movq %rdi, %rax
imulq %rdi, %rax
imulq %rdi, %rax
imulq %rax, %rax
ret
只需-O。对于无符号整数,这更容易,因为它们是2的模幂,因此即使在溢出的情况下也可以自由地重新排序。
当a为整数时,GCC实际上将a*a*a*a*a*a优化为(a*a**a)*(a*a*a)。我尝试使用以下命令:
$ echo 'int f(int x) { return x*x*x*x*x*x; }' | gcc -o - -O2 -S -masm=intel -x c -
有很多gcc标志,但没有什么花哨的。他们的意思是:从stdin读取;使用O2优化水平;输出汇编语言列表而不是二进制;该列表应使用英特尔汇编语言语法;输入是C语言(通常从输入文件扩展名推断出语言,但从stdin读取时没有文件扩展名);并写入stdout。
这是输出的重要部分。我用一些注释对其进行了注释,指出了汇编语言中的情况:
; x is in edi to begin with. eax will be used as a temporary register.
mov eax, edi ; temp = x
imul eax, edi ; temp = x * temp
imul eax, edi ; temp = x * temp
imul eax, eax ; temp = temp * temp
我在Linux Mint 16 Petra上使用GCC系统,这是一个Ubuntu衍生版本。以下是gcc版本:
$ gcc --version
gcc (Ubuntu/Linaro 4.8.1-10ubuntu9) 4.8.1
正如其他海报所指出的,在浮点运算中,这个选项是不可能的,因为浮点运算是不相关的。