为什么GCC不将a*a*a*a*a*a优化为（a*a**a）*（a*a*a）？

我正在对一个科学应用程序进行数值优化。我注意到的一件事是，GCC将通过将调用pow（a，2）编译为a*a来优化它，但调用pov（a，6）并没有优化，实际上会调用库函数pow，这会大大降低性能。（相比之下，可执行icc的“英特尔C++编译器”将消除对pow（a，6）的库调用。）

我好奇的是，当我使用GCC 4.5.1和选项“-O3-lm-funroll-loops-msse4”将pow（a，6）替换为a*a*a*a*a*a时，它使用了5条多指令：

movapd  %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13

而如果我写（a*a*a）*（a*a*a），它将产生

movapd  %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm13, %xmm13

这将乘法指令的数量减少到3。icc也有类似的行为。

为什么编译器不认识这种优化技巧？

当前回答

这个问题已经有了一些很好的答案，但为了完整起见，我想指出C标准的适用部分是5.1.2.2.3/15（与C++11标准中的1.9/9节相同）。本节指出，只有当运算符真的是结合的或可交换的时，才能重新组合它们。

2013-10-01 19:33:31

其他回答

Lambdageek正确地指出，由于关联性不适用于浮点数，所以a*a*a*a*a*a到（a*a**a）*（a*a*a）的“优化”可能会改变值。这就是C99不允许它的原因（除非用户通过编译器标志或pragma特别允许）。一般来说，假设程序员写的东西是有原因的，编译器应该尊重这一点。如果你想要（a*a*a）*（a*a*a），请写下。

不过，写起来可能会很痛苦；当你使用pow（a，6）时，编译器为什么不能做正确的事情？因为这样做是错误的。在一个拥有良好数学库的平台上，pow（a，6）比a*a*a*a*a*a或（a*a**a）*（a*a*a）要准确得多。为了提供一些数据，我在我的Mac Pro上做了一个小实验，测量了在评估所有[1,2）之间的单精度浮点数的^6时的最差误差：

worst relative error using    powf(a, 6.f): 5.96e-08
worst relative error using (a*a*a)*(a*a*a): 2.94e-07
worst relative error using     a*a*a*a*a*a: 2.58e-07

使用pow而不是乘法树可以将误差范围减少4倍。编译器不应该（通常也不会）进行增加错误的“优化”，除非获得用户的许可（例如通过-fast math）。

注意，GCC提供__builtin_powi（x，n）作为pow（）的替代方案，pow应该生成内联乘法树。如果您想以精度换取性能，但不想启用快速数学，请使用该选项。

2011-06-22 15:32:18

当a为整数时，GCC实际上将a*a*a*a*a*a优化为（a*a**a）*（a*a*a）。我尝试使用以下命令：

$ echo 'int f(int x) { return x*x*x*x*x*x; }' | gcc -o - -O2 -S -masm=intel -x c -

有很多gcc标志，但没有什么花哨的。他们的意思是：从stdin读取；使用O2优化水平；输出汇编语言列表而不是二进制；该列表应使用英特尔汇编语言语法；输入是C语言（通常从输入文件扩展名推断出语言，但从stdin读取时没有文件扩展名）；并写入stdout。

这是输出的重要部分。我用一些注释对其进行了注释，指出了汇编语言中的情况：

; x is in edi to begin with.  eax will be used as a temporary register.
mov  eax, edi  ; temp = x
imul eax, edi  ; temp = x * temp
imul eax, edi  ; temp = x * temp
imul eax, eax  ; temp = temp * temp

我在Linux Mint 16 Petra上使用GCC系统，这是一个Ubuntu衍生版本。以下是gcc版本：

$ gcc --version
gcc (Ubuntu/Linaro 4.8.1-10ubuntu9) 4.8.1

正如其他海报所指出的，在浮点运算中，这个选项是不可能的，因为浮点运算是不相关的。

2014-03-29 06:51:06

2013-10-01 19:33:31

我根本不会期望这种情况得到优化。表达式中包含可以重新组合以删除整个操作的子表达式的情况不太常见。我希望编译器编写者将他们的时间投入到更有可能带来显著改进的领域，而不是涵盖很少遇到的边缘情况。

我惊讶地从其他答案中得知，这个表达式确实可以通过适当的编译器开关进行优化。要么优化是微不足道的，要么是更常见的优化的边缘情况，要么编译器编写者非常彻底。

像您在这里所做的那样，向编译器提供提示没有错。重新排列语句和表达式，看看它们会带来什么差异，这是微优化过程中的一个正常和预期的部分。

虽然编译器可能有理由考虑这两个表达式以提供不一致的结果（没有适当的开关），但您无需受到该限制的约束。差异将非常小，以至于如果差异对你很重要，你不应该首先使用标准的浮点运算。

2011-06-21 18:52:49

因为浮点数学不是关联的。浮点乘法中操作数的分组方式会影响答案的数值精度。

因此，大多数编译器对重新排序浮点计算非常保守，除非他们能够确定答案不变，或者除非你告诉他们你不在乎数值精度。例如：gcc的-fassociative math选项允许gcc重新关联浮点运算，或者甚至-fast math选项，允许更积极地权衡精度与速度。

2011-06-21 18:56:51

为什么GCC不将aaaaaa优化为（aa**a）（aa*a）？

推荐文章

最新文章

标签