如何在现代x86-64英特尔CPU上实现每周期4个浮点运算(双精度)的理论峰值性能?据我所知,在大多数现代英特尔cpu上,SSE添加需要三个周期,mul完成需要五个周期(例如,参见Agner Fog的