如何用SSE4.2和AVX指令编译Tensorflow ?

这是运行脚本检查Tensorflow是否工作时收到的消息:

I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcublas.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcudnn.so.5 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcufft.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcurand.so.8.0 locally
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.
W tensorflow/core/platform/cpu_feature_guard.cc:95] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU computations.
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:910] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero

我注意到它提到了SSE4.2和AVX，

什么是SSE4.2和AVX? 这些SSE4.2和AVX如何提高Tensorflow任务的CPU计算。如何使用这两个库使Tensorflow编译?

当前回答

多亏了所有这些回复和一些试验和错误，我成功地将它安装在Mac上。所以分享一下我的解，也许对别人有用。

请遵循文档-从源代码安装TensorFlow的说明当提示当bazel选项"——config=opt"被指定时，请指定在编译过程中使用的优化标志[默认值是-march=native]

然后复制粘贴这个字符串:

-mavx -mavx2 -mfma -msse4.2

(默认选项会导致错误，其他一些标志也是如此。我没有得到错误与上述标志。顺便说一句，我回答了n个其他问题)

安装后，我验证了在训练深度模型时，相对于基于默认轮子的另一个安装(在macOS上安装TensorFlow)，速度提高了~2倍到2.5倍

希望能有所帮助

2017-11-06 21:28:28

其他回答

这些是SIMD矢量处理指令集。

对于许多任务来说，使用矢量指令更快;机器学习就是这样一项任务。

引用tensorflow安装文档:

为了与尽可能多的机器兼容，TensorFlow默认只在x86机器上使用SSE4.1 SIMD指令。大多数现代pc和mac都支持更高级的指令，所以如果您正在构建一个只在您自己的机器上运行的二进制文件，您可以在bazel构建命令中使用——copt=-march=native来启用这些指令。

2016-12-29 21:28:01

我最近从源代码安装了它，下面是从源代码安装它所需的所有步骤，上面提到的说明是可用的。

其他答案已经描述了为什么会显示这些消息。我的回答给出了如何isinstall的一步一步，这可能会帮助那些像我一样在实际安装上挣扎的人。

安装巴泽尔

从它们的可用版本中下载它，例如0.5.2。解压它，进入目录并配置它:bash ./compile.sh。将可执行文件拷贝到/usr/local/bin: sudo cp ./output/bazel /usr/local/bin

安装Tensorflow

克隆tensorflow: git克隆https://github.com/tensorflow/tensorflow.git 进入克隆目录进行配置:./configure

它会提示你几个问题，以下是我对每个问题的建议回答，当然，你可以根据自己的喜好选择回答:

Using python library path: /usr/local/lib/python2.7/dist-packages
Do you wish to build TensorFlow with MKL support? [y/N] y
MKL support will be enabled for TensorFlow
Do you wish to download MKL LIB from the web? [Y/n] Y
Please specify optimization flags to use during compilation when bazel option "--config=opt" is specified [Default is -march=native]: 
Do you wish to use jemalloc as the malloc implementation? [Y/n] n
jemalloc disabled
Do you wish to build TensorFlow with Google Cloud Platform support? [y/N] N
No Google Cloud Platform support will be enabled for TensorFlow
Do you wish to build TensorFlow with Hadoop File System support? [y/N] N
No Hadoop File System support will be enabled for TensorFlow
Do you wish to build TensorFlow with the XLA just-in-time compiler (experimental)? [y/N] N
No XLA JIT support will be enabled for TensorFlow
Do you wish to build TensorFlow with VERBS support? [y/N] N
No VERBS support will be enabled for TensorFlow
Do you wish to build TensorFlow with OpenCL support? [y/N] N
No OpenCL support will be enabled for TensorFlow
Do you wish to build TensorFlow with CUDA support? [y/N] N
No CUDA support will be enabled for TensorFlow

pip包。为了构建它，你必须描述你想要的指令(你知道，那些Tensorflow通知你的指令是缺失的)。

构建pip脚本:bazel Build -copt——copt=-mavx——copt=-mavx2——copt=-mfma——copt=-mfpmath=both——copt=-msse4.1——copt=-msse4.2 -k //tensorflow/tools/pip_package:build_pip_package

编译pip包:bazzel -bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg

安装你刚刚构建的Tensorflow pip包:sudo pip Install /tmp/tensorflow_pkg/ Tensorflow -1.2.1-cp27-cp27mu-linux_x86_64.whl

现在你下次启动Tensorflow时，它不会再抱怨缺少指令了。

2017-09-03 09:50:03

我编译了一个小型的Mac Bash脚本(很容易移植到Linux)来检索所有CPU特性，并应用其中的一些来构建TF。我在TF大师和使用有点经常(一对夫妇在一个月)。

https://gist.github.com/venik/9ba962c8b301b0e21f99884cbd35082f

2017-08-18 06:04:43

多亏了所有这些回复和一些试验和错误，我成功地将它安装在Mac上。所以分享一下我的解，也许对别人有用。

请遵循文档-从源代码安装TensorFlow的说明当提示当bazel选项"——config=opt"被指定时，请指定在编译过程中使用的优化标志[默认值是-march=native]

然后复制粘贴这个字符串:

-mavx -mavx2 -mfma -msse4.2

(默认选项会导致错误，其他一些标志也是如此。我没有得到错误与上述标志。顺便说一句，我回答了n个其他问题)

安装后，我验证了在训练深度模型时，相对于基于默认轮子的另一个安装(在macOS上安装TensorFlow)，速度提高了~2倍到2.5倍

希望能有所帮助

2017-11-06 21:28:28

我刚刚遇到了同样的问题，似乎Yaroslav Bulatov的建议不包括SSE4.2支持，添加——copt=-msse4.2就足够了。最后，我成功地用

bazel build -c opt --copt=-mavx --copt=-mavx2 --copt=-mfma --copt=-mfpmath=both --copt=-msse4.2 --config=cuda -k //tensorflow/tools/pip_package:build_pip_package

没有得到任何警告或错误。

对于任何系统来说，最好的选择可能是:

bazel build -c opt --copt=-march=native --copt=-mfpmath=both --config=cuda -k //tensorflow/tools/pip_package:build_pip_package

(更新:构建脚本可能会吃掉-march=native，可能是因为它包含一个=。)

-mfpmath=两者只适用于gcc，不适用于clang。-mfpmath=sse可能同样好，如果不是更好的话，它是x86-64的默认值。32位构建默认为-mfpmath=387，因此更改它将有助于32位。(但如果你想要高性能的数字运算，你应该构建64位二进制文件。)

我不确定TensorFlow默认的-O2或-O3是什么。gcc -O3支持完全优化，包括自动向量化，但有时会使代码变慢。

——copt for bazel build将一个选项直接传递给gcc编译C和c++文件(但不是链接，所以你需要一个不同的跨文件链接时间优化选项)

x86-64 gcc默认只使用SSE2或更老的SIMD指令，因此您可以在任何x86-64系统上运行二进制文件。(见https://gcc.gnu.org/onlinedocs/gcc/x86-Options.html)。这不是你想要的。您希望制作一个二进制文件，利用CPU可以运行的所有指令，因为您只在构建它的系统上运行这个二进制文件。

-march=native启用你的CPU支持的所有选项，因此它使-mavx512f -mavx2 -mavx -mfma -msse4.2冗余。(此外，-mavx2已经启用了-mavx和-msse4.2，所以Yaroslav的命令应该没问题)。此外，如果您使用的CPU不支持这些选项之一(如FMA)，则使用-mfma将生成带有非法指令错误的二进制文件。

TensorFlow的./configure默认启用-march=native，因此使用它应该避免需要手动指定编译器选项。

-march=native启用-mtune=native，因此它为你的CPU优化，比如AVX指令的哪个序列最适合未对齐的负载。

这些都适用于gcc、clang或ICC。(对于ICC，您可以使用-xHOST代替-march=native。)

2017-01-11 07:13:58

如何用SSE4.2和AVX指令编译Tensorflow ?

推荐文章

最新文章

标签