Linux中的线程与进程

最近我听到一些人说，在Linux中，使用进程几乎总是比使用线程更好，因为Linux在处理进程方面非常高效，而且与线程相关的问题太多了(比如锁)。然而，我对此持怀疑态度，因为在某些情况下，线程似乎可以带来相当大的性能提升。

因此，我的问题是，当遇到线程和进程都可以很好地处理的情况时，我应该使用进程还是线程?例如，如果我正在编写一个web服务器，我应该使用进程还是线程(或组合)?

当前回答

Linux使用1-1线程模型，(对内核来说)没有进程和线程的区别——一切都只是一个可运行的任务。＊

在Linux上，系统调用clone克隆一个任务，共享级别可配置，其中包括:

CLONE_FILES:共享相同的文件描述符表(而不是创建一个副本) CLONE_PARENT:不要在新任务和旧任务之间建立父子关系(否则，child的getppid() = parent的getpid()) CLONE_VM:共享相同的内存空间(而不是创建COW副本)

Fork()调用clone(共享最少)，pthread_create()调用clone(共享最多)。**

fork的成本比pthread_creation略高，因为需要复制表并为内存创建COW映射，但是Linux内核开发人员已经尝试(并成功)将这些成本最小化。

如果任务共享相同的内存空间和不同的表，那么它们之间的切换将比不共享的任务稍微便宜一些，因为数据可能已经加载到缓存中了。然而，即使没有任何共享，切换任务仍然非常快——这是Linux内核开发人员试图确保(并成功确保)的另一件事。

事实上，如果您在多处理器系统上，不共享实际上可能有利于性能:如果每个任务都在不同的处理器上运行，同步共享内存的成本很高。

*简化。CLONE_THREAD导致信号传递被共享(这需要共享信号处理程序表的CLONE_SIGHAND)。

* *简化。SYS_fork和SYS_clone系统调用都存在，但是在内核中，SYS_fork和SYS_clone都是对同一个do_fork函数的非常薄的包装，而do_fork函数本身也是对copy_process的薄包装。是的，进程、线程和任务这三个术语在Linux内核中是可以互换使用的……

2009-04-30 20:59:49

其他回答

如果你需要共享资源，你真的应该使用线程。

还要考虑这样一个事实:线程之间的上下文切换比进程之间的上下文切换代价要小得多。

我认为没有理由明确地使用单独的进程，除非你有一个很好的理由这样做(安全，经过验证的性能测试，等等……)

2009-04-30 15:37:49

线程/进程之间的决定取决于您将使用它来做什么。进程的好处之一是它有一个PID，可以在不终止父进程的情况下被杀死。

对于一个真实世界的web服务器的例子，apache 1.3过去只支持多进程，但是在2.0中他们增加了一个抽象，这样你就可以在两者之间切换。评论似乎同意进程更健壮，但线程可以提供更好的性能(除了那些进程性能很差且您只想使用线程的窗口)。

2009-04-30 16:04:52

你的任务有多紧密耦合?

如果它们可以彼此独立，那么就使用流程。如果它们相互依赖，则使用线程。这样，您就可以终止并重新启动坏进程，而不会影响其他任务的操作。

2009-04-30 16:17:01

Linux(实际上还有Unix)为您提供了第三种选择。

选项1 -流程

创建一个独立的可执行文件来处理应用程序的某些部分(或所有部分)，并为每个进程分别调用它，例如，程序运行自己的副本来委托任务。

选项2 -线程

创建一个独立的可执行文件，它由一个线程启动，并创建额外的线程来执行一些任务

选项3 -分叉

仅在Linux/Unix下可用，这有点不同。fork进程实际上是拥有自己地址空间的进程——子进程(通常)无法影响其父进程或兄弟进程的地址空间(不像线程)——因此您获得了额外的健壮性。

但是，内存页不是复制的，它们是写时复制的，因此通常使用的内存比您想象的要少。

考虑一个web服务器程序，它包含两个步骤:

读取配置和运行时数据服务页面请求

如果您使用线程，第1步将完成一次，第2步将在多个线程中完成。如果您使用“传统”流程，那么每个流程都需要重复步骤1和步骤2，存储配置和运行时数据的内存也需要重复。如果您使用fork()，那么您可以执行第1步，然后fork()，将运行时数据和配置保留在内存中，不受影响，不复制。

所以实际上有三种选择。

2009-04-30 20:41:08

更复杂的是，还有线程本地存储和Unix共享内存。

Thread-local storage allows each thread to have a separate instance of global objects. The only time I've used it was when constructing an emulation environment on linux/windows, for application code that ran in an RTOS. In the RTOS each task was a process with it's own address space, in the emulation environment, each task was a thread (with a shared address space). By using TLS for things like singletons, we were able to have a separate instance for each thread, just like under the 'real' RTOS environment.

共享内存(显然)可以为您带来让多个进程访问相同内存的性能优势，但代价是必须正确地同步进程。一种方法是让一个进程在共享内存中创建一个数据结构，然后通过传统的进程间通信(如命名管道)向该结构发送句柄。

2009-04-30 21:33:37

Linux中的线程与进程

推荐文章

最新文章

标签