宇宙射线:它们影响程序的概率是多少?

我又一次在设计评审中遇到了这样的说法，即某个特定场景的概率“小于宇宙射线影响程序的风险”，我突然意识到我根本不知道这个概率是多少。

“既然2-128是340282366920938463463374607431768211456中的1，我认为我们有理由在这里冒险，即使这些计算有几十亿倍的偏差……我相信，宇宙射线把我们搞砸的风险更大。”

这个程序员正确吗? 宇宙射线击中计算机并影响程序执行的概率是多少?

当前回答

更常见的情况是，噪声会破坏数据。校验和可以在很多层面上解决这个问题;在数据线中，通常有一个奇偶校验位与数据一起传输。这大大降低了腐败的可能性。然后在解析级别上，无意义的数据通常会被忽略，因此即使某些损坏确实通过了奇偶校验位或其他校验和，在大多数情况下也会被忽略。

此外，一些组件被电屏蔽以屏蔽噪音(我猜可能不是宇宙射线)。

但最后，正如其他回答者所说，偶尔会有位或字节被打乱，这取决于它是否是有效字节。最好的情况是，宇宙射线扰乱了其中一个空比特，完全没有影响，或者使计算机崩溃(这是一件好事，因为计算机避免了伤害);但最坏的情况，我相信你可以想象。

2010-04-05 20:27:45

其他回答

如果一个程序是生命攸关的(如果它失败了，它会杀死某人)，那么它需要以这样一种方式来编写，它要么是故障安全的，要么是从这种失败中自动恢复。所有其他节目，YMMV。

丰田就是一个很好的例子。说什么你会油门电缆，但它不是软件。

参见http://en.wikipedia.org/wiki/Therac-25

2010-04-06 03:02:33

注意:这个答案不是关于物理的，而是关于非ecc内存模块的无声内存错误。有些错误可能来自外部空间，有些则来自桌面内部空间。

在大型服务器场(如CERN集群和谷歌数据中心)上有几项关于ECC内存故障的研究。带有ECC的服务器级硬件可以检测和纠正所有的单比特错误，并检测许多多比特错误。

我们可以假设有很多非ecc台式机(以及非ecc移动智能手机)。如果我们检查论文的ecc可纠正错误率(单位翻转)，我们可以知道非ecc内存上的静默内存损坏率。

Large scale CERN 2007 study "Data integrity": vendors declares "Bit Error Rate of 10-12 for their memory modules", "a observed error rate is 4 orders of magnitude lower than expected". For data-intensive tasks (8 GB/s of memory reading) this means that single bit flip may occur every minute (10-12 vendors BER) or once in two days (10-16 BER). 2009 Google's paper "DRAM Errors in the Wild: A Large-Scale Field Study" says that there can be up to 25000-75000 one-bit FIT per Mbit (failures in time per billion hours), which is equal to 1 - 5 bit errors per hour for 8GB of RAM after my calculations. Paper says the same: "mean correctable error rates of 2000–6000 per GB per year". 2012 Sandia report "Detection and Correction of Silent Data Corruptionfor Large-Scale High-Performance Computing": "double bit flips were deemed unlikely" but at ORNL's dense Cray XT5 they are "at a rate of one per day for 75,000+ DIMMs" even with ECC. And single-bit errors should be higher.

因此，如果程序有很大的数据集(几GB)，或者有很高的内存读写速率(GB/s或更高)，并且它运行了几个小时，那么我们可以期望在桌面硬件上进行几次静默位翻转。memtest检测不到这个速率，DRAM模块表现良好。

长集群在数千台非ecc pc上运行，比如BOINC，互联网范围的网格计算总是会有内存位翻转、磁盘和网络静默错误造成的错误。

And for bigger machines (10 thousands of servers) even with ECC protection from single-bit errors, as we see in Sandia's 2012 report, there can be double-bit flips every day, so you will have no chance to run full-size parallel program for several days (without regular checkpointing and restarting from last good checkpoint in case of double error). The huge machines will also get bit-flips in their caches and cpu registers (both architectural and internal chip's triggers e.g. in ALU datapath), because not all of them are protected by ECC.

PS:如果DRAM模块坏了，情况会更糟。例如，我在笔记本电脑上安装了新的DRAM，几周后它就死机了。它开始出现很多内存错误。我得到:笔记本电脑挂起，linux重启，运行fsck，在根文件系统上发现错误，并说它想在纠正错误后重新启动。但是在每次重新启动(我做了大约5-6次)时，仍然会在根文件系统上发现错误。

2014-05-11 00:14:57

作为一个数据点，这发生在我们的构建中:

02:13:00,465 WARN  - In file included from /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/ostream:133:
02:13:00,465 WARN  - /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/locale:3180:65: error: use of undeclared identifier '_'
02:13:00,465 WARN  - for (unsigned __i = 1; __i < __trailing_sign->size(); ++_^i, ++__b)
02:13:00,465 WARN  - ^
02:13:00,465 WARN  - /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/locale:3180:67: error: use of undeclared identifier 'i'
02:13:00,465 WARN  - for (unsigned __i = 1; __i < __trailing_sign->size(); ++_^i, ++__b)
02:13:00,465 WARN  - ^

这看起来非常像在编译过程中偶然在源文件中非常重要的位置发生的位翻转。

我并不是说这是“宇宙射线”，但症状是相符的。

2016-05-23 11:10:56

从维基百科:

IBM在20世纪90年代的研究表明，计算机通常每个月每256兆字节的RAM会经历一次宇宙射线引起的错误

这意味着每月每个字节的概率为3.7 × 10-9，或每秒每个字节的概率为1.4 × 10-15。如果您的程序运行1分钟并占用20 MB RAM，则失败概率为

                 60 × 20 × 1024²
1 - (1 - 1.4e-15)                = 1.8e-6 a.k.a. "5 nines"

错误检查可以帮助减少失败的后果。此外，正如Joe所评论的那样，由于芯片尺寸更紧凑，故障率可能与20年前不同。

2010-04-05 20:25:24

您可能还想看看容错硬件。

例如，Stratus Technology构建了名为ftServer的Wintel服务器，它有2或3个锁步“主板”，比较计算结果。(有时在太空飞行器中也会这样做)。

Stratus服务器从定制芯片组发展到背板上的同步。

一个非常类似的(但是是软件)系统是基于Hypervisor的VMWare Fault Tolerance lockstep。

2013-09-26 02:33:30

宇宙射线:它们影响程序的概率是多少?

推荐文章

最新文章

标签