宇宙射线:它们影响程序的概率是多少?

我又一次在设计评审中遇到了这样的说法，即某个特定场景的概率“小于宇宙射线影响程序的风险”，我突然意识到我根本不知道这个概率是多少。

“既然2-128是340282366920938463463374607431768211456中的1，我认为我们有理由在这里冒险，即使这些计算有几十亿倍的偏差……我相信，宇宙射线把我们搞砸的风险更大。”

这个程序员正确吗? 宇宙射线击中计算机并影响程序执行的概率是多少?

当前回答

您可能还想看看容错硬件。

例如，Stratus Technology构建了名为ftServer的Wintel服务器，它有2或3个锁步“主板”，比较计算结果。(有时在太空飞行器中也会这样做)。

Stratus服务器从定制芯片组发展到背板上的同步。

一个非常类似的(但是是软件)系统是基于Hypervisor的VMWare Fault Tolerance lockstep。

2013-09-26 02:33:30

其他回答

从维基百科:

IBM在20世纪90年代的研究表明，计算机通常每个月每256兆字节的RAM会经历一次宇宙射线引起的错误

这意味着每月每个字节的概率为3.7 × 10-9，或每秒每个字节的概率为1.4 × 10-15。如果您的程序运行1分钟并占用20 MB RAM，则失败概率为

                 60 × 20 × 1024²
1 - (1 - 1.4e-15)                = 1.8e-6 a.k.a. "5 nines"

错误检查可以帮助减少失败的后果。此外，正如Joe所评论的那样，由于芯片尺寸更紧凑，故障率可能与20年前不同。

2010-04-05 20:25:24

Memory errors are real, and ECC memory does help. Correctly implemented ECC memory will correct single bit errors and detect double bit errors (halting the system if such an error is detected.) You can see this from how regularly people complain about what seems to be a software problem that is resolved by running Memtest86 and discovering bad memory. Of course a transient failure caused by a cosmic ray is different to a consistently failing piece of memory, but it is relevant to the broader question of how much you should trust your memory to operate correctly.

基于20 MB常驻大小的分析可能适用于普通应用程序，但大型系统通常有多个具有较大主存的服务器。

有趣的链接:http://cr.yp.to/hardware/ecc.html

不幸的是，海盗链接在页面似乎死了，所以查看海盗链接在这里代替。

2010-04-06 05:27:23

维基百科引用了IBM在90年代的一项研究，该研究表明“计算机通常每个月每256兆字节的RAM中会出现一次宇宙射线引起的错误。”不幸的是，引用的是《科学美国人》上的一篇文章，该文章没有提供任何进一步的参考文献。就我个人而言，我发现这个数字非常高，但也许大多数由宇宙射线引起的记忆错误不会引起任何实际或明显的问题。

另一方面，当涉及到软件场景时，人们谈论概率通常不知道他们在谈论什么。

2010-04-05 20:25:44

使用ECC，您可以纠正宇宙射线的1位错误。为了避免10%的宇宙射线导致2位错误的情况，ECC细胞通常交错在芯片上，因此没有两个细胞彼此相邻。因此，影响两个单元格的宇宙射线事件将导致两个可纠正的1bit误差。

孙声明:(2002年4月第816-5053-10部分)

一般来说，宇宙射线软误差发生在DRAM存储器中速率~10到100 FIT/MB (1 FIT = 1个设备故障在10亿小时)。因此，具有10gb内存的系统应该每1000次显示一次ECC事件到10,000小时，100gb的系统将显示一个事件 100到1000小时。然而，这只是一个粗略的估计变化是上述效应的函数。

2011-04-10 05:41:46

注意:这个答案不是关于物理的，而是关于非ecc内存模块的无声内存错误。有些错误可能来自外部空间，有些则来自桌面内部空间。

在大型服务器场(如CERN集群和谷歌数据中心)上有几项关于ECC内存故障的研究。带有ECC的服务器级硬件可以检测和纠正所有的单比特错误，并检测许多多比特错误。

我们可以假设有很多非ecc台式机(以及非ecc移动智能手机)。如果我们检查论文的ecc可纠正错误率(单位翻转)，我们可以知道非ecc内存上的静默内存损坏率。

Large scale CERN 2007 study "Data integrity": vendors declares "Bit Error Rate of 10-12 for their memory modules", "a observed error rate is 4 orders of magnitude lower than expected". For data-intensive tasks (8 GB/s of memory reading) this means that single bit flip may occur every minute (10-12 vendors BER) or once in two days (10-16 BER). 2009 Google's paper "DRAM Errors in the Wild: A Large-Scale Field Study" says that there can be up to 25000-75000 one-bit FIT per Mbit (failures in time per billion hours), which is equal to 1 - 5 bit errors per hour for 8GB of RAM after my calculations. Paper says the same: "mean correctable error rates of 2000–6000 per GB per year". 2012 Sandia report "Detection and Correction of Silent Data Corruptionfor Large-Scale High-Performance Computing": "double bit flips were deemed unlikely" but at ORNL's dense Cray XT5 they are "at a rate of one per day for 75,000+ DIMMs" even with ECC. And single-bit errors should be higher.

因此，如果程序有很大的数据集(几GB)，或者有很高的内存读写速率(GB/s或更高)，并且它运行了几个小时，那么我们可以期望在桌面硬件上进行几次静默位翻转。memtest检测不到这个速率，DRAM模块表现良好。

长集群在数千台非ecc pc上运行，比如BOINC，互联网范围的网格计算总是会有内存位翻转、磁盘和网络静默错误造成的错误。

And for bigger machines (10 thousands of servers) even with ECC protection from single-bit errors, as we see in Sandia's 2012 report, there can be double-bit flips every day, so you will have no chance to run full-size parallel program for several days (without regular checkpointing and restarting from last good checkpoint in case of double error). The huge machines will also get bit-flips in their caches and cpu registers (both architectural and internal chip's triggers e.g. in ALU datapath), because not all of them are protected by ECC.

PS:如果DRAM模块坏了，情况会更糟。例如，我在笔记本电脑上安装了新的DRAM，几周后它就死机了。它开始出现很多内存错误。我得到:笔记本电脑挂起，linux重启，运行fsck，在根文件系统上发现错误，并说它想在纠正错误后重新启动。但是在每次重新启动(我做了大约5-6次)时，仍然会在根文件系统上发现错误。

2014-05-11 00:14:57

宇宙射线:它们影响程序的概率是多少?

推荐文章

最新文章

标签