宇宙射线:它们影响程序的概率是多少?

我又一次在设计评审中遇到了这样的说法，即某个特定场景的概率“小于宇宙射线影响程序的风险”，我突然意识到我根本不知道这个概率是多少。

“既然2-128是340282366920938463463374607431768211456中的1，我认为我们有理由在这里冒险，即使这些计算有几十亿倍的偏差……我相信，宇宙射线把我们搞砸的风险更大。”

这个程序员正确吗? 宇宙射线击中计算机并影响程序执行的概率是多少?

当前回答

“宇宙射线事件”在这里的许多答案中被认为是均匀分布的，这可能并不总是正确的(即超新星)。虽然“宇宙射线”的定义(至少根据维基百科)来自外太空，但我认为将局部太阳风暴(又名日冕物质抛射)也包括在同一保护伞下是公平的。我相信这可能会导致几个比特在短时间内翻转，可能足以破坏甚至启用ecc的内存。

众所周知，太阳风暴会对电力系统造成相当大的破坏(如1989年3月的魁北克停电)。计算机系统很可能也会受到影响。

Some 10 years ago I was sitting right next to another guy, we were sitting with each our laptops, it was in a period with quite "stormy" solar weather (sitting in the arctic, we could observe this indirectly - lots of aurora borealis to be seen). Suddenly - in the very same instant - both our laptops crashed. He was running OS X, and I was running Linux. Neither of us are used to the laptops crashing - it's a quite rare thing on Linux and OS X. Common software bugs can more or less be ruled out since we were running on different OS'es (and it didn't happen during a leap second). I've come to attribute that event to "cosmic radiation".

后来，“宇宙辐射”成了我工作场所的一个内部笑话。每当我们的服务器发生了什么事情，我们找不到任何解释，我们开玩笑地把错误归咎于“宇宙辐射”。: -)

2015-05-21 10:16:22

其他回答

显然，这并非微不足道。这篇《新科学家》的文章引用了一份英特尔专利申请:

“宇宙射线引发的电脑死机已经发生过，而且随着芯片中器件(例如晶体管)尺寸的减小，预计死机的频率将会增加。这个问题预计将成为未来十年计算机可靠性的主要限制因素。”

你可以在这里阅读完整的专利。

2010-04-05 20:26:37

从维基百科:

IBM在20世纪90年代的研究表明，计算机通常每个月每256兆字节的RAM会经历一次宇宙射线引起的错误

这意味着每月每个字节的概率为3.7 × 10-9，或每秒每个字节的概率为1.4 × 10-15。如果您的程序运行1分钟并占用20 MB RAM，则失败概率为

                 60 × 20 × 1024²
1 - (1 - 1.4e-15)                = 1.8e-6 a.k.a. "5 nines"

错误检查可以帮助减少失败的后果。此外，正如Joe所评论的那样，由于芯片尺寸更紧凑，故障率可能与20年前不同。

2010-04-05 20:25:24

作为一个数据点，这发生在我们的构建中:

02:13:00,465 WARN  - In file included from /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/ostream:133:
02:13:00,465 WARN  - /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/locale:3180:65: error: use of undeclared identifier '_'
02:13:00,465 WARN  - for (unsigned __i = 1; __i < __trailing_sign->size(); ++_^i, ++__b)
02:13:00,465 WARN  - ^
02:13:00,465 WARN  - /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin/../include/c++/v1/locale:3180:67: error: use of undeclared identifier 'i'
02:13:00,465 WARN  - for (unsigned __i = 1; __i < __trailing_sign->size(); ++_^i, ++__b)
02:13:00,465 WARN  - ^

这看起来非常像在编译过程中偶然在源文件中非常重要的位置发生的位翻转。

我并不是说这是“宇宙射线”，但症状是相符的。

2016-05-23 11:10:56

使用ECC，您可以纠正宇宙射线的1位错误。为了避免10%的宇宙射线导致2位错误的情况，ECC细胞通常交错在芯片上，因此没有两个细胞彼此相邻。因此，影响两个单元格的宇宙射线事件将导致两个可纠正的1bit误差。

孙声明:(2002年4月第816-5053-10部分)

一般来说，宇宙射线软误差发生在DRAM存储器中速率~10到100 FIT/MB (1 FIT = 1个设备故障在10亿小时)。因此，具有10gb内存的系统应该每1000次显示一次ECC事件到10,000小时，100gb的系统将显示一个事件 100到1000小时。然而，这只是一个粗略的估计变化是上述效应的函数。

2011-04-10 05:41:46

您可能还想看看容错硬件。

例如，Stratus Technology构建了名为ftServer的Wintel服务器，它有2或3个锁步“主板”，比较计算结果。(有时在太空飞行器中也会这样做)。

Stratus服务器从定制芯片组发展到背板上的同步。

一个非常类似的(但是是软件)系统是基于Hypervisor的VMWare Fault Tolerance lockstep。

2013-09-26 02:33:30

宇宙射线:它们影响程序的概率是多少?

推荐文章

最新文章

标签