编译用于高放射性环境的应用程序

我们正在编译一个嵌入式C++应用程序，它部署在电离辐射轰击的环境中的屏蔽设备中。我们正在为ARM使用GCC和交叉编译。在部署时，我们的应用程序会生成一些错误的数据，并且比我们希望的更频繁地崩溃。硬件是为这个环境而设计的，我们的应用程序已经在这个平台上运行了几年。

我们是否可以对代码进行更改，或对编译时进行改进，以识别/纠正由单个事件扰乱导致的软错误和内存损坏？是否有其他开发人员成功地减少了软错误对长时间运行的应用程序的有害影响？

当前回答

以下是一些想法和想法：

更创造性地使用ROM。

在ROM中存储任何可以存储的东西。不要计算东西，而是将查找表存储在ROM中。（确保编译器将查找表输出到只读部分！在运行时打印内存地址以进行检查！）将中断向量表存储在RAM中。当然，运行一些测试以查看ROM与RAM相比的可靠性。

为堆栈使用最好的RAM。

堆栈中的SEU可能是最可能的崩溃源，因为它是索引变量、状态变量、返回地址和各种类型的指针通常存在的地方。

执行计时器滴答声和看门狗计时器例程。

您可以在每一次计时器计时时运行一个“健全性检查”例程，以及一个看门狗例程来处理系统锁定。您的主代码还可以周期性地增加一个计数器以指示进度，而健全性检查例程可以确保发生了这种情况。

在软件中执行纠错代码。

您可以为数据添加冗余，以便能够检测和/或纠正错误。这将增加处理时间，可能会使处理器长时间暴露在辐射中，从而增加出错的机会，因此您必须考虑权衡。

记住缓存。

检查CPU缓存的大小。您最近访问或修改的数据可能位于缓存中。我相信您可以禁用至少一些缓存（以较大的性能代价）；你应该试试看缓存对SEU的敏感性。如果缓存比RAM更硬，那么您可以定期读取和重新写入关键数据，以确保它保留在缓存中并使RAM恢复正常。

巧妙地使用页面错误处理程序。

如果将内存页标记为不存在，CPU将在您尝试访问它时发出页面错误。您可以创建一个页面错误处理程序，在处理读取请求之前进行一些检查。（PC操作系统使用此功能透明地加载已交换到磁盘的页面。）

对关键的事情使用汇编语言（可能是所有事情）。

使用汇编语言，您知道寄存器中的内容和RAM中的内容；你知道CPU使用的是什么特殊的RAM表，你可以用迂回的方式来设计，以降低风险。

使用objdump实际查看生成的汇编语言，并计算每个例程占用的代码量。

如果你使用的是像Linux这样的大型操作系统，那么你就是在自找麻烦；有太多的复杂性和太多的事情要出错。

记住这是一场概率游戏。

一位评论者说

你为捕捉错误而编写的每一个例程都会因同样的原因而失败。

虽然这是真的，但检查例程正确运行所需的（例如）100字节代码和数据中发生错误的机会要比其他地方发生错误的几率小得多。如果你的ROM非常可靠，并且几乎所有的代码/数据都在ROM中，那么你的可能性就更大了。

使用冗余硬件。

使用具有相同代码的两个或更多相同硬件设置。如果结果不同，应触发重置。对于3个或更多设备，您可以使用“投票”系统来尝试确定哪一个已被破坏。

2016-04-24 23:11:34

其他回答

NASA有一篇关于防辐射软件的论文。它描述了三个主要任务：

定期监控内存中的错误，然后清除这些错误，稳健的错误恢复机制，以及如果某些东西不再工作，重新配置的能力。

请注意，内存扫描速率应该足够频繁，很少发生多位错误，因为大多数ECC内存可以从单位错误而不是多位错误中恢复。

稳健的错误恢复包括控制流传输（通常在错误发生之前的某个点重新启动流程）、资源释放和数据恢复。

他们对数据恢复的主要建议是，通过将中间数据视为临时数据，避免数据恢复的需要，以便在错误发生之前重新启动也能将数据回滚到可靠状态。这听起来类似于数据库中的“事务”概念。

他们讨论了特别适用于面向对象语言（如C++）的技术。例如

用于连续内存对象的基于软件的ECC契约编程：验证先决条件和后决条件，然后检查对象以验证其是否仍处于有效状态。

而且，正是如此，美国宇航局（NASA）已将C++用于火星探测器等重大项目。

C++类抽象和封装支持多个项目和开发人员之间的快速开发和测试。

他们避免了某些可能产生问题的C++特性：

例外情况模板Iostream（无控制台）多重继承运算符重载（new和delete除外）动态分配（使用专用内存池并放置新的以避免系统堆损坏的可能性）。

2016-04-24 19:32:15

这是一个非常广泛的主题。基本上，您无法真正从内存损坏中恢复，但至少可以尝试立即失败。以下是您可以使用的一些技巧：

校验和常量数据。如果有任何配置数据长期保持不变（包括已配置的硬件寄存器），请在初始化时计算其校验和并定期验证。当您看到不匹配时，应该重新初始化或重置。冗余存储变量。如果你有一个重要的变量x，把它的值写在x1、x2和x3中，然后读为（x1==x2）？x2:x3。实施程序流程监控。将全局标志与从主循环调用的重要函数/分支中的唯一值进行异或。在接近100%测试覆盖率的无辐射环境中运行程序，应为您提供循环结束时标志的可接受值列表。如果看到偏差，则重置。监视堆栈指针。在主循环的开头，将堆栈指针与其预期值进行比较。偏差复位。

2016-04-25 17:05:14

也许了解一下硬件“为这种环境而设计”意味着什么会有所帮助。它如何纠正和/或指示SEU错误的存在？

在一个与空间探索相关的项目中，我们有一个自定义MCU，它会在SEU错误时引发异常/中断，但会有一些延迟，即在导致SEU异常的insn之后可能会通过一些循环/执行一些指令。

数据缓存尤其容易受到攻击，因此处理程序会使有问题的缓存行无效并重新启动程序。只是，由于异常的不精确性，以引发异常的insn为首的insn序列可能无法重新启动。

我们确定了危险的（不可重启的）序列（如lw$3，0x0（$2），然后是insn，它修改了$2，数据不依赖于$3），我对GCC进行了修改，所以这样的序列不会发生（例如，作为最后的手段，用nop分隔两个insn）。

只是需要考虑的事情。。。

2016-04-28 07:42:06

如何运行应用程序的许多实例。如果崩溃是由于随机的内存位变化造成的，那么你的一些应用程序实例很可能会通过并产生准确的结果。（对于有统计背景的人来说）很容易计算出在给定的比特翻转概率下需要多少个实例才能实现所希望的最小总体错误。

2016-04-25 16:40:34

您可能还对有关算法容错的丰富文献感兴趣。这包括旧的赋值：编写一个排序，当恒定数量的比较将失败时（或者，更糟糕的版本，当失败的比较的渐近数量为n次比较的log（n）时），正确地对其输入进行排序。

开始阅读黄和亚伯拉罕1984年的论文《矩阵运算的基于算法的容错》。他们的想法隐约类似于同态加密计算（但实际上并不相同，因为他们正在尝试在操作级别进行错误检测/纠正）。

该论文的一个较新的后代是Bosilca、Delmas、Dongarra和Langou的“基于算法的容错应用于高性能计算”。

2016-04-24 21:13:42

编译用于高放射性环境的应用程序

推荐文章

最新文章

标签