DNN加速器脉动阵列轻量级瞬时故障检测

引言

深度神经网络（DNN）加速器在脉动阵列（systolic array）架构上广泛应用于高性能推理，如Google TPU等arxiv.org。然而，在安全关键领域中，这些加速器需要应对由辐射、老化等引发的瞬时故障（transient faults）arxiv.org。瞬时故障会导致DNN推理计算出错，例如权重存储位或激活值寄存器上的比特翻转，从而可能严重降低推理准确率。传统上，可通过ECC（错误校正码）保护存储或通过冗余计算（如双模块/三模块冗余）检测错误，但这些方法往往增加显著的面积、功耗或延迟开销researchgate.net。因此，近年来研究者提出了多种轻量级故障检测技术，在尽量不增加硬件开销的前提下实时捕获瞬时错误。

本调研报告将分类介绍适用于DNN脉动阵列加速器的轻量级检错方案，包括算法级校验技术、数值范围/异常监测技术、硬件编码检错以及选择性冗余和混合方案。我们重点关注这些技术对权重和激活值比特翻转等瞬时错误的检测能力，以及它们的面积、功耗、延迟开销。最后，我们对比这些方案与传统ECC或重计算方法的优劣。引用的文献主要来自近五年的顶会顶刊研究成果，以确保覆盖最新进展。

算法级故障校验 (Algorithm-Based Fault Detection)

算法级容错（ABFT）是一种经典的轻量级检错思路，通过在算法计算中引入校验数据来检测运行时错误arxiv.org。针对DNN中的矩阵乘法或卷积运算，ABFT通常添加行或列校验和（checksum），在不影响正常计算的同时，对输出结果进行验证arxiv.org。如果计算过程中任何权重或激活发生比特翻转导致输出错误，校验和将不匹配，从而检测出故障arxiv.org。例如，Zhao等人在TPDS 2021提出了FT-CNN，设计了4种基于校验和的卷积层ABFT方案，可针对单粒度的软错误实现有效故障检测，同时运行时开销仅约8%pureadmin.qub.ac.uk。与传统矩阵乘ABFT不同，这些方案适用于任意卷积实现方式，灵活覆盖不同卷积结构paperswithcode.com。

ABFT对权重和激活的瞬时错误均有较强检测能力。例如权重存储位翻转会引起计算结果与校验和不一致，从而被ABFT捕获；激活值传输中的翻转同样会破坏输出校验和arxiv.org。其优势在于开销小：仅需附加少量加法和比较逻辑以及存储少量校验值，不需要完整重复计算。实际研究表明，ABFT能以远低于100%的额外运算量实现接近完整冗余的覆盖率pureadmin.qub.ac.uk。Shavik等工作甚至利用ABFT监测GPU在降低电压时出现的随机计算错误，实现了在推理过程中可靠“在线”检错并动态调整电压arxiv.orgarxiv.org。ABFT的局限是只能检测无法纠正错误——一旦发现校验不符，需要采取额外措施（如重跑该层计算或启动备用模块）。此外，ABFT需要精心设计校验和方案以确保对多重错误仍有覆盖（一般能检测单一点故障，对于复杂相关的多位错误可能存在探测盲区）。

开销方面，ABFT算法本身对性能影响很小。例如FT-CNN在对多个卷积层加入校验后，仅降低约8%的吞吐率pureadmin.qub.ac.uk。在硬件实现上，添加校验和累加器及比较逻辑所占面积和功耗可以忽略不计。值得注意的是，多数ABFT方案已在软件模拟或FPGA实验中验证有效，如Libano等人在FPGA上实现了轻量级矩阵乘ABFT（称为“Light-ABFT”），显著降低算法和架构开销的同时保证了错误检测效率ieeexplore.ieee.org。然而，目前尚无已知的商用芯片直接部署了卷积ABFT，主要因为这属于较新的研究领域。不过，ABFT为在不牺牲性能的情况下监测脉动阵列内部计算错误提供了一条可行路径，其良好的覆盖率和低开销在科研实验中已得到验证pureadmin.qub.ac.uk。

激活值与权重异常监测 (Activation/Weight Anomaly Detection)

DNN模型本身具有一定的容错性，通常小幅度的计算误差不会明显影响最终推理结果。但如果瞬时故障导致某些中间值异常增大或减小，可能引发推理错误。针对这一现象，许多轻量方案通过监测和抑制激活/权重的异常值来实现故障检测。

1. 激活函数裁剪（Clipping）：Hoang等人在DATE 2020提出了FT-ClipAct方法，用有界激活函数代替ReLU等无界函数，将过大的激活值强制截断到安全范围arxiv.org。这样，当权重比特翻转使乘加结果异常巨大时，激活输出会被“剪断”至阈值，从而抑制了错误传播。经过系统方法选取各层适宜的剪裁边界值，剪裁激活在不损伤模型准确率的情况下极大提升了容错性arxiv.org。实验显示，在1e-5的高故障率下，采用剪裁激活的VGG-16模型准确率相比未经防护时平均提升68.92%arxiv.org，证明了其有效性。

2. 异常特征值抑制：Ozen等人在ICCAD 2020提出“Just Say Zero”技术，引入网络内部的自检不变量来识别异常的特征激活值，并将其置零处理cseweb.ucsd.edu。具体而言，他们在DNN中设置判断机制，如果某一神经元输出偏离正常分布过甚（被视为异常特征），便将其清零，从而“隔离”该错误对后续层的影响。这种方法相当于在网络中加入了轻量级的错误哨兵，一旦瞬时故障使激活超出合理范围，系统即可实时检测并抑制。该方案硬件实现简单，仅需比较器检测是否超过阈值并执行置零操作arxiv.org。Ozen的实验表明，该方法能够遏制关键比特错误的传播，将许多本会导致最终输出错误的故障转化为对性能无害的“良性”故障。

3. 数值范围限制（Ranger）：Chen等人在DSN 2021提出了名为Ranger的低成本故障校正器blogs.ubc.ca。Ranger通过自动变换网络某些层的值范围，将由于瞬时故障引起的异常大偏差限制在模型可承受的范围内blogs.ubc.ca。具体来说，它为特定层输出设置上下限，超过范围的值将被拉回阈值以内，以将潜在的致命故障转化为良性故障。由于DNN对小幅误差具有容忍度，这种变换使原本会导致误分类的严重错误变得无害blogs.ubc.ca。Ranger通过静态分析选择需要范围限制的层，属于对模型的自动化转换，不需人工微调。实验证明Ranger能将8个测试网络的抗错能力提升3×到50×，而性能和存储开销可忽略不计blogs.ubc.ca。这一技术获得DSN最佳论文提名，并已集成到Intel OpenVINO框架中用于实际部署blogs.ubc.ca，显示出工程实用性。

4. 中值滤波/特征选择：另一种思路是不直接依赖绝对阈值，而是利用相对统计特征检测异常。Ozen等人在2020年提出了Median Feature Selection方案，即在每层计算完成后，对输出特征进行一个中值过滤cseweb.ucsd.edu。具体实现上，可将每层输出划分为小组，选取每组特征值的中位数代表真实输出，从而滤除组内可能出现的异常值（离群值）。由于DNN内部存在冗余，该方法无需额外参数或MAC操作，完全利用网络固有冗余来实现类似细粒度模冗余的效果cseweb.ucsd.edu。硬件上只需少量比较器完成中值计算，已证明可高效集成到加速器的数据流中cseweb.ucsd.edu。研究显示，在不显著影响准确率的前提下，经中值筛选的系统容错能力提高了最多四个数量级（最高10000×），而面积开销仅0.19-0.48%，功耗开销0.07-0.19%，几乎可以忽略cseweb.ucsd.edu。如此显著的提升说明，中值选择几乎完全屏蔽了瞬时比特翻转带来的异常尖刺，对权重和激活产生的单点大幅错误都有很强的过滤作用。当然，该方案通常需要在网络训练时融入中值操作以保证推理时网络对中值滤波有适应性cseweb.ucsd.edu。

5. 分布监控与统计检测：近期也有研究利用更广义的统计监测来发现故障。如2023年有学者提出通过监测DNN层输出分布的分位数偏移（quantile shift）来检测异常arxiv.org。其思想是在不加入大量冗余计算的情况下，选取网络中的少数监测点，记录正常运行时输出分布的统计特征（如一定分位数值）。当发生瞬时故障时，这些统计特征会出现异常偏移，触发错误信号。这种战略性监测方法覆盖面广且具有可解释性，可用于实时错误检测而硬件代价很低arxiv.org。

以上技术的共同优点是：对大幅异常变化极为敏感，能够抓住大多数由瞬时故障导致的离谱结果（无论是权重翻转使得加权和异常增大，还是激活比特翻转本身变成异常值）。同时，由于DNN对微小扰动具有鲁棒性，这些方法即使漏检了一些较小幅度的错误，网络本身往往也能容忍，不会造成最终错误输出blogs.ubc.ca。因此，它们在权衡覆盖率与开销上表现出色：只需极小硬件/性能开销（比较器、简单逻辑），即实现对关键故障的报警和在线纠正（如剪裁、置零或中值替换属于纠正措施）。目前，大多数异常值监测技术已通过故障注入实验验证效果，例如Ranger在8个模型上的大规模注入测试证明了可靠性提升blogs.ubc.ca；Median Feature Selection通过综合评估提供了详细的资源开销数据cseweb.ucsd.edu。部分技术已经在实际系统中试用（如OpenVINO集成Rangerblogs.ubc.ca），显示出从研究到应用的转化潜力。

硬件编码检错 (Hardware Coding-Based Error Detection)

硬件层面的错误检测码是一类传统但有效的轻量方案，通过对数据增加冗余编码来实时校验数据有效性researchgate.net。在DNN加速器中，权重和激活通常以定点或低位宽格式存储和计算，因而可以利用适当的编码实现对比特翻转的检测。

1. 奇偶校验和ECC：最简单的方案是在存储的数据字上增加奇偶校验位。每个权重或激活数据字计算一个奇偶位，存于寄存器高位，在使用或传输后重新计算奇偶并与存储值比对，即可检测该字节内是否发生奇数位翻转。奇偶校验实现几乎零额外延迟，每字节只增加1位（开销约12.5%），已被用于寄存器文件等场景。但其缺点是无法检测偶数个比特翻转，且不具备纠错能力。更强大的ECC（如Hamming码）常用于DNN加速器的权重存储SRAM或DRAM，以检测并纠正单比特错误、检测多比特错误researchgate.net。典型SEC-DED码对64位数据需8位校验（12.5%开销），解码在存储读取时完成，延迟开销较小。ECC可以确保权重存储中的瞬时翻转不影响推理——例如一个权重位翻转会被ECC识别并在读取时更正。不过ECC主要针对存储单元，在运算过程中新产生的错误（如激活在PE间传输时翻转）ECC无法捕捉researchgate.net。因此ECC通常与其他技术结合使用：ECC维护权重和主要中间结果的正确，而对于MAC计算内部的错误，则依赖如下介绍的编码技术。

2. 算术编码（AN码、剩余码）：AN编码是一种经典的算术错误检测码，其思想是选取一个常数A，将所有参与计算的数据都放大A倍，从而使正常情况下结果必定是A的倍数researchgate.net。一旦某个操作发生比特翻转，结果往往不再是A的倍数，由此即可判定出错。Goldstein等人在ISQED 2021中采用了AN码方案保护脉动阵列中的MAC单元researchgate.net。他们在DNN训练时对权重和激活进行特殊量化，确保所有数值均是A=32的倍数（即二进制最低5位为0）。在无故障时，无论加法还是乘法，输出都应保持32倍数属性；若某一位翻转导致结果违背此属性，则立刻检错researchgate.net。这一方法在6种CNN上测试，可覆盖**>99%的软错误，同时满足汽车电子ASIL-D的安全标准要求researchgate.net。更重要的是，所需的硬件代价可以忽略**：附加5位校验位和模32校验电路，相对于完整MAC算单元来说面积/功耗增量极小researchgate.net。与全复制相比，AN码方案在提供高检测率的同时，仅有不到10%的数据路径开销，被认为是非常轻量的机制。

类似地，剩余码（Residue Codes）利用取模运算实现检错。典型做法是选择一个模数（如7、15等），在计算中并行维护数据对该模数的余数，并在结果端核对余数是否一致researchgate.net。剩余码的优点是能够检测到大多数情况下的算术错误，并且对多比特错误也有一定检测概率；同时，它可以灵活应用于不同位宽和算术运算（加减乘）而不需要过多修改原有算法。最近Nosrati等2024年的工作就将基于剩余校验的并发错误检测（CED）用于LSTM加速器，证明了在几乎不增加推理延迟的情况下，可实现接近完全的软错误覆盖，且面积功耗开销甚微researchgate.netresearchgate.net。相比AN码，选取非2的幂的模数可以避免某些错误模式逃逸检测，但需要在硬件中实现取模/比较逻辑。

3. 其他编码技术：除了上述，研究者也探索了低位截断或编码遮罩等手段。例如Goldstein团队在AN码检测到错误后，引入了一种“字掩码校正”策略：如果发现某次MAC结果违反编码，他们将该结果的某些可疑位直接置零，尽量减小错误对最终精度的影响researchgate.net。这样在不重新计算的前提下对错误结果进行修正，实验显示即使软错误率高达1e-2，结合这一轻量纠错手段后系统仍无明显精度下降researchgate.net。还有一些硬件设计在每个加法器/乘法器中增加部分冗余位，如重复最高有效位的计算用于比对，或者对进位链增加奇偶校验等。这些方法通常作为局部错误检测措施，可以在代价极小的情况下捕获该单元的大部分错误。

总体而言，硬件编码检错方案具备实时、直接的优点：无需等待整层输出即可在运算过程中发现异常。对于权重错误，如果权值本身带有校验码（如AN码量化），存储时的ECC保证其初始正确，而一旦权重位翻转被读出参与计算，算术码立刻会揭示异常（除非巧合翻转后数据仍满足编码，但这种概率极低且往往伴随精度损失）researchgate.net。对激活错误，由于激活随计算实时流动，算术编码能够在每次MAC后检查结果有效性，因而激活比特翻转同样会被捕捉。不过，编码方案的不足在于：一般只具备检错能力，不具备纠错（除非加入复杂的纠错码，会显著增加开销），因此检错后往往仍需要重算或如前述采取字掩码等降级处理。另外，部分错误可能逃逸编码检测（例如AN码中某些特定位翻转仍保持倍数关系）。但实际评估显示，这类漏检概率很低，不影响方案的整体有效性researchgate.net。综合来看，基于硬件编码的方法为脉动阵列提供了一种轻量级、覆盖运算过程的保障手段，可有效弥补纯存储ECC无法覆盖运算逻辑的不足researchgate.net。

选择性冗余与混合方案 (Selective Redundancy and Hybrid Schemes)

完全的硬件冗余（如所有运算单元双模块冗余DMR或三模块冗余TMR）虽然可靠，但代价高昂，不符合“轻量级”的要求。研究者因此提出选择性地对最关键部分实施冗余，或将冗余与其他技术相结合，达到局部高可靠而整体开销可控的效果。

1. 层级或通道级的部分冗余：DNN各层对错误的敏感度不同，一些关键层（如靠近输出的全连接层）或特定通道的错误对最终结果影响更大arxiv.org。针对这一现象，有工作采用只复制易损层/通道的方法。例如，Libano等（TNS 2018、TC 2023等）通过故障注入分析辨别出CNN中最脆弱的卷积层，仅对这些层启用TMR保护，而其余层单份计算pureadmin.qub.ac.uk。在一次实际中子束测试中，这种选择性硬化策略取得了约40%的故障掩盖率，但硬件开销仅增加8%pureadmin.qub.ac.uk。类似地，SHIELDeNN方法（DATE 2020）针对每层内部最敏感的权重实施TMR，即将这些关键权重存储三份并三路计算，其余权重正常计算pureadmin.qub.ac.uk。结果显示整体开销几乎不变，却有效降低了推理错误率pureadmin.qub.ac.uk。还有研究选择对部分神经元输出做复制，例如Spyrou等（2020）仅对最后输出层做TMR，同时辅以抗错训练，使得SNN（脉冲神经网络）的健壮性提升明显而代价很小pureadmin.qub.ac.uk。

选择性冗余一般通过双份冗余（DMR）实现错误检测：关键部分计算两遍，比较结果，如果不一致则表示有错误发生。由于只有出错时才需要处理，不一致即是检测信号。DMR不能直接纠错（无法判断哪个副本错误），但系统可选择在错误检测后重算该部分或触发备用纠错逻辑。而三份冗余（TMR）则可在检测同时纠错（少数服从多数），但额外增加50%的硬件/功耗，使其只适合极小的关键模块。通过选择性应用，设计者在可靠性和成本间取得折中：例如仅最后两层采用TMR，其它层无保护，这样对总体面积影响有限，却保证了大部分易感错误会在最后关口被发现或校正。

2. 可重构冗余与任务映射：与静态选择类似，一些工作提出在运行时动态切换冗余级别。例如Cherezova等在2025年提出FORTALESA架构，一个具有三种执行模式的可重构脉动阵列arxiv.orgarxiv.org。它可以在标准模式、高可靠模式（DMR或TMR）、以及性能模式之间切换，并允许不同DNN层映射到不同模式执行arxiv.orgarxiv.org。对于容错要求高的层，启用冗余模式（如DMR比较校验或TMR投票）；对于容错要求低的层，则用并行模式充分利用硬件性能。通过这种异构映射，FORTALESA实现了在不同行为间灵活取舍，在保证总体可靠性的同时，将性能损失降到最低arxiv.orgarxiv.org。作者报告该架构对脉动阵列PE的寄存器和MAC单元提供了有效保护，可针对瞬时软错误实现高达数倍的可靠性提升，而资源消耗比一直启用静态冗余大为降低arxiv.orgarxiv.org。这表明，通过按需冗余，加速器能够在现场根据环境或任务调整自身容错级别，是一种更加智能的轻量化容错手段。

3. 内建自测与混合检测：除了空间或时间上的冗余，也有工作将测试电路融入运行过程，实现边运行边自检。Vacca等在ICCD 2023提出的RunSAFER方法即为一例iris.polito.it。它借鉴了ABFT和数字电路自测试(DFT)的思想，复用脉动阵列的功能路径来传递测试数据iris.polito.it。具体而言，在正常DNN执行的指令流中插入特殊的校验指令，利用现有PE网络对一组预置的测试向量计算校验和，在3个时钟周期内完成一次完整阵列的自检iris.polito.it。这样，不需要额外硬件模块或扫描链，仅以极小的性能开销（固定3周期，与阵列规模无关）就实现了对阵列主要资源的在线检测iris.polito.it。实测Fault Injection结果显示，RunSAFER对阵列中永久故障可达100%检测率，对一般瞬时随机故障也有极高覆盖，平均性能开销比已有方案低4倍，硬件资源开销也显著减少iris.polito.it。更重要的是，它已在开源TinyTPU架构上实现为一条指令并在Xilinx Zynq SoC FPGA上进行了验证iris.polito.itiris.polito.it。这种混合方案将ABFT的校验和检测与传统BIST融合，使加速器无需停机即可定期自检，保证了长时间运行时的可靠性。

综合来看，选择性冗余和混合方案提供了接近全面的错误覆盖，同时通过聪明的取舍控制了开销。例如，通过仅保护关键5%~10%的计算来遮蔽40%甚至更多的潜在错误pureadmin.qub.ac.uk；或通过少量周期的测试保证每隔一段时间检验所有PE健康状态iris.polito.it。这些方案能检测包括权重存储单元故障（如关键权重TMR实时比对）、激活传播故障（如通过双路比较发现不一致）以至算术单元故障（RunSAFER通过校验算术结果发现异常）。虽然实施上比纯算法或纯编码方案复杂，但它们往往结合了多种技术以达到尽可能高的覆盖率。例如，一套综合方案可能是：“重要层DMR + 全局ABFT校验 + ECC内存 + 激活异常监控”，多管齐下在极小增量成本下获得接近TMR的保障能力arxiv.orgarxiv.org。许多混合策略已经通过FPGA原型或实验验证了有效性，这为日后容错DNN加速器的实际芯片设计提供了宝贵思路。

与ECC和重计算方案的比较 (Comparison with ECC and Re-computation)

为更直观地理解上述轻量级检错技术的价值，下面将它们与传统ECC存储保护及冗余重计算方法进行对比，总结各自的优劣：

ECC存储保护：ECC主要防范存储位翻转，比如权重存在片上SRAM或片外DRAM时采用SEC-DED码，可自动校正单比特错误并在两比特错误时发出检测信号researchgate.net。它的优点是成熟可靠，对权重这种静态数据提供了纠错能力，能够保证大多数存储软错误不会影响推理结果。然而，ECC需要额外的校验位（典型~12.5%存储开销）和编解码逻辑，并引入少量存取延时。此外，ECC无法覆盖计算过程中的错误：一旦数据从存储读出，后续在PE阵列流动或运算时的比特翻转ECC无能为力researchgate.net。相比之下，上述轻量方案大多直接监测运算本身，对激活值传输或MAC单元内发生的故障也能检测。例如ABFT、AN码等可以看作是对逻辑运算过程的ECC，它们弥补了ECC在逻辑层面的空白。ECC的另一优势是纠错：如发现单比特错误可自动更正，而ABFT、奇偶校验等通常只能报警不能纠正。不过，也有Ranger此类方法将错误转化为对结果影响可忽略的形式（如截断超出范围值），在一定程度上起到了纠错效果blogs.ubc.ca。总的来说，ECC是重量级但保险的方案，而轻量检测可作为ECC的补充，在不增加过多成本的情况下扩展保护范围。
重计算冗余：通过重复计算来比对结果（DMR）或采用多个模块表决（TMR）是传统提高可靠性的通用手段。其显著优点是覆盖率100%：无论任何软错误，只要重复执行并比较，就一定能发现不一致；TMR则可通过投票直接获得正确结果。因此，在最严格的安全场景下（如航天航空），TMR被作为基准方案。然而，其代价也是巨大的：DMR需要双倍的运算资源或时间，只为得到一个比较信号；TMR更需三倍资源以实现纠错。对于DNN这样计算密集型的任务，加倍计算可能使功耗、发热难以接受，也与加速器追求高性能/能效的初衷相违背researchgate.net。相比之下，轻量级方案通过聪明的设计，实现了用极小额外开销获取主要故障检测能力的目标。例如，ABFT只增加<10%的额外计算，却能够拦截大部分计算错误pureadmin.qub.ac.uk；奇偶/ECC对存储位的保护开销远低于简单复制所有存储单元；范围裁剪、异常抑制等更是几乎零性能损失，就显著降低了错误概率blogs.ubc.ca。当然，轻量方案往往做不到100%覆盖，也缺乏自动纠错，但DNN模型本身的容错余量弥补了这一点——少数未检测的小错误通常不会影响最终推理结果。这使得我们无需像对传统逻辑电路那样苛求完全无错，而是在容忍度范围内检测关键错误即可。
优势与劣势总结：
- 轻量级检错技术的优势在于：硬件开销低，性能影响小。许多方案仅牺牲不到5%-10%的资源或吞吐，却换来数量级提升的可靠性pureadmin.qub.ac.ukblogs.ubc.ca。其次，这些技术灵活多样，可针对DNN特点定制——例如利用网络冗余（中值滤波）、限定激活范围（剪裁）、算法结构（校验和）等手段，这是通用冗余无法实现的优化。此外，大部分轻量方案易于部署在推理阶段，对模型本身影响不大（一些需要重新训练调整，但也属于一次性成本）。劣势方面，轻量方案大多只提供检测或部分缓解，缺少彻底纠正错误的能力，一旦错误被捕获仍需要依赖系统级策略（如重新执行该层网络、输出报警信号等）来处理。并且，每种轻量技术都有其覆盖盲区：例如奇偶码漏检双比特翻转，ABFT在同时多点故障时可能出现校验抵消现象，范围限制对隐蔽的小幅错误无感知等。因此在实践中往往需要组合多种手段以提高覆盖率。不过，即便组合多种，整体开销仍显著低于全冗余，是更为划算的选择。
- ECC/全冗余方案的优势在于：思路简单直接、可靠性高，许多已有成熟实现（如服务器内存ECC、Lock-step处理器等）。对于那些零失效容忍的场景，TMR等几乎是唯一选择。其缺点正如前述，资源和能耗代价过大，不适合资源受限或需要高能效的DNN加速芯片。同时，全冗余往往缺乏针对性：它不分青红皂白地保护所有位、所有计算，即使有些错误对结果无影响也浪费了校正努力。这与DNN应用中“容忍部分错误以换取效率”的精神相悖。因此，随着对能效的重视，全冗余方案更多地作为参考基线，而非实际实现。

综上，轻量级瞬时故障检测技术在DNN脉动阵列加速器中展现出巨大的实用价值。它们通过聪明的算法与硬件协同，让系统以最小的成本“察觉”到致命的计算错误并加以抑制blogs.ubc.ca，从而避免推理结果被少数随机故障破坏。这些技术彼此并不排斥，反而相辅相成：实际设计中，往往将存储ECC用于权重和主存，结合运算ABFT/编码来覆盖MAC单元错误，再辅以异常监控掌握输出健康状况，最终必要处再加一层选择性冗余托底。这种多层防护在不显著增加面积功耗的情况下，可以接近传统TMR的可靠性水平，却仍保有加速器的高性能和高能效特点。随着DNN进入自动驾驶、航天等高可靠领域，这些轻量级检错方案有望在未来的实际芯片中得到应用，为安全智能计算提供坚实保障。

结论 (Conclusion)

DNN加速器中的脉动阵列因其大规模并行乘加计算而对瞬时软错误尤为敏感。针对重量级容错方案的不足，近年出现的各种轻量级检错技术从算法、数据特征和硬件编码等不同层面出发，有效检测出发生在权重存储和激活计算中的短暂错误，而无需付出高昂的资源代价。

结合实际文献，我们观察到：

检测能力：大多数轻量方案能捕获由单比特翻转引起的显著错误，包括权重翻转导致的持续偏差和激活翻转导致的瞬态异常。例如，校验和和AN码对任何破坏数值结构的错误都很敏感arxiv.orgresearchgate.net；范围裁剪等专注于截断异常尖峰值arxiv.org。
开销：所有方案的面积/能耗开销均在个位百分比或更低量级，性能影响也有限甚至可忽略pureadmin.qub.ac.ukblogs.ubc.ca。这相较双倍或三倍冗余的成倍开销，优势明显。
落地情况：一些技术已有实验性实现或集成，例如Ranger进入了Intel工具链blogs.ubc.ca、RunSAFER在FPGA上验证iris.polito.it。多数方案通过故障注入仿真验证了有效性，但在商用芯片上大规模部署仍待进一步研究和实践。
与传统方案对比：轻量技术在覆盖面和纠错上略有不足，但凭借对DNN特性的利用，提供了性价比极佳的中间选项——比纯粹容错训练更可靠，又比ECC/TMR等开销低廉researchgate.netresearchgate.net。它们弥补了ECC只能保护存储、TMR成本过高的缺陷，在权重和激活层面筑起多重防线。

未来，随着对可靠AI加速需求增加，这些轻量级检错技术可能进一步融合。例如，研究如何自动地为一个新DNN选择最优的容错配置（哪些层用ABFT，哪些用剪裁等），或者将硬件错误检测与DNN模型结构联合优化，都是值得探索的方向。可以预见的是，轻量级故障检测将成为新一代DNN加速器的关键特性之一，在保障系统安全性的同时，最大程度保留DNN推理的性能与效率。

最后，需要指出轻量技术的选择应视具体应用而定：对于安全要求极高的场景，可将多种轻量方案叠加使用，并辅以一定程度的冗余以实现接近零失效；对于一般嵌入式AI应用，则可仅采用少量监测机制，在容忍偶发错误的前提下简化实现。通过合理权衡，设计者能够以最低的成本满足系统的可靠性指标。轻量级瞬时检错技术的不断发展，使得在工艺不断微缩、软错误率升高的未来，我们仍然有信心在资源受限的AI加速芯片上运行可靠可信的深度学习推理arxiv.orgblogs.ubc.ca。

DNN加速器脉动阵列轻量级瞬时故障检测

引言

算法级故障校验 (Algorithm-Based Fault Detection)

激活值与权重异常监测 (Activation/Weight Anomaly Detection)

硬件编码检错 (Hardware Coding-Based Error Detection)

选择性冗余与混合方案 (Selective Redundancy and Hybrid Schemes)

与ECC和重计算方案的比较 (Comparison with ECC and Re-computation)

结论 (Conclusion)

相关资讯

热文排行

最新新闻

推荐新闻

热搜词