欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 新车 > DG-DETR:迈向领域泛化检测Transformer模型

DG-DETR:迈向领域泛化检测Transformer模型

2025/6/9 7:40:00 来源:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/148338988  浏览:    关键词:DG-DETR:迈向领域泛化检测Transformer模型

摘要

https://arxiv.org/pdf/2504.19574

基于端到端Transformer的检测器(DETR)已展现出强大的检测性能。然而,领域泛化(DG)研究主要聚焦于基于卷积神经网络(CNN)的检测器,对提升DETR鲁棒性的关注则相对较少。在本信函中,我们提出了一种领域泛化检测Transformer(DG-DETR),这是一种简单、有效且即插即用的方法,能够提升DETR在分布外(OOD)场景下的鲁棒性。具体而言,我们提出了一种新颖的领域无关查询选择策略,通过将对象查询正交投影到实例特定的风格空间,从而消除由领域引起的偏差。此外,我们利用小波分解将特征分解为领域不变和领域特定的分量,使得在保留对象语义特征的同时能够合成多样化的潜在风格。实验结果验证了DG-DETR的有效性。我们的代码可在https://github.com/smin-hwang/DG-DETR获取。

关键词:对象检测、领域泛化、检测Transformer、查询选择、小波分解。

1. 引言

基于深度神经网络(DNN)的对象检测器[1, 2, 3, 4]在独立同分布(i.i.d.)假设下,即训练数据和测试数据来自同一分布,已在各种计算机视觉任务中展现出卓越的性能。然而,当这些模型部署到实际场景中,而实际场景的数据分布与训练集不同时,由于领域偏移[5, 6, 7],它们的性能往往会显著下降。这一问题在自动驾驶等对安全敏感的应用中尤为关键。在这方面,解决源域和目标域之间的分布偏移一直是计算机视觉领域的一个长期挑战。

为缓解这一问题,一个突出的研究方向是无监督领域自适应(UDA)[8, 9, 10, 11, 12, 13],其目标是将带标签的源域数据分布与无标签的目标域数据分布对齐。尽管UDA方法已展现出令人鼓舞的结果,但它们严重依赖于在自适应过程中目标域数据可用的假设。此外,由于成本和所需努力的原因,即使没有标注,收集所有感兴趣目标域的足够训练数据往往也不切实际[14]。

领域泛化(DG)[15, 16, 17, 14]已成为一种可行的解决方案,旨在通过在训练期间从多个观察到的源域学习,训练出能够良好泛化到未见目标域的模型。大多数DG方法通常努力在这些源域之间学习领域不变的特征表示,但它们的性能对可用源域的多样性和数量[18, 19]敏感,而收集这些源域往往成本高昂且耗时耗力。作为一种更实用的方法,近期的研究开始关注单领域泛化(S-DG)[20, 21],其目标仅使用一个源域来训练鲁棒的模型。然而,在这种设置下实现OOD鲁棒性仍然是一个公开的挑战。

近年来,尽管对象检测中的单领域泛化(S-DG)研究[22, 23, 24]在许多视觉感知系统中具有关键重要性,但相关研究却相对有限。此外,尽管视觉Transformer(ViTs)凭借其捕捉令牌间全局依赖关系的能力所带来的优越形状偏差,已展现出强大的泛化能力[25, 26],但现有的S-DG研究大多仍聚焦于基于CNN的检测器[1, 2, 3]。基于此,在本信函中,我们探索了具有全局建模优势的检测Transformer(DETR)[4]在对象检测单领域泛化中的潜力。

与通过提取全局形状信息展现出高鲁棒性的人类视觉系统类似[27],近期的研究[28, 29, 30]表明,形状偏差模型能够实现高鲁棒性。受此观察启发,我们旨在通过隐式和显式的方式增加形状偏差,以提高模型对领域偏移的鲁棒性。在本工作中,我们提出了一种领域无关的查询选择策略,以显式地从查询中消除由领域引起的偏差,并选择那些包含丰富领域不变表示(例如形状)的查询。这种方法为解码器提供了高质量的初始查询,以实现鲁棒的对象检测。

为隐式地提高模型鲁棒性,风格增强[31, 32]假设领域偏移是由风格差异引起的,已成功应用于图像分类的单领域泛化中,能够从一个源域生成多个领域。然而,风格合成可能会潜在地扭曲图像内容,而这些内容对于存在多样化上下文的层次化对象检测来说是至关重要的。因此,将风格增强应用于对象检测的关键挑战在于,在实现多样化风格增强的同时,保留对象的形状和语义。为实现这一点,我们利用小波变换将领域不变特征和领域特定特征分解开来。这种方法使我们能够仅扰动领域特定特征(例如纹理),同时保留图像中固有的内容结构(例如形状)。本信函的主要贡献总结如下:

  • 据我们所知,这是首次探索DETR在领域泛化对象检测中的潜力的研究。
  • 我们引入了DG-DETR,这是一种简单且有效的即插即用方法,能够提升DETR的泛化能力。
  • 我们提出了一种领域无关的查询选择策略,以显式地从对象查询中消除由领域引起的偏差。
  • 为在风格增强过程中保留对象的语义,我们利用小波分解仅扰动领域特定特征。

2. 提出的方法

在本节中,我们简要介绍DG-DETR的整体架构,然后详细描述为鲁棒对象检测新引入的组件。

2.1 概述

DETR由CNN主干网络、编码器-解码器结构以及对象类别和边界框位置预测器组成。为提高泛化能力,我们引入了风格增强模块和领域无关查询选择。DG-DETR的整体框架如图1所示。
在这里插入图片描述

给定一个输入图像,主干网络首先提取图像特征,而风格增强模块则合成多样化的潜在风格。然后将输出送入一个高效的混合编码器[33],该编码器结合了Transformer和CNN,以增强特征表示。编码后的特征随后被传递到领域无关查询选择模块。该模块从查询中消除由领域引起的偏差,并为解码器提供高质量的初始查询。最后,带有辅助预测头的解码器迭代地优化对象查询,以生成对象类别和边界框。需要注意的是,虽然本文以RT-DETR[33]为例,但DG-DETR框架与其他基于DETR的检测器兼容。

2.2 小波引导的风格增强模块

增强风格可能会导致对象语义漂移的问题,从而导致对象定位不准确和分类错误。受频谱特性[34, 26]的启发,我们认为基于频率的风格增强能够在保留对象语义的同时合成多样化的领域。回顾一下,高频分量捕捉更多的全局特征(例如形状),而低频分量包含平滑的表面和纹理(见图2)。这表明,仅对低频分量应用风格增强会影响整体纹理,同时保留图像内容。
在这里插入图片描述

为此,我们建议利用小波变换来分离图像的高频和低频特征。具体而言,给定一个空间维度为 H × W H \times W H×W且通道数为 C C C的中间CNN特征图 F ∈ R H × W × C F \in \mathbb{R}^{H \times W \times C} FRH×W×C,离散小波变换(DWT)应用四个核: L L T L L^{T} LLT L H T L H^{T} LHT H L T H L^{T} HLT H H T H H^{T} HHT,其中低通滤波器定义为 L = [ 1 / 2 1 / 2 ] L=\left[\begin{array}{ll}1 / \sqrt{2} & 1 / \sqrt{2}\end{array}\right] L=[1/2 1/2 ],高通滤波器为 H = [ − 1 / 2 1 / 2 ] H=\left[\begin{array}{ll}-1 / \sqrt{2} & 1 / \sqrt{2}\end{array}\right] H=[1/2 1/2 ]。这些核在输入 F F F上滑动,将其分解为四个小波子带: F l l F_{l l} Fll F l h F_{l h} Flh F h l F_{h l} Fhl F h h F_{h h} Fhh,每个子带的分辨率都降低。在本信函中,我们将低频分量 F l l F_{l l} Fll表示为 F low F_{\text{low}} Flow,将高频分量 [ F l h , F h l , F h h ] \left[F_{l h}, F_{h l}, F_{h h}\right] [Flh,Fhl,Fhh]表示为 F high F_{\text{high}} Fhigh

由于浅层CNN层保留了更多的风格信息[35],我们将风格增强模块应用于CNN主干网络。具体而言,作为一种常见做法,我们采用特征通道统计量(即均值和方差)来表示图像风格。然后,我们扰动源域训练实例的风格统计量,以合成新的领域风格。之前的一些研究[32, 31, 36, 23]已经通过扰动特征统计量来探索特征空间中的领域合成。为了平衡多样性和保真度,我们采用归一化扰动(NP)[23]来扰动浅层CNN主干网络层中的特征统计量。

给定 F l l F_{l l} Fll,我们使用归一化扰动(NP)将随机噪声插入到特征通道统计量中,如下所示:

F ^ l l = N P ( F l l ) \hat{F}_{l l}=\mathrm{NP}\left(F_{l l}\right) F^ll=NP(Fll)

归一化扰动(NP)的公式为:

y = σ s ∗ x − μ c σ c + μ s ∗ σ s ∗ = α σ c μ s ∗ = β μ c \begin{array}{l} y=\sigma_{s}^{*} \frac{x-\mu_{c}}{\sigma_{c}}+\mu_{s}^{*} \\ \sigma_{s}^{*}=\alpha \sigma_{c} \\ \mu_{s}^{*}=\beta \mu_{c} \end{array} y=σsσcxμc+μsσs=ασcμs=βμc

其中, { μ c , σ c } ∈ R C \left\{\mu_{c}, \sigma_{c}\right\} \in \mathbb{R}^{C} {μc,σc}RC { μ s , σ s } ∈ R C \left\{\mu_{s}, \sigma_{s}\right\} \in \mathbb{R}^{C} {μs,σs}RC分别表示输入内容图像和风格化图像的均值和方差。

之后,将 F ^ l l \hat{F}_{l l} F^ll F high F_{\text{high}} Fhigh送入逆离散小波变换(IDWT)层,以重建风格增强后的特征图 F ^ ∈ R H × W × C \hat{F} \in \mathbb{R}^{H \times W \times C} F^RH×W×C。整个过程如图3所示。在本信函中,我们将风格增强模块称为WaveNP。遵循[23],在模型训练期间,WaveNP应用于CNN主干网络的第1和第2阶段。
在这里插入图片描述

2.3 领域无关查询选择

在DETR模型中,对象查询是一组固定的可学习嵌入,作为Transformer解码器的输入。这些查询作为潜在的对象表示,在解码器中与全局图像特征进行交互,并逐步优化以映射到图像中的对象实例。由于优化可学习的对象查询本身具有挑战性,因此几种方法[37, 38]引入了查询选择方案,使用置信度分数来选择前 K K K个特征作为初始对象查询。领域偏移主要来源于视觉风格的变化,它会在潜在特征中引入显著的风格诱导偏差(即领域诱导偏差),从而限制学习模型的泛化能力。因此,从查询中消除领域诱导偏差可以增强DETR模型对现实世界领域偏移的鲁棒性。
在这里插入图片描述

为解决这一问题,我们提出了一种领域无关查询选择方法,该方法从对象潜在表示中消除风格诱导偏差。如图4所示,我们的方法利用潜在空间中的正交性,将查询投影到与风格无关的语义轴上。给定与风格相关的统计量(即 μ s \mu_{s} μs σ s \sigma_{s} σs),我们构建潜在风格表示如下:

s = E s ( μ s + σ s ) s=E_{s}\left(\mu_{s}+\sigma_{s}\right) s=Es(μs+σs)

其中, s ∈ R D s \in \mathbb{R}^{D} sRD是风格嵌入, D D D是特征维度, E s E_{s} Es是由线性层和归一化层组成的风格编码器。

L L L表示由 s s s张成的子空间, Q ∈ R N × D Q \in \mathbb{R}^{N \times D} QRN×D表示展平后的编码图像特征,其中 N N N是特征序列的数量。我们的目标是去除 Q Q Q中沿 L L L轴的分量:

Q ^ = Q − α Proj ⁡ L Q \hat{Q}=Q-\alpha \operatorname{Proj}_{L} Q Q^=QαProjLQ

其中, α \alpha α是0到1之间的超参数,用于控制风格分量去除的程度。需要注意的是,在训练期间, α \alpha α固定为1。

Q ^ \hat{Q} Q^中,我们使用置信度分数来选择前 K K K个得分的特征作为初始对象查询:

Q ^ select  = Top ⁡ − K ( E c ( Q ^ ) ) \hat{Q}_{\text {select }}=\operatorname{Top}-K\left(E_{c}(\hat{Q})\right) Q^select =TopK(Ec(Q^))

其中, Q ^ select  \hat{Q}_{\text {select }} Q^select 表示 K K K个选定特征的集合, E c E_{c} Ec是用于选择前 K K K个特征的辅助预测头。

我们注意到,从图像特征中去除风格诱导偏差可能会导致有意义信息的丢失。因此,我们仅在查询选择过程中从特征序列中减去与风格相关的分量。

3. 实验

在本节中,我们评估了我们的方法在分布外场景下的泛化能力,包括一项消融实验,以验证所提出组件的有效性。

3.1. 实验设置

为了评估我们的方法,我们使用了多样化天气数据集(DWD)[22],这是一个包含五种不同天气条件的城市场景检测基准数据集:白天晴朗(DS)、夜间晴朗(NS)、夜间雨天(NR)、黄昏雨天(DR)和白天雾天(DF)。DWD从BDD-100k [41]、FoggyCityscapes [7]和AdverseWeather [42]数据集中收集了图像。按照[22]的做法,我们仅使用源域(即白天晴朗)来训练模型,并直接在其他恶劣天气域上进行评估。

在所有实验中,我们采用RT-DETR [33]作为基础检测器。据我们所知,先前没有研究探索过基于DETR的目标检测中的领域泛化(DG)。因此,我们将现有的DG方法[39, 35, 40, 18, 23](最初是为卷积神经网络(CNN)实现的)扩展到RT-DETR上。所有这些方法都通过对CNN特征提取器应用特征归一化[39, 35, 40, 18]或扰动[23]来提高模型的泛化能力。因此,我们直接将它们集成到DETR的特征提取器(即CNN主干网络)中。为了评估领域泛化性能,我们遵循[22]的做法,并使用平均精度均值(mAP)指标。具体来说,我们在交并比(IoU)阈值为0.5(mAP@0.5)时报告mAP。投影缩放因子(公式(6))设置为1.0。

3.2. 领域泛化性能分析

表1展示了在真实天气条件下的领域泛化(DG)性能,每种天气条件代表不同的领域偏移场景。我们的方法在三个数据集上取得了最佳性能。具体来说,与基线相比,DG-DETR在夜间晴朗(NS)、黄昏雨天(DR)、夜间雨天(NR)和白天雾天(DF)上的性能分别提高了4.3%、4.6%、7.9%和2.4%。另一方面,基于归一化的方法[39, 35, 40, 18]未能提高分布外(OOD)鲁棒性。这是因为这些方法对特征区分能力产生了负面影响,从而削弱了检测性能,如[22]中所述。
在这里插入图片描述

我们还在域内场景中进行了对比实验,结果如表2所示。结果表明,DG-DETR显著优于现有方法,证明了所提出的方法即使在训练集和测试集来自同一领域时也能提高性能。
在这里插入图片描述

3.3. 消融分析

为了进一步评估我们的关键模块和策略在DG-DETR中的有效性,我们进行了一系列消融实验。表3展示了每个组件的消融研究结果。可以看出,移除任何一个组件都会降低DG性能,证明了每个模块的贡献。我们注意到,领域无关查询选择(DAQS)即使在未使用增强或归一化技术的情况下,也能通过从目标查询中移除领域诱导的偏差来提高模型性能。
在这里插入图片描述

表4展示了特征扰动对不同频率分量影响的消融分析。仅扰动高频分量会导致在所有天气条件下的性能降低。相反,扰动低频分量会导致性能提升,这表明低频扰动通过学习领域不变表示有效地提高了泛化能力。
在这里插入图片描述

3.4. 定性结果

我们在图5中展示了不同天气场景下的定性比较。可以看出,基线RT-DETR在具有挑战性的环境中无法检测到目标,经常遗漏检测或产生不准确的预测。相比之下,我们的方法在恶劣条件下显示出更精确和可靠的目标检测,证明了其在跨域场景中的鲁棒性。
在这里插入图片描述

4. 结论

在本信中,我们提出了基于DETR的单领域泛化的领域泛化检测Transformer(DG-DETR)。WaveNP通过解耦领域不变特征和领域特定特征,在特征扰动过程中保留了目标语义。领域无关查询选择通过从目标查询中移除领域诱导的偏差,提高了OOD鲁棒性。实验结果表明,DG-DETR显著提高了DETR模型对未见领域的泛化能力。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词