Title
题目
Hashimoto’s thyroiditis recognition from multi-modal data via globalcross-attention and distance-aware training
通过全局交叉注意力机制和距离感知训练从多模态数据中识别桥本氏甲状腺炎
01
文献速递介绍
桥本氏甲状腺炎(HT),也被称为慢性淋巴细胞性甲状腺炎,是一种当免疫系统攻击甲状腺时发生的慢性炎症(特雷比洛德等人,2022)。它被认为是一种典型的器官特异性自身免疫性疾病,其特征是由自身免疫介导的甲状腺破坏(拉代蒂,2014)。桥本氏甲状腺炎的发展进程会导致甲状腺功能的波动,早期表现为甲状腺功能亢进,后期则表现为甲状腺功能减退(克卢博-格维兹金斯卡和沃托夫斯基,2022;邱等人,2021)。桥本氏甲状腺炎不仅会影响甲状腺功能,还会增加患肿瘤的风险(费尔特-拉斯穆森,2020;胡等人,2022)。因此,及时诊断桥本氏甲状腺炎对于预防和治疗这些病症具有重要意义。 甲状腺超声图像能够揭示甲状腺组织的特征,在桥本氏甲状腺炎的识别中起着关键作用(佩德森等人,2000;吴等人,2016)。然而,超声检查的诊断性能本质上具有主观性,因为它在很大程度上取决于操作人员的专业知识、技术熟练程度和解读能力。此外,设备分辨率和准确性的差异会进一步引入可变性,这可能会显著影响操作人员对超声图像的解读,并降低诊断的可靠性。 在桥本氏甲状腺炎患者的超声图像中,超声检测到的病变的某些特征与正常超声特征相比存在细微差异,这给精确区分带来了重大挑战。如图1(a)所示,桥本氏甲状腺炎的超声图像通常显示出异质背景,这对于准确诊断桥本氏甲状腺炎至关重要。异质背景相对于周围肌肉可能表现出回声增强,而正常甲状腺组织通常比相邻肌肉组织显示出更高的回声性(林等人,1986)。因此,在某些超声图像中,健康和患病的甲状腺组织之间的回声性存在细微差异。鉴于操作人员的固有主观性以及这些特征的细微性,临床医生仅依靠对超声特征的肉眼评估时,很容易误诊桥本氏甲状腺炎。因此,建立客观的诊断方法对于提高桥本氏甲状腺炎诊断的准确性和一致性势在必行。 近年来,深度学习(DL)已广泛应用于医学图像分析(张等人,2023),并且在从超声图像诊断桥本氏甲状腺炎方面取得了重大进展。已经提出了许多卷积神经网络(CNN)用于诊断桥本氏甲状腺炎,并且取得了优异的性能。例如,侯等人(2021)在桥本氏甲状腺炎超声数据集上对密集连接网络(DenseNet)(黄等人,2017)进行了微调并验证了其性能,结果表明神经网络在桥本氏甲状腺炎诊断方面有超越临床医生的潜力。赵等人(2022)比较了各种卷积神经网络架构的性能,如VGG(西蒙扬和齐斯曼,2014)和高效网络(EfficientNet)(谭和乐,2019),以基于甲状腺超声图像识别桥本氏甲状腺炎。然而,如图1(b)所示,某些超声图像显示出异质背景且可能存在回声性降低的情况,这两者对于准确诊断桥本氏甲状腺炎都至关重要。由于正常甲状腺和患桥本氏甲状腺炎的甲状腺之间存在细微差异,从超声图像中区分可能存在回声性降低的异质背景是很复杂的。此外,异质背景会影响对微小结节的识别(朴等人,2013),微小结节也具有可能的回声性降低的特征。因此,简单的基于卷积神经网络的方法可能难以在桥本氏甲状腺炎诊断中取得最佳性能。 此外,由于桥本氏甲状腺炎不仅会影响甲状腺,还会影响其他器官,相关生物指标的波动使得利用这些指标进行桥本氏甲状腺炎诊断成为一种有前景的方法。许多研究表明,相关生物指标的波动与桥本氏甲状腺炎密切相关(佳文等人,2021;图塔尔等人,2022;胡等人,2021;耿等人,2023)。布拉多斯卡等人(2019)研究了桥本氏甲状腺炎对左侧顶叶白质(PWM)和后扣带回(PCG)代谢改变的影响,并发现特定代谢物比率与游离三碘甲状腺原氨酸(FT3)和游离甲状腺素(FT4)水平之间存在显著相关性。瓦利谢夫斯卡-普罗索尔等人(2021)利用事件相关电位(ERP)和磁共振波谱(MRS)研究了甲状腺功能正常的桥本氏甲状腺炎患者的脑功能障碍及其与生物指标的相关性,如促甲状腺激素(TSH)、抗甲状腺过氧化物酶自身抗体(aTPO)等。吴等人(2023)证明,桥本氏甲状腺炎主要通过内分泌和免疫途径影响骨质疏松症的发生和发展,并且促甲状腺激素可以调节和促进甲状腺素(T4)和三碘甲状腺原氨酸(T3)的产生和分泌。拉古萨等人(2019)认为,桥本氏甲状腺炎的诊断可以通过循环中的自身抗体水平来确定,如抗甲状腺过氧化物酶抗体(aTPO)和抗甲状腺球蛋白抗体(ATG)。这些生物指标与桥本氏甲状腺炎之间的关联为临床医生诊断桥本氏甲状腺炎提供了有意义的指导。然而,单独来看,这些关系并非绝对。如图1(c)和(d)所示,尽管生物指标确实与桥本氏甲状腺炎相关,但从单个指标的角度来看,这些关系并非绝对,所以仅依靠这些异常生物标志物不足以诊断桥本氏甲状腺炎。将超声图像和生物指标相结合,为桥本氏甲状腺炎的诊断提供了一种很有前景的方法。尽管整合来自这两种模态的信息在桥本氏甲状腺炎诊断中取得了优异的性能(张等人,2022),但在处理这种非绝对关系方面仍然效果不佳。此外,有限的生物指标数据可能会损害模型的泛化能力,并且直接使用生物指标可能会导致性能不佳。 受超声图像的内在特征以及桥本氏甲状腺炎患者相关生物指标的启发,我们从以下几个方面考虑来提高模型诊断桥本氏甲状腺炎的能力:(1)卷积神经网络通过强大的归纳偏置有效地捕捉局部信息,其中较低卷积层的特征提供详细信息,而较高层则专注于语义内容(于等人,2018)。Transformer(瓦斯瓦尼,2017)通过自注意力机制捕捉全局上下文信息。在超声图像中,Transformer可以捕捉全局背景信息(杨和杨,2023)。因此,设计一种结合卷积神经网络和Transformer优势的方法是有益的,通过利用来自不同卷积层的详细特征和语义特征来实现信息互补。(2)尽管从单个指标的角度来看,相关生物指标与桥本氏甲状腺炎之间存在非绝对关系,但大多数非桥本氏甲状腺炎患者的生物指标通常在正常范围内,而桥本氏甲状腺炎患者的生物指标更有可能超出正常范围。另一个角度是更有效地从生物指标中提取有价值的信息,并处理桥本氏甲状腺炎与相关生物指标之间的非绝对关系。此外,期望有效地扩充有限的生物指标数据,从而提高模型的性能。 为了实现上述目标,本文提出了HTR-Net,这是一种通过多模态信息嵌入,从超声图像和生物指标中识别桥本氏甲状腺炎的新型网络。鉴于可能存在回声性降低的异质背景对桥本氏甲状腺炎的诊断至关重要,并且相关生物指标可以部分反映疾病的发生情况,HTR-Net利用卷积神经网络和Transformer架构的优势来识别异质背景,并将超声图像与生物指标相结合,以提高桥本氏甲状腺炎诊断的准确性。HTR-Net采用一个Transformer分支来捕捉异质背景的全局结构信息,并引入一个全局交叉注意力(GCA)模块来融合卷积神经网络分支中不同卷积层的特征图,以识别回声性降低的复杂特征。我们将超声图像与生物指标相结合以实现信息互补,从而提高桥本氏甲状腺炎诊断的准确性。为了减轻有限生物指标带来的不利影响,提出了一种距离感知不匹配增强(DMA)策略来扩充生物指标数据。此外,为了应对从单个指标角度来看桥本氏甲状腺炎与生物指标之间非绝对关系的挑战,提出了一种距离感知损失(DL)函数来约束生物指标的特征映射,从而提高模型识别异常生物指标的能力。我们的主要贡献总结如下: - 我们提出了一种新型的桥本氏甲状腺炎识别网络,即HTR-Net,它通过多模态信息嵌入融合了超声图像和生物指标的信息。 - 引入了全局交叉注意力模块,用于融合不同卷积层的特征图,并整合来自异质背景的详细信息和语义信息,从而增强对可能存在回声性降低的异质背景的识别能力。 - 提出了距离感知不匹配增强策略,以有效地扩充有限的生物指标数据,同时根据其正常范围为增强后的指标保持合理的值。此外,还引入了距离感知损失函数,通过约束指标映射函数来处理桥本氏甲状腺炎与生物指标之间的非绝对关系。 - 我们构建了一个多中心跨模态桥本氏甲状腺炎数据集,并进行了广泛的实验。实验结果表明,与当前用于诊断桥本氏甲状腺炎的主流方法相比,我们的HTR-Net取得了当前最优(SOTA)的性能。 本文的结构安排如下。第2节介绍相关工作,第3节介绍HTR-Net,第4节给出实验和结果,第5节进行讨论,最后第6节给出结论。
Aastract
摘要
Ultrasound images and biological indicators, which reveal Hashimoto’s thyroiditis (HT) characteristics inthyroid tissue from different perspectives, play crucial roles in HT recognition. Ultrasound images of patientswith HT typically present a heterogeneous background with potential decreases in echogenicity. Cliniciansare prone to misdiagnosing HT by visually evaluating these characteristics. In addition, patients with HT mayexhibit fluctuations in relevant biological indicators, but there are no absolute relationships between a singlebiological indicator and HT. To address these challenges, we propose HTR-Net, a novel HT recognition networkthat combines ultrasound images and biological indicators through multi-modality information embedding.Specifically, HTR-Net introduces a global cross-attention module (GCA), which enhances recognition of theheterogeneous background with potential decreases in echogenicity. A distance-aware mismatched augmentation (DMA) strategy is also designed to expand the limited biological indicator data and ensure reasonablevalues for the augmented biological indicators, thus enhancing the model performance. In order to address thenonabsolute relationship between HT and a single biological indicator, we propose a distance-aware loss (DL)function to constrain feature mapping for effective information extraction from indicators, thereby enhancingthe model’s capability to detect anomalous sets of biological indicators. To validate the proposed method, weconstruct a multi-center HT dataset and conduct extensive experiments. The experimental results demonstratethat the proposed HTR-Net achieves state-of-the-art (SOTA) performance.
超声图像和生物指标从不同角度揭示了甲状腺组织中桥本氏甲状腺炎(HT)的特征,在桥本氏甲状腺炎的识别中起着至关重要的作用。患有桥本氏甲状腺炎的患者的超声图像通常呈现出异质的背景,并且可能存在回声性降低的情况。临床医生仅通过肉眼评估这些特征时,很容易误诊桥本氏甲状腺炎。此外,桥本氏甲状腺炎患者的相关生物指标可能会出现波动,但单一生物指标与桥本氏甲状腺炎之间并没有绝对的关联。 为了应对这些挑战,我们提出了HTR-Net,这是一种全新的桥本氏甲状腺炎识别网络,它通过多模态信息嵌入的方式将超声图像和生物指标结合起来。具体而言,HTR-Net引入了全局交叉注意力模块(GCA),该模块增强了对可能存在回声性降低的异质背景的识别能力。我们还设计了一种距离感知的不匹配增强(DMA)策略,以扩充有限的生物指标数据,并确保增强后的生物指标具有合理的值,从而提升模型的性能。 为了解决桥本氏甲状腺炎与单一生物指标之间的非绝对关系问题,我们提出了一种距离感知损失(DL)函数,用于约束特征映射,以便从生物指标中有效提取信息,进而增强模型检测异常生物指标组的能力。 为了验证所提出的方法,我们构建了一个多中心的桥本氏甲状腺炎数据集,并进行了广泛的实验。实验结果表明,所提出的HTR-Net取得了当前最优(SOTA)的性能。
Method
方法
Fig. 2 illustrates the overall architecture of HTR-Net, which consists of a CNN branch, a Transformer branch, and a fusion branch,followed by a multi-modality embedding module. In the transformerbranch, shown in Fig. 2(A), HTR-Net employs Swin Vision Transformer(SwinT) (Liu et al., 2021) to extract global information. In the CNNbranch, shown in Fig. 2(B), HTR-Net utilizes ResNet18 to extract localinformation. In the fusion branch, depicted in Fig. 2(C), HTR-Netintegrates detailed and semantic information about the heterogeneousbackground using the GCA module. The DMA strategy is implementedin HTR-Net, as shown in Fig. 2(D). In addition, late fusion is employedto combine features from both ultrasound images and biological indicators. The DL function is used to incorporate the normal rangesof biological indicators as an additional supervisory signal, therebyconstraining the feature mapping of biological indicators during thetraining process.
图2展示了HTR-Net的整体架构,它由一个卷积神经网络(CNN)分支、一个Transformer分支和一个融合分支组成,随后是一个多模态嵌入模块。在图2(A)所示的Transformer分支中,HTR-Net采用了Swin视觉Transformer(SwinT)(刘等人,2021)来提取全局信息。在图2(B)所示的CNN分支中,HTR-Net利用残差网络18(ResNet18)来提取局部信息。在图2(C)所描绘的融合分支中,HTR-Net使用全局上下文注意力(GCA)模块来整合关于异质背景的详细信息和语义信息。如图2(D)所示,直接内存访问(DMA)策略在HTR-Net中得以实现。此外,采用后期融合的方式来合并来自超声图像和生物指标的特征。深度损失(DL)函数被用于将生物指标的正常范围纳入其中,作为一个额外的监督信号,从而在训练过程中约束生物指标的特征映射。
Conclusion
结论
In this paper, we present HTR-Net, a novel network for HT diagnosis using ultrasound images and biological indicators via multi-modalinformation embedding. In HTR-Net, the GCA module is proposed tofuse the features generated by both CNN and transformer branchesto recognize the structural and intrinsic information of heterogeneousbackground with potential decreases in echogenicity from ultrasoundimages. In addition, the DMA strategy is designed to expand the limited biological indicator data, ensuring the diversity of the biologicaldata while maintaining reasonable values of the augmented biologicalindicators, effectively enhancing the performance of the model. To fullyutilize the biological indicator data, the DL function is introduced toconstrain the feature mapping of biological indicators, thereby addressing the nonabsolute relationships between biological indicators and HT,and enhancing the model’s ability to recognize anomalous samples.Extensive experiments conducted on our multi-center dataset demonstrate that HTR-Net outperforms mainstream methods, highlightinggreat potential for HT diagnosis in clinical practices.
在本文中,我们提出了HTR-Net,这是一种通过多模态信息嵌入,利用超声图像和生物指标进行甲状腺炎(HT)诊断的新型网络。在HTR-Net中,我们提出了全局上下文注意力(GCA)模块,用于融合由卷积神经网络(CNN)分支和Transformer分支生成的特征,以便从超声图像中识别存在潜在回声性降低的异质背景的结构信息和内在信息。此外,我们设计了直接记忆访问(DMA)策略来扩充有限的生物指标数据,在保持扩充后的生物指标合理数值的同时,确保生物数据的多样性,从而有效地提升了模型的性能。为了充分利用生物指标数据,我们引入了深度损失(DL)函数来约束生物指标的特征映射,从而解决生物指标与甲状腺炎之间并非绝对相关的问题,并增强了模型识别异常样本的能力。在我们的多中心数据集上进行的大量实验表明,HTR-Net的表现优于主流方法,凸显了其在甲状腺炎临床诊断方面的巨大潜力。
Figure
图
Fig. 1. The first row presents ultrasound images of HT patients. Image (a) depicts aheterogeneous background, while image (b) shows a general decrease in echogenicityalong with a heterogeneous background. Identifying both characteristics is essentialfor the diagnosis of HT. The second row illustrates the normalized distributionsof biological indicators. Panels (c) and (d) represent the distributions of biologicalindicators for patients without HT and with HT, respectively. Green data pointsindicate the biological indicators are within normal ranges, whereas orange pointsrepresent those exceeding normal ranges. Notably, some biological indicators of HTpatients fall within normal ranges, while certain indicators from non-HT patients displayabnormal values. This observation highlights that the relationships between HT andits associated biological indicators are not absolute for the diagnosis of HT whenconsidered individually
图1:第一行展示了桥本氏甲状腺炎(HT)患者的超声图像。图像(a)显示了一个异质背景,而图像(b)则呈现出整体回声性降低且伴有异质背景的情况。识别出这两种特征对于诊断桥本氏甲状腺炎至关重要。第二行展示了生物指标的归一化分布情况。图(c)和(d)分别代表了非桥本氏甲状腺炎患者和桥本氏甲状腺炎患者的生物指标分布。绿色的数据点表示生物指标处于正常范围内,而橙色的数据点代表那些超出正常范围的指标。值得注意的是,一些桥本氏甲状腺炎患者的生物指标处于正常范围内,而某些非桥本氏甲状腺炎患者的指标却显示出异常值。这一观察结果表明,在单独考虑时,桥本氏甲状腺炎与其相关生物指标之间的关系对于诊断桥本氏甲状腺炎而言并非绝对。
Fig. 2. The architecture of HTR-Net. HTR-Net is structured as a dual-branch approach, integrating both CNN branch and Transformer branch. (A) represents the architecture ofSwin Transformer tiny version, (B) represents the local information extracted by ResNet18. (C) represents the fusion branch and GCA modules serve as bridges between CNN andTransformer branches, and (D) represents biological indicator process with DMA strategy, alongside DL function.
图2:HTR-Net的架构。HTR-Net采用双分支结构,融合了卷积神经网络(CNN)分支和Transformer分支。(A)表示小版本的Swin Transformer架构,(B)表示由ResNet18提取的局部信息。(C)表示融合分支,全局交叉注意力(GCA)模块充当了CNN分支和Transformer分支之间的桥梁,(D)表示运用距离感知不匹配增强(DMA)策略以及距离感知损失(DL)函数的生物指标处理过程。
Fig. 3. Architecture of GCA module. Initially, the local feature map is input into the module for dimension reduction and feature map division, followed by processing throughlinear projection of flattened patches. Subsequently, the flattened patches are input into cross-attention module in conjunction with the global feature vector to output the globalcross feature.
图3:全局交叉注意力(GCA)模块的架构。首先,将局部特征图输入到该模块中进行降维和特征图划分,随后通过对展平后的图块进行线性投影处理。接着,将展平后的图块与全局特征向量一起输入到交叉注意力模块中,以输出全局交叉特征。
Fig. 4. DMA strategy for biological indicator data. 𝑆 + represents the HT biologicalindicator subset, 𝐼𝑚𝑎𝑡𝑐ℎ represents the matched set of biological indicators correspondingwith ultrasound image 𝑈𝑐 , 𝐼**𝑚𝑖𝑠𝑚𝑐ℎ represents a set of biological indicators with eachelement randomly selected from different patients in 𝑆 +, and 𝐼𝐷𝑀𝐴 represents thereweighting value of 𝐼𝑚𝑎𝑡𝑐ℎ and 𝐼𝑚𝑖𝑠𝑚𝑐ℎ
图4:用于生物指标数据的距离感知不匹配增强(DMA)策略。(S^+)表示桥本氏甲状腺炎(HT)生物指标子集,(I{match})表示与超声图像(U_c)相对应的匹配生物指标集,(I{mismatch})表示一个生物指标集,其每个元素都是从(S^+)中的不同患者中随机选取的,而(I{DMA})表示(I{match})和(I_{mismatch})的重新加权值。
Fig. 5. Comparison of ROC and PR curves for different single-modality models
图5:不同单模态模型的受试者工作特征曲线(ROC)和精确率-召回率曲线(PR)的对比
Fig. 6. Comparison of box plots for different models. (a)–(n) represent the results of GoogleNet, ViT, CrossViT, ResNet50, ResNet152, DenseNet121, DenseNet161, HT-RCM,HTC-Net, GBCNet, Sononet, Hifuse, MedViT, and HTR-Net(Single-Modality), respectively
图6:不同模型的箱线图对比。(a)至(n)分别代表谷歌网络(GoogleNet)、视觉Transformer(ViT)、交叉视觉Transformer(CrossViT)、残差网络50(ResNet50)、残差网络152(ResNet152)、密集连接网络121(DenseNet121)、密集连接网络161(DenseNet161)、HT-RCM、HTC-Net、GBCNet、Sononet、Hifuse、医学视觉Transformer(MedViT)以及HTR-Net(单模态)的结果。
Fig. 7. Comparison of confusion matrix for different multi-modality models. (a)–(c)represent the results of HTR-Net (Single-Modality), HTNet and HTR-Net (MultiModality), respectively
图7:不同多模态模型的混淆矩阵对比。(a)至(c)分别表示HTR-Net(单模态)、HTNet以及HTR-Net(多模态)的结果。
Fig. 8. Comparison of t-SNE visualization for different multi-modality models. (a)–(c) represent the t-SNE results of HTR-Net (Single-Modality), HTNet and HTR-Net (Multi-Modality),respectively.
图8:不同多模态模型的t分布随机邻域嵌入(t-SNE)可视化对比。(a)至(c)分别表示HTR-Net(单模态)、HTNet和HTR-Net(多模态)的t-SNE结果。
Fig. 9. Comparison of accuracy and F1 score curves for different hyperparameter 𝛼.
图9:不同超参数(\alpha)下的准确率和F1分数曲线对比
Fig. 10. Grad-CAM heatmaps of HTR-Net. The green box highlights the heterogeneous background, and the red box indicates a decrease in echogenicity. Panels A and B representsthe heterogeneous background, while panels C and D represents the background with a decrease in echogenicity. (a)–(c) represent the original ultrasound image, heatmaps fromResNet18, and HTR-Net (Single-Modality), respectively
图10:HTR-Net的类激活映射(Grad-CAM)热图。绿色方框突出显示了异质背景,红色方框表示回声性降低。A和B面板展示了异质背景,而C和D面板展示了回声性降低的背景。(a)至(c)分别表示原始超声图像、来自残差网络18(ResNet18)的热图以及HTR-Net(单模态)的热图。
Fig. 11. PCA Visualization of Mapped Features from the Biological Indicator Validation Dataset under Different Configurations of the DMA Strategy and DL Function. Panels(a)–(c) represent the PCA results of the mapped features of the validation dataset obtained from models trained under the following configurations: (a) using the original biologicalindicators, (b) using the original biological indicators combined with the DL function, and (c) using the augmented biological indicators generated by integrating the DMA strategywith the DL function.
图11:在直接内存访问(DMA)策略和深度学习(DL)函数的不同配置下,来自生物指标验证数据集的映射特征的主成分分析(PCA)可视化。图(a)至(c)分别表示从以下配置训练的模型中获得的验证数据集映射特征的PCA结果:(a)使用原始生物指标;(b)使用结合了深度学习函数的原始生物指标;(c)使用通过将直接内存访问策略与深度学习函数相结合而生成的增强生物指标。
Table
表
Table 1Detailed statistic information of HT dataset
表1 桥本氏甲状腺炎(HT)数据集的详细统计信息
Table 2Performance of single-modality models (%).
表2 单模态模型的性能(%)
Table 3 Classification performances
表3 分类性能
Table 4Performance of HTR-Net in different gender subgroups (%).
表4 HTR - Net在不同性别亚组中的性能(%)。
Table 5Performance of HTR-Net in different age subgroups (%)
表5:HTR-Net在不同年龄亚组中的性能表现(%)
Table 6Performance of individual and different fusion approaches (%).
表6 单个模型以及不同融合方法的性能表现(以百分比表示)
Table 7Delong test of individual and different fusion methods
表7:单个模型以及不同融合方法的德龙(Delong)检验结果
Table 8Effect of DL function and DMA strategy (%)
表8 深度学习函数和直接内存访问策略的效果(%)
Table 9Performance of HTR-Net with different hyper-parameters 𝛼 (%).
表9:具有不同超参数(\alpha)的HTR-Net的性能表现(%)
Table 10Performance in external dataset (%)
表10 在外在数据集上的性能表现(%)
Table 11Model complexity comparison.
表11 模型复杂度比较。