图文检索（32）：Revisiting Self-Similarity: Structural Embedding for Image Retrieval

2025/9/22 17:37:17 来源：https://blog.csdn.net/zhuzaiyebol/article/details/144201769 浏览: 次关键词：图文检索（32）：Revisiting Self-Similarity: Structural Embedding for Image Retrieval

Revisiting Self-Similarity: Structural Embedding for Image Retrieval

摘要
3. Structural Embedding Networks (SENet)
- 3.1 problem setup and overview
- 3.2 self-similarity computation
- 3.3 self-similarity encoder
- 3.4 feature fusion module
- 3.5 training objective
结论

发布时间（2023 cvpr）

标题：重新审视自相似性：用于图像检索的结构嵌入

摘要

思想：之前只是关注图像的全局表示，本文加入几何结构
方法：图像的视觉+结构信息引入全局表示
1）特征提取模块
视觉信息：原始图像特征
结构信息：结构嵌入网络（SENet），捕获图像的内部结构并逐渐将它们压缩为密集的自相似性描述符，同时从各种图像中学习不同的结构
2）融合模块
和谐地融合视觉和结构信息，而不会破坏基础结构的原始行为

3. Structural Embedding Networks (SENet)

3.1 problem setup and overview

1）全局嵌入获取：提取CNN网络的中间特征，然后通过全局池化操作聚合到全局嵌入
2）全局嵌入的缺陷：这种操作几乎丧失了图像输入特征图本身的结构信息
3）本文：网络使用 SSC 从特征图中计算自相似性，使用 SSE 和逐像素自相似性描述符对其进行编码，并使用 FFM 将它们与原始特征图融合。

3.2 self-similarity computation

逐像素的自相似性计算来获取结构信息
1）中间特征图F经过非线性得到F’
2）F‘的每个像素点周围的PP的区域的相似度：逐个像素的逐个通道
F：CH*W
F’：C’HW
自相似性图S：C‘×H×W×P×P

3.3 self-similarity encoder

1）目标：将高维自相似性得分编码为紧凑的自相似性描述符
i.e. S：C‘×H×W×P×P 变成 D：CHW
2）实现方式：SSE块：conv33—BN—RELU
不断将PP进行缩减，padding=0，所以每次将pp变成（p-2）（p-2）。最后变成1*1
3）线性层映射C‘变成C

3.4 feature fusion module

1）结构描述符D经过BN
2）D+F经过前馈层：Linear–relu–Linear
3）Fs经过GeM池化–whitening–L2得到结构嵌入z

3.5 training objective

1）分类损失
2）对比损失

结论

在本文中，我们提出了一种新颖的框架，该框架利用图像的内部结构在全局嵌入中很好地反映结构信息。为此，我们提出了两个模块。首先，我们提出了自相似性编码模块，该模块以端到端的方式分析图像的内部结构并将其编码为自相似性描述符。我们还提出了特征融合模块，以和谐地融合视觉和结构信息，而不会破坏基础结构的原始行为。在几个代表性基准和密集消融研究中的显着性能改进表明，图像的内部结构也是图像检索的宝贵线索。