欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 养生 > 双目的一些文章学习

双目的一些文章学习

2025/5/16 16:30:21 来源:https://blog.csdn.net/zhaoshuailing/article/details/144894268  浏览:    关键词:双目的一些文章学习

文章1 PSMNet

  • https://arxiv.org/pdf/1803.08669
  • PSMNet文章博客
  • PSMNet文章中牵涉到的一些知识,空洞卷积,SPPNet网络,计算视差时用soft argmin代替argmin
  • 文章中引入了空洞卷积和SPPNet网络来融合多尺度的信息,又引入3D卷积来增加模型的表现能力,引入了soft argmin来拟合视差,在计算loss方面,从中间层就引出对视差的loss进行加权得到总的loss

文章2 GCNet

  • 论文https://arxiv.org/pdf/1703.04309
  • GCNet文章博客,博客1
  • 文章中引入了3D卷积,并引入了3D卷积的沙漏结构,又首次提出了soft argmin代替argmin拟合视差,可以得到连续的视差值,消融实验证明了3D卷积结构和soft argmin拟合视差的有效性

文章3 stereoNet

  • 论文https://arxiv.org/pdf/1807.08865
  • stereoNet博客
  • stereoNet代码
  • 主要贡献时为了实时性,通过降低在计算costvolume之间的feature的分辨率增加了实时性,而降低分辨率性能并没有降低,但是出来初始的视差会因分辨率不高而没有细节,接着后面让左图和初始视差图concat作为输入,进行空洞卷积[conv+resblockx6+conv],增加细节特征,输出视差的残差,视差+残差作为新视差,该模块迭代多次不断优化细节,每个阶段都是inchannel=3+1,outchannel=1。最终的loss时soft L1 loss

文章4 AnyNet

  • 论文https://arxiv.org/pdf/1810.11408
  • AnyNet 博客,博客1
  • 文章的主要贡献在于灵活,可以在线根据需求输出每个阶段的视差,提取特征用的Unet,会输出多个分辨率下的特征图,视差/残差估计用的Disparity Network,就是cost volume + 3D conv + disparity regression,输出视差/残差,如果只需要第一阶段的视差就满足要求,第2、3阶段的残差就不需要计算了,也就是本文的亮点,灵活,最后视差图又经过了一个SPNet来锐化视差图

文章5 HSM-Net

  • 论文https://arxiv.org/pdf/1912.06704
  • HSM-Net 博客,博客1
  • 提取特征阶段利用类似Unet结构,提取多尺度的特征信息,这其中在沙漏最细的最后一层,插入了SPP网络,主要是增加感受野,SPP不同pooling的结果进行了等权重0.25的相加作为这一层的最终特征,然后每种分辨率的特征图都构建cost volume,共4个分辨率的cost volume,分别送入volume解码模块,解码模块也是一些卷积操作,conv3d+SPP+upConv3d,其中SPP中的操作和上一阶段特征提取的操作类似也是等权重0.25的加权,每个decoder都输出两个,一个叫做feature volume, 一个叫做cost volume,其中feature volume输入到下一阶段的docoder,而cost volume代表当前阶段的匹配误差,要哪个阶段的输出,直接使用soft argmin计算得到视差
  • 使用自动驾驶仿真平台生成一些合成数据

文章6 FADNet

  • 论文 https://arxiv.org/pdf/2003.10758
  • FADNet 博客,博客1
  • FADNet是沿用了DispNet的结构,在DispNet上进行修改,将特征提取的conv2d层替换成dual-resblock,即残差模块以增加网络深度,在cost volume时做了消融实验,证明D=20时效果最好,太大和太小会造成拟合不足或者过拟合。两个网络RB-NetC预测多尺度视差,RB-NetS预测多尺度视差的残差,因为有多尺度的视差预测,在训练时,引入了随着训练步数的增加,逐渐增加大尺寸的预测视差权重,直到为1.0,达到从粗到细的目的,因为是3Dconv所以比较好部署,速度也快

文章 7 AANet

  • 论文 https://arxiv.org/pdf/2004.09548
  • AANet 博客,更总结的博客1
  • 文章中有个知识点叫做可变卷积 deformable conv,原理博客,代码实现
  • AANet主要有两个贡献点,一个是同尺度内的自适应的聚合模块,其实使用deformable conv实现的,即可变卷积实现,主要为了解决视差不连续处的边缘膨胀问题,自适应的聚合就可以灵活的查找更有效的聚合点,本质上可变卷积就是用一个单独的conv学一个offset,加到传统卷积的位置上, 另一个贡献是不同尺度间的聚合模块,是为了解决弱纹理区域匹配问题,小尺度的cost volume在弱纹理区域更具有分辨性,所以多尺度间融合是有必要的,其实就是上采样和下采样后累加起来,这两个模块组合起来乘坐AAmodels,我们使用了6次 AAmodels,视差采用soft argmin 拟合,loss采用平滑L1 loss

文章 8 RAFT-stereo

  • 论文 http://arxiv.org/pdf/2109.07547
  • RAFT-stereo 博客
  • 文章中的知识点用于计算cost volume torch.einsum,迭代模块GRU,GRU视频解释,看不懂直接当做一个模块【像resblock】使用即可

自动驾驶仿真器平台

https://zhuanlan.zhihu.com/p/105492011

https://github.com/princeton-vl/infinigen?tab=readme-ov-file

https://arxiv.org/pdf/2312.00343
High-frequency Stereo Matching Network

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词