《HFA-Net：High frequency attention siamese network for building change detection in VHR remote sensing images》笔记

发表于 2022-11-21 更新于 2024-04-03 分类于论文本文字数： 1.9k 阅读时长 ≈ 2 分钟

论文地址：HFA-Net: High frequency attention siamese network for building change detection in VHR remote sensing images

摘要

动机

虽然基于深度学习技术可以很好地处理建筑物变化检测（BCD），但是也存在以下问题：

在对具有更清晰的边界的对象的分割和识别上仍然受高频信息获取不足的影响，导致在建筑物变化检测中建筑物边界的检测效果并不理想。

工作贡献

提出了一种新的基于孪生网络的框架：HFA-Net，用于更好地识别VHR遥感图像中的变化建筑物。
提出了一个空间注意力（SA）和高频增强（HF）结合的HFAB模块，首先通过SA引导模型关注建筑物，然后通过HF来突出建筑物的高频部分即边界。HFAB使模型获得更好的特征表示能力。
证实在深度神经网络中全局高频信息的增强有益于BCD任务，同时对比之前的基于CNN的方法，该方法能够在BCD任务中达到SOTA效果。

网络结构

网络整体结构如下图所示。该方法采用孪生网络+U-Net结合的架构，其中Encoder部分共享权重，在最下面一层进行concat操作。

HFAB

作者为了实现高频信息的提取的增强，设计了这个HFAB模块。首先通过空间注意力模块给予特征图中建筑物更多的关注，随后通过高频信息增强模块对建筑物边界进行增强。具体网络结构如下图所示。

同时根据HFAB的效果示意图可以很好地理解这一过程，其中先进行空间注意力模块再进行高频信息增强是为了在空间注意力模块中过滤掉一些无关信息，避免HF模块过后输出的特征图包含过多的高频噪声。

SA模块

可以在上面流程图中看到，作者采用的空间注意力增强模块时使用了一个U-Net结构作为空间掩码的提取。具体为：上分支部分采用U-Net网络进行处理，而与一般的U-Net不同的是特征通道数一直是降低的，最后输出时通道数为1，便得到了空间掩码 $mask(H \times W \times 1)$ ，然后将它与输入进行相乘实现空间维度的增强

HF模块

作者在提取高频信息的时候采用的是使用Sobel算子。而又因为通常建筑物的形状各异，所以转而使用各向同性的Sobel算子。其中各向同性Sobel算子包含八个方向，于是首先计算每个方向的高频信息，然后进行求mean操作。具体操作如下图所示。

同时HF模块不仅仅是进行了高频信息的提取，还进行了通道注意力处理。即上分支部分首先进行全局平均池化操作，得到特征图（ $1 \times 1 \times C$ ），随后经过两个全连接层（FCL）得到通道掩码（ $1 \times 1 \times C$ ），最后与输入进行通道级别相乘，得到使用通道注意力后的特征。最后与高频分支（即下分支）进行concat，然后经过1×1卷积的处理得到最终的特征。

训练细节

Loss：BCELOSS

使用Pytorch框架实现了所提出的方法，并在GeForce RTX 3090 GPU和24-GB VRAM上进行了训练。Epoch设置为200，Batchsize设置为8；优化器选用SGD，初始学习率设置为0.01，momentum设置为0.9，weight decay设置为1e-5；学习率在10、15、30、40代时进行衰减，decay rate设置为0.1（MultiStepLR策略）。