《Explicit and Implicit Models in Infrared and Visible Image Fusion》笔记
原文地址:Explicit and implicit models in infrared and visible image fusion
Abstract
这篇文章主要讨论深度学习模型在图像融合中的限制和相应的优化策略,并且将各种模型分为显式模型和隐式模型(即能够自适应地学习高级特征或者能够建立全局像素的联系)
同时提出图像融合任务面临的两个问题:
- 维持不同模态间的独特特征
- 维持不同等级的图像特征(如全局特征和局部特征)
通过10个模型在21个测试集上的对比实验表明:隐式模型比显式模型具有更全面的学习图像特征能力,但是同时也需要提高其稳定性。
Introduction
近红外图像包含目标的热度信息,而可见光图像包含图像的纹理细节和梯度信息。其中可见光图像中的独特特征为高分辨率和局部特征,并且可以通过简单的网络实现;而近红外图像中的特有特征为高级语义特征和全局轮廓特征,需要更加复杂和深层的网络进行提取。
目前神经网络存在一些缺点:
-
特征提取阶段具有局限性:
虽然传统的神经网络提升了对非线性特征的表达能力并且对局部特征的提取执完成地很好,但是当通过神经网络提取高级语义和全局特征时会造成梯度消失、梯度爆炸问题,同时会降低网络的性能。并且如果只保留和输出最后一层特征,中间层特征将会消失。相应的解决方法如ResNet和DenseNet可以保护网络梯度,其他的像U-Net和特征金字塔等能够保留更多的中间特征
-
研究者很少考虑模态间的不同:
在更多的情况下,人们会使用相同的encoder或者相同的网络提取源图像特征,相应的会忽视不同模态之间的不同。于是会采用双流结构分别提取不同模态图像的特征
以下为针对显式模型和隐式模型自身缺点和优化方法做出的表格:
Conclusion
最后,在多模式图像的融合任务中,我们总结了两个关键方面。一方面,我们最好考虑方式的差异。另一方面,还应考虑将模式中各个特征级别的特征级别之间的差异以及全面提取本地和全局特征的差异,以确保最大程度地保留信息。在未来的研究中,我们提出了建议,将明确的模型与隐式模型相结合,以全面提取本地和全局特征,并提高隐式模型的稳定性。