论文阅读:multimodal remote sensing survey 遥感多模态综述

慈云数据 2024-03-13 技术支持 129 0

遥感多模态

参考:From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy

Keywords:multimodal remote sensing

文章目录

  • 遥感多模态
    • Abstract
    • Introduction
    • Taxonomy
    • 1. Multi-source Alignment
      • 1.1 Spatial Alignment
      • 1.2 Temporal Alignment
      • 1.3 Cross-element Alignment
      • 1.4 Related work and Challenges
      • 2.Muti-source Fusion
        • 2.1 Homogeneous Data Fusion
          • 2.1.1 spatial reference
          • 2.1.2 Spatio-temporal reference
          • 2.2 Heterogeneous Data Fusion
            • 2.2.1 Feature stacking-based
            • 2.2.2 Subspace-based
            • 2.2.3 Deep learning-based
            • 2.3 Remote Sensing And Other Type Data Fusion
            • Remaining problems
            • 3.Mutimodal Representation
              • 3.1 Joint Representation
              • 3.2 Coordinated Representation
                • 3.2.1 Complementary methods
                • 3.2.2 Similarity methods
                • 3.3 Encoder-decoder Representation
                • 3.4 Discussion
                • 4. Cross-modal Translation
                  • 4.1 Cross-sensor translation
                  • 4.2 Cross-element translation
                  • 4.3 The challenges and differences from nature scenes
                  • 5.Co-learning
                  • 6. Datasets of MRSII
                  • 7. Applications
                    • 7.1 Land use classification
                    • 7.2 Urban Planning
                    • 7.3 Agriculture and Ecology
                    • 8 Future Directions

                      Abstract

                      本文强调了单模态和多模态遥感影像判读之间的关键差异,然后利用这些差异来指导我们对级联结构中多模态遥感影像判读的研究。最后,对未来可能的研究方向进行了探讨和展望。

                      Introduction

                      多模态遥感图像解译(MRSII)是地球观测和计算机视觉领域的一个新兴方向。它具有挑战性,具有比单模态更大的应用价值。从特性的角度来看,至少有四个原因:

                      1)图像数据是多光谱的(a)和(b)是同一场景中的一对图像,( c )和(d)是同一区域来自Houston dataset

                      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MeUgNLHq-1673610283276)(/imgs/2023-01-05/qRSFNJX8ifBx36NS.png)]

                      2)同一区域的多模态观测提供了来自不同视角(如三维空间、距离和高度)的互补信息。对于一些地球观测应用,如城市土地规划、三维重建、森林分类等,我们需要多模态传感器从多个角度观察场景。但由于受计算资源的限制,观测角度越多,计算复杂度越大。

                      3)各模态尺度不一致。 表1列出了一些著名卫星的参数。由于MRSII的多尺度特性,要求系统具有处理不同分辨率图像的自适应能力。例如,在WV-3图像中,一架飞机可能会占用大约400像素,但在高分2图像中只占用150像素。这种情况给单模态模型带来了巨大的挑战,特别是当同一对象之间存在显著的尺度变化时。

                      4)多模态图像为地球监测提供了时间维度。多时间变化检测、数据融合、基于域适应的分割/检测等一系列具有广阔应用前景的时间任务应运而生,加速了遥感影像解译向多维度、多任务的方向发展。

                      Taxonomy

                      本文主要分为五类:即多源对齐(第3节)、多源融合(第4节)、多模态表示(第5节)、跨模态翻译(第6节)和联合学习(第7节),以应对MRSII挑战的核心技术。

                      在这里插入图片描述

                      1)Alignment:图像配准,遥感影像分析,图文检索和匹配

                      多模态对齐提供不同模态信息的对齐和匹配,旨在发现模态之间的空间和时间联系。例如,来自不同传感器的图像之间的图像配准和检索,以及图像与文本之间的检索和匹配。这些方法的重点是将不同的模式映射到统一的语义空间,并通过距离度量它们的相似性

                      2)Fusion:全色与多光谱图像融合再进行目标检测

                      MRSII中的多源融合旨在将两个或多个遥感数据或其他观测数据与相同复杂场景的互补信息结合起来。 通过结合它们的信息进行处理、分析和决策,可以获得用于目标预测(分类或回归)的更高质量的数据。例如,将高分辨率全色图像与多光谱图像融合,可使多光谱图像的空间分辨率提高数倍。

                      3)Representation:三维重建

                      一项基本任务是将图像编码到用于下游任务分析的高级特征空间中。类似地,在MRSII中 ,representation负责将多模态信息提取并抽象为高级特征向量,它利用不同模态特征之间的互补性,消除冗余,以学习更好的特征。例如,为了对城市分类和三维建筑重建进行编码,将数字表面模型(Digital Surface Model, DSM)和真正射电像相结合,送入相同的表示空间。

                      4)Translatioin:SAR转全色,模态的转化

                      一个新出现的挑战是将信息从一种形式翻译成另一种形式。该任务的方法倾向于生成模型,预测的目标是开放的或主观的。生成的模态与源模态是异构的。例如,我们使用SAR数据生成全色图像。

                      5)Co-learning:迁移学习

                      对于一些复杂的场景,一个单模态传感器可能是不足的,因此需要另一个丰富的模态来辅助它的学习。在某些需要域适应或迁移的情况下,跨模态信息可以利用联合学习来辅助学习。例如,利用资源丰富的光学图像特征进行预训练,然后对稀缺的SAR图像特征进行学习,可以提高模型的性能

                      一个优秀的多模态模型通常需要两种以上技术的组合。例如,多模态表示可以用作对齐或转换的骨干模型。

                      1. Multi-source Alignment

                      遥感多源对齐的目的:

                      将原始源与目标源进行匹配,在异构数据之间找到相应的显式和隐式关系。

                      例如,给定两张来自不同传感器的包含相同复杂场景的图像,我们将匹配或检索它们的子组件(sub-components)。多源对齐是MRSII的一个重要分支

                      相关工作包括图像配准[12-14]、变化检测[18,27 - 29]和跨模态检索[26,30,31]。

                      根据数据源的对齐维度,我们将多源对齐方法分为三种:1)空间对齐,2)时间对齐,3)交叉元素对齐。 表2列出了这些方法的不同。

                      在这里插入图片描述

                      在这里插入图片描述

                      1.1 Spatial Alignment

                      应用:图像配准,变化检测,土地分类,空间对齐主要是图像对齐的过程

                      即找到来自同一复杂场景的当前图像与参考图像之间的像素空间映射关系,从而实现不同图像源的几何同步。这些图像通常由不同的传感器在不同的时间和视点拍摄[10,11]。

                      根据训练样本类型的不同,空间对齐框架可分为三种类型:无监督方法、半监督方法和监督方法。

                      • Unsupervised methods没有任何事先训练的样本,需要直接对数据建模。它们是第一批应用于多模态对齐的方法,通过构建一系列范式并从这些范式中识别它们潜在的类规则来聚类同一类特征。

                        无监督方法的应用方向是图像配准以及土地覆盖分类,将不同传感器在不同时间捕捉到的同一场景的两张或多张图像对齐

                      • Semi-supervised method是另一种空间对齐框架,它利用大量的未标记和标记数据来执行MRSII[37,38]。在[39]中,MAPPER被用来进行光学数据和偏振SAR数据的多重对齐,用于土地覆盖和当地气候的半监督分类。半监督研究利用半监督对齐方法从潜在空间获取具有多时间、多源、多传感器和多角度特征的图像的线性可逆变换。

                        Hong[40]提出了一种可学习流形对齐框架,直接从数据中学习joint graph structure。采用半监督学习方法对多模态图像进行对齐,可以减少标注人员的工作量,获得较高的对齐精度。因此,它受到了遥感界的广泛关注。

                      • Supervised methods根据来自标记数据集的输入和输出结果之间的关系训练一个最佳模型。在监督学习中,训练数据既有特征又有标签,通过训练,机器可以自己找到特征和标签之间的联系。

                        由于数据量大,一些方法[41-43]使用非深度学习架构。随着深度学习的发展,监督方法已经成为空间对齐的主流。在[44-46]中,作者设计了生成网络来生成耦合的光学和SAR图像,并使用深度匹配网络进行匹配。Zhang等和Fan等[47,48]提出了一种用于

微信扫一扫加客服

微信扫一扫加客服

点击启动AI问答
Draggable Icon