Five-Billion-Pixels.html。

Xin-Yi Tong¹, Gui-Song Xia^2,3, Xiao Xiang Zhu^4,^†^††Corresponding author.
¹Remote Sensing Technology Institute, German Aerospace Center, Germany
²State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing,
Wuhan University, China
³National Engineering Research Center for Multi-media Software, School of Computer Science
and Institute of Artificial Intelligence, Wuhan University, China
⁴Chair of Data Science in Earth Observation, Technical University of Munich, Germany

摘要

高分辨率卫星影像可以为土地覆盖分类提供丰富、详细的空间信息，这对于研究复杂的建筑环境尤为重要。然而，由于复杂的土地覆盖模式、昂贵的训练样本收集以及地理差异或采集条件等造成的卫星图像分布的严重变化，很少有研究将高分辨率图像应用于详细类别的土地覆盖制图大规模。为了填补这一空白，我们提出了一个大规模土地覆盖数据集，50 亿像素。它包含超过50亿的 $150$ 高分辨率高分二号( $4$ 米）卫星图像的标记像素，以24类系统注释，涵盖人工建造、农业和自然类别。此外，我们提出了一种基于深度学习的无监督域适应方法，可以将在标记数据集（称为源域)上训练的分类模型转移到无标记数据（称为)目标域)用于大规模土地覆盖测绘。具体来说，我们引入了一种端到端暹罗网络，采用动态伪标签分配和类平衡策略来执行自适应域联合学习。为了验证我们的数据集和所提出的方法在不同传感器和不同地理区域的普适性，我们分别使用 PlanetScope ( $3$ ) 对中国的五个特大城市和其他五个亚洲国家的六个城市进行了土地覆盖制图m)、高分一号 ( $8$ m) 和哨兵二号 ( $10$ m) 卫星图像。在 60,000 km² 的总研究区域中，即使输入图像完全未标记，实验也显示出有希望的结果。所提出的方法经过50亿像素数据集的训练，可以在中国和其他一些亚洲国家以米级分辨率绘制高质量、详细的土地覆盖图。

1简介

1.1动机

土地覆盖信息对于环境科学、气候监测、粮食安全、城市规划、灾害管理和生态系统保护等各个研究领域至关重要[1]。随着科技和经济的不断发展，人类活动对城市和自然环境的影响越来越大[2, 3]。因此，迫切需要及时、可靠的大规模土地覆盖信息来指导人居环境建设，缓解负面环境变化。

过去几十年来，人们对利用中低空间分辨率遥感影像进行大比例尺土地覆盖制图进行了广泛的研究[4,5,6,7,8,9]，例如，中分辨率成像光谱仪 (MODIS) [10]、Landsat 专题制图仪 (TM) [11, 12]、增强型专题制图仪+ (ETM+) [13 ]卫星影像，积累了令人瞩目的成果。然而，由于缺乏空间信息，这些图像不足以区分异质的土地覆盖类别，特别是对于主要分布在建筑环境中的类别，如建筑物、交通基础设施、人工水域和城市绿地。近日，基于Sentinel卫星图像，欧洲航天局（ESA）和Google发布了全球10 m土地覆盖测绘项目World Cover [14]和Dynamic World [15] 分别。尽管它们非常准确和实时，但仅涵盖基本的土地覆盖类别（11 类和 9 类），并且描绘城市环境的能力有限。

随着卫星技术的进步，越来越多具有更高空间分辨率的遥感图像。与低/中空间分辨率图像相比，它们提供了更丰富的地物纹理、形状和空间分布信息，这对高异质区域（例如人口稠密的特大城市）的详细测绘有显着贡献。但同时，详细的信息带来了更加复杂的土地结构和格局[16]，这给高分辨率图像的土地覆盖分类带来了巨大的挑战。此外，由于高分辨率图像的幅宽较窄以及云遮挡的问题，往往需要联合使用同一传感器甚至多个卫星传感器在不同时间和位置捕获的大量图像来拼接大尺寸图像。比例土地覆盖地图[17]。随之而来的问题是，不同的成像条件会导致地物特征分布的变化，从而导致针对某些带注释图像（称为源域)的最佳分类方法在新获取的图像（称为目标域)[18, 19]。上述因素使得高分辨率卫星图像难以实际用于大规模土地覆盖测绘应用。

1.2相关工作

近年来，为完成这项艰巨的任务付出了巨大的努力。早期，光谱和光谱空间特征被广泛用于基于像素或物体空间单元[20,21,22,23]识别土地覆盖类别。然而，受限的、手工制定的规则无法完全定义和表示高分辨率图像中复杂的土地结构或图案[16]。为了解决这个问题，深度学习引起了遥感界的广泛关注。深度卷积神经网络（DCNN）能够通过多层变换自适应地近似图像信息和土地信息之间的关系[24]。因此，与传统的土地覆盖分类方法相比，深度模型可以准确地表征高分辨率图像中包含的复杂上下文信息[19,25,1,26,27]。尽管深度模型在许多遥感问题上表现出巨大的优越性[24,28,29]，但其性能强烈依赖于训练数据的质量和数量[30,31,32]，导致将它们应用于现实世界的土地覆盖制图时出现两个主要问题：

-

土地覆盖数据集代表性有限造成的应用差距：深度学习是一种数据驱动的方法，其实际土地覆盖制图的潜力很大程度上取决于训练数据是否充分反映真实的分布世界地面物体。数据量不足可能导致模型过拟合，数据多样性不足可能导致模型泛化能力低，类别体系不完整则导致模型无法满足实际建图要求[33, 34] 。
-

深度模型在不同数据域上的通用性不足：即使实用的深度模型已经在注释良好的数据集上进行了训练，但由于特征分布的原因，它可能对其他地理区域或传感器无效在源域和目标域之间切换[18,19,35]。为了使这种深度模型适应大规模土地覆盖制图，一种直观的方法是为目标域注释足够的样本并执行模型重新训练。然而，为每个新捕获的图像添加密集的标注是不现实的。

为了缓解第一个问题，已经发布了许多具有亚米级到米级空间分辨率( $0.05$ - $10$ m）的密集标记土地覆盖数据集，并对土地覆盖做出了重大贡献分类研究。但大多地理覆盖区域 $10$ 公里²以下，且位于集中区域，如ISPRS Potsdam [36]、ISPRS Vaihingen [36]、苏黎世夏季 [37]、RIT-18 [38] 和泽布鲁日 [39]。现有的大规模数据集，覆盖范围超过 $1000$ km²，地理分布广泛，通常标注10个左右的类别，不包含详细的城市功能类别，包括SpaceNet [40]、DeepGlobe [41]、MiniFrance [42]、高分图像数据集（GID）[19, 43] 和 LandCoverNet [44]。尽管这些大规模数据集拥有足够的数据量和数据多样性，但其不完整的土地覆盖类别系统使其无法完全弥合算法研究和实际应用之间的差距。

为了解决第二个问题，最近的遥感文献普遍考虑了无监督域适应（UDA）[19,45,27,46,47,48]。 UDA 旨在将在源域上训练的模型调整到目标域，而无需监督信息[18]。人们研究了两种主要类型的基于深度学习的 UDA：基于差异的方法和基于对抗性的方法。基于差异的方法最大限度地减少源域和目标域之间的差异标准，以减少它们的分布距离[45, 27]。差异标准以手动设计的损失函数的形式实现，例如相关对齐（CORAL）[49]和最大平均差异（MMD）[50]。相比之下，基于对抗性的方法，例如域对抗性神经网络（DANN）[51]和对抗性判别域适应（ADDA）[52]，则不需要手动设计域匹配标准。相反，他们通过同时训练特征生成器和域鉴别器来学习标准，它们试图分别为两个域提取不可区分的特征并区分不同域的特征[46, 47]。

这两类 UDA 方法的基本思想是对齐源域和目标域的特征分布[49,51,53]。然而，这个想法基于一个关键假设，即可以找到两个分布的适当匹配，而现实世界的情况通常并不那么理想。首先，对于大规模土地覆盖制图，两个域都可能包含来自不同成像条件的图像，从而导致每个域内的特征空间广泛分散。在这种情况下，两个色散域的严格对齐可能会进一步累积域内方差[54, 55]。其次，实际土地覆盖格局中普遍存在阶层不平衡现象。最常见的类别可能覆盖的区域比其他一些类别大数百倍。因此，在全局对齐期间，一些常见类别可能会将整个域拉向最佳分布，从而导致对其他类别的负面适应。

为了提高 UDA 的性能，最近的工作[17,56,57]将分布对齐与伪标签相结合。伪标记的主要思想是根据预测的分类置信度从目标域中选择有价值的训练样本用于模型。然而，伪标签的质量取决于它们的选择方式。目前的方法是凭经验选择置信阈值[17, 58]或为样本集合设置固定比例[19,56,55,57]，这很难保证预测模型分配给其未知域的伪标签的准确性。此外，模型总是倾向于选择更简单的样本，这可能会加剧类别不平衡。这些问题使得现有的UDA方法难以满足大规模土地覆盖测绘应用的需求。

1.3本文的贡献

为了解决上述问题，本文提出了50亿像素数据集，它扩展了土地覆盖数据集GID[19, 43]。它不是 GID 的 5/15 基本类别，而是包含 $150$ 高分辨率高分二号 (GF-2) 卫星图像的超过 50 亿 个标记像素，并以更详细的方式注释。完整的类别系统，包括 24 个土地利用和土地覆盖类别。然后，我们提出了一种用于实际大规模土地覆盖制图的 UDA 方法。我们的方法不是域对齐策略，而是让已经在源域上定义的深度模型逐渐自适应地学习目标域的分布。具体来说，我们引入了一个暹罗网络[59]，它有两个分支，分别为来自源域和目标域的图像生成特征图。这些分支共享相同的全卷积架构和在50亿像素上预训练的相同参数。在目标域分支中，特征图的信息熵被视为选择高置信度图像像素的指标，并且对所选像素的类别预测被视为伪标签。然后使用这些伪标签与源域分支构建联合分类损失。为了权衡两个域的适应，分配有伪标签的像素数量随着训练迭代而动态变化。为了防止对某些常见类别的过度适应，根据源域中的类分布对联合分类损失进行加权。

本文的主要贡献如下：

-

我们提出了一个大规模土地覆盖分类数据集，50 亿像素。空间分辨率4米，覆盖全国5万公里²面积，蕴藏量超过50亿 t4> 标记像素。 其类别体系涵盖人工构建、农业和自然类别，很好地反映了现实世界地面物体的分布，可以广泛地有利于土地覆盖相关的研究。
-

我们提出了一种基于深度学习的 UDA 方法，用于大规模土地覆盖测绘。它避免以严格的方式改变域分布，而是根据在源域中学到的知识来软性地纠正域转移。因此，即使在非常复杂的实际情况下，我们的方法也可以减轻由域内多样性和类别不平衡引起的负面适应。
-

我们分别使用未标记的 PlanetScope ( $3$ m)、Gaofen-1 ( $8$ m) 和 Sentinel 对中国的 5 个特大城市和其他 5 个亚洲国家的 6 个城市进行了土地覆盖测绘-2 ( $10$ m) 卫星图像。在 60,000 km² 总面积上取得了令人鼓舞的实验结果，展示了所提出的数据集和方法在中国和其他一些亚洲国家高质量、详细的土地覆盖制图方面的潜力米级分辨率。

Refer to caption — 图1：左：150 张 *50 亿像素* 图像的分布。右图：GF-2 图像及其相应标签图的示例，其中黑色表示未标记区域。类别系统涵盖人工建造类、农业类和自然类。

2 研究数据

为了缩小高分辨率土地覆盖数据集与实际应用需求之间的差距，我们重新组织和扩充了土地覆盖数据集GID的类别系统。 GID 提供 5/15 级版本；有兴趣的读者可以参考[19]和[43]。我们的新数据集名为 50 亿像素，由 $150$ GF-2 卫星图像组成，并以更完整的类别系统进行注释（见图 1) >)。具有类别丰富、覆盖范围大、分布广、空间分辨率 $4$ 米等优点。

对于大比例尺土地覆盖制图的案例研究，我们使用具有不同空间分辨率的三个数据源对中国的五个特大城市和其他五个亚洲国家的六个城市进行土地覆盖分类。具体而言，对于中国大城市，成都和上海使用 PlanetScope（PS）卫星影像，武汉使用高分一号（GF-1）卫星影像，北京和上海使用 Sentinel-2（ST-2）卫星影像。广州。其他亚洲城市：泰国曼谷；印度德里；缅甸内比都；韩国首尔；日本东京;使用缅甸仰光的ST-2卫星图像。中国特大城市总面积53,088平方公里²，分别分布在中国的东、西、北、南、中地区。其他六个亚洲城市分别位于南亚、东南亚和东亚。

50亿像素数据集在2.1节中介绍，研究区域及其数据源在2.2节中介绍。

2.150 亿像素

2.1.1 高分二号影像

高分二号是中国国家航天局（CNSA）推动的高清对地观测系统（HDEOS）的第二颗卫星。它配备了两个全色和多光谱 (PMS) 传感器，可提供 $45$ 公里的组合测绘带。传感器的有效空间分辨率为 $1$ 米全色（pan）/ $4$ 米多光谱（MS）。我们用于构建 Five-Billion-Pixels 的 MS 图像具有蓝色（ $0.45$ - $0.52$ $\upmu$ m）、绿色（ $0.52$ - $0.59$ $\upmu$ m）、红色（- m）和近红外（-m）的光谱范围、红色（ $0.63$ - $0.69$ $\upmu$ m）和近红外（ $0.77$ - $0.89$ $\upmu$ m），图像分辨率为 $6800\times 7200$ 像素。由于高分辨率和宽幅相结合，GF-2 可以观测大地理区域的详细土地信息。

2.1.2打造50亿像素

50亿像素的创作完全依赖人类手工标注。为了最大限度地提高标签一致性并最大限度地减少人为错误，标注流程包含四个阶段：粗贴标、精细贴标、精细检查和抽查。

首先，参照《中国土地利用分类标准》(GB/T 21010-2017)确定50亿像素的类别体系，并根据情况调整类别。 4 m分辨率光学遥感图像识别研究. 在粗标记过程中，解读专家根据类别系统在每张 GF-2 图像上粗略地划定属于不同类别的区域。对于不确定的地区，可考虑Google Earth和Google Map相应地理坐标作为参考。然后将这些粗略注释传递给标记人员进行精细标记。标注人员使用Adobe Photoshop软件中的套索工具对地物进行框选，使标注图的边缘与地物的边缘能够严格重合；注释的一些细节如图2所示。精细检查包括两轮，即类别检查和边缘检查。解译专家仔细核对每个标签图的每个区域，并标记出不准确的类别或边缘，然后将其传递给标签人员进行更正。最后的抽查是将GF-2图像和相应的标签图切片成 $500\times 500$ 像素的块对，在该尺度下更容易发现错误，并将块对随机呈现给判读专家检查。检查结果交给标签人员修改，解读专家对修改后的结果进行下一轮抽查。在最后一轮抽查中，对50亿像素的10%样本进行了检查，未发现明显错误。

2.1.3 50亿像素的属性

丰富品类:50亿像素品类体系具体包括：工业区、城市住宅区、农村住宅、体育场馆、广场、道路、立交桥、火车站、机场0>、稻田1>、灌溉田2>、旱田3>、园地4>、乔木林5>、灌木林6>、公园7>、天然草甸8>、人工草甸6> t19>、河流0>、湖泊1>、池塘2>、鱼塘3>、雪4>、裸地5>。 极其难以注释的杂项或不清楚的区域被视为未标记。该类别系统涵盖了人工构建的、农业的和自然的类别，更接近于现实世界中地面物体的分布。值得注意的是，该类别体系包含了从GB/T 21010-2017中的土地覆盖类别细分出的多个土地利用类别，包括：体育场和广场来自公共服务用地；交通陆路的公路、立交桥、火车站、机场；人工非农业植被区的公园和人工草甸。旨在充分利用高分辨率图像的空间信息，丰富城市环境分析的应用场景。由于50亿像素主要采集自人类活动区域（城市、村庄、耕地、城市周边山区），因此类别体系涵盖了除红树林之外的所有土地类别>、苔原和永久冰。表1列出了属于每个类别的像素占所有标记像素的百分比。

表格1：属于每个类别的像素数的百分比。类别缩写定义为：Indu - 工业区、Urba - 城市住宅、Rura - 农村住宅、Stad - 体育场、Squa - 广场、Over - 立交桥、铁路 - 火车站、Airp - 机场、 Padd - 稻田，Irri - 灌溉田，Dryc - 旱田0>，Gard - 花园地1>，Arbo - 乔木林2>、Shru - 灌木林3>、Natu - 天然草甸4>、Arti - 人工草甸5>、Rive - 河流6>，鱼 - 鱼塘7>，裸露 - 裸地8>。 类别比例没有刻意控制，而是根据现实世界地物的分布进行标注。可以看出，50亿像素的品类分布非常不平衡。

Category	Indu	Urba	Rura	Stad	Squa	Road	Over	Rail	Airp	Padd	Irri	Dryc
Percent (%)	3.57	5.60	4.39	0.02	0.02	3.57	0.23	0.08	0.09	2.40	37.26	6.65
Category	Gard	Arbo	Shru	Park	Natu	Arti	Rive	Lake	Pond	Fish	Snow	Bare
Percent (%)	0.91	8.05	3.80	0.05	1.65	0.36	5.08	9.87	1.03	1.12	0.03	4.16

覆盖范围广:50亿像素中包含的150幅GF-2卫星图像总地理覆盖范围超过50,000公里²。在此基础上，超过 $5$ 十亿像素被仔细注释，可以为推进数据驱动方法的研究提供丰富的样本。

分布广泛:50亿像素的图像来源采集自中国60多个分散的行政区，如图1所示。由于地理分布广泛，50亿像素可以反映不同气候、海拔、地质条件下地貌的变化。

2.2研究领域和数据来源

2.2.1 中国特大城市

我们选择了五个地理环境、发展程度和城市结构不同的中国特大城市作为研究区域：北京、成都、广州、上海和武汉。

实时、大规模的土地覆盖测绘可能需要联合使用多个传感器捕获的图像；因此，分类方法适应不同的传感器具有重要意义。基于这种考虑，我们利用三个不同传感器的图像构建了我们的研究区域，如图3所示。

具体来说，北京的研究数据是由2020年11月8日至2021年10月21日期间获取的9张ST-2图像镶嵌而成。成都的数据由2019年1月13日至2019年12月31日期间拍摄的205张PS图像拼接而成。广州的数据由2021年2月18日至2021年10月26日期间收集的3张ST-2图像拼接而成。上海的数据由2019年4月1日至2019年12月13日期间获取的149张PS图像拼接而成。武汉的数据是由2016年3月28日至2016年7月25日期间拍摄的22张GF-1图像拼接而成。

不同传感器获取的图像存在很大的异质性。而且，由于云遮蔽、测绘带宽度和重访周期的影响，需要利用不同季节和光照条件下拍摄的影像，拼接出每个城市的完整影像地图。因此，不仅数据源之间存在显着差异，而且每个城市内部的图像之间也存在分布变化，如图4所示。

2.2.2 其他亚洲城市

为了验证我们的方法对世界不同地区的适用性，我们选择了五个亚洲国家的六个城市作为研究区域：泰国曼谷；印度德里；缅甸内比都；韩国首尔；日本东京;以及缅甸仰光，如图5所示。

这些亚洲城市的土地覆盖测绘所使用的数据源是 ST-2 卫星图像。曼谷、德里、内比都、首尔、东京和仰光的图像分别拍摄于2022年1月6日； 2022 年 3 月 5 日； 2022 年 2 月 1 日； 2022 年 5 月 17 日； 2021 年 2 月 21 日；以及 2022 年 1 月 7 日。

可以看出，虽然我们把“城市”作为研究对象，但我们的实验区实际上还包含了除建筑之外的其他类型的景观。对于中国特大城市，其行政区域覆盖大片农田和森林，而对于其他亚洲城市，我们对整个图像进行分类，即包括行政区域之外的周边地区。因此，这些研究领域可以测试城市、乡村、农业和山区场景分类方法的性能。

2.2.3 数据来源

PlanetScope：PS 是由美国行星实验室运营的约 130 个立方体卫星组成的卫星星座。其传感器可捕捉蓝色（ $0.46$ - $0.52$ $\upmu$ m）、绿色（ $0.50$ - $0.59$ $\upmu$ m）、红色（ $0.59$ - $0.67$ $\upmu$ m）波段的 MS 图像、和近红外（ $0.78$ - $0.86$ $\upmu$ m）波段，空间分辨率为 $3.7$ - $4.1$ m，数据发布时重新采样至约 $3$ m。

高分一号：高分一号是中国提出的HDEOS第一颗卫星。它配置有两个 PMS，提供 $2$ m pan/ $8$ m MS 的空间分辨率和超过 $60$ km 的组合测绘带。我们研究中使用的 MS 图像覆盖了蓝色（ $0.45$ - $0.52$ $\upmu$ m）、绿色（ $0.52$ - $0.59$ $\upmu$ m）、红色（ $0.63$ - $0.69$ $\upmu$ m）和近红外（ $0.77$ - $0.89$ $\upmu$ m）光谱范围。

Sentinel-2：ST-2 是欧盟哥白尼计划的地球观测任务。它目前由两颗卫星组成的星座：Sentinel-2A 和 Sentinel-2B，提供 13 个光谱带和 $290$ 公里视场。蓝色（中心波长 $0.49$ $\upmu$ m）、绿色（中心波长 $0.56$ $\upmu$ m）、红色（中心波长 $0.66$ $\upmu$ m）和近红外（中心波长 $0.83$ $\upmu$ m）波段，分辨率为 $10$ m在我们的研究中使用。由于免费、开放的数据政策以及空间和光谱分辨率的优势，ST-2 成为近期土地覆盖制图研究最常用的数据源之一[60,61,62]。

2.2.4测试区域

由于研究区域过大，不可能对每张测试图像进行密集注释以进行定量评估。因此，我们采用两种标注策略，稀疏标记和密集标记。具体来说，稀疏标注是在每个城市的每张图像上均匀地标注小多边形，密集标注是对每个城市的子区域进行密集标注。对于密集标记策略，每个中国大城市都标记有两个 $1000\times 1000$ 像素的子区域，并且每个额外的亚洲城市自其行政区以来都标记有 $500\times 500$ 像素的子区域较小，如图6所示。

表2：中国大城市测试区域中属于每一类的像素数的百分比。稀疏标签包含

5.21\times 10^{7}

像素，密集标签包含

7.77\times 10^{6}

像素。

Category	Indu	Urba	Rura	Stad	Squa	Road	Over	Rail	Airp	Padd	Irri	Dryc
Sparse (%)	7.04	5.49	2.93	1.02	0.50	11.25	2.66	2.25	1.96	1.89	18.11	1.50
Dense (%)	9.36	35.00	8.51	0.09	0.07	6.80	0.50	0.15	0.28	8.53	13.82	0.07
Category	Gard	Arbo	Shru	Park	Natu	Arti	Rive	Lake	Pond	Fish	Snow	Bare
Sparse (%)	3.44	6.45	0.45	2.28	1.41	0.65	14.47	7.47	1.34	1.64	0.61	3.16
Dense (%)	0.34	2.58	0.08	1.23	0.07	0.37	5.64	0.72	0.53	4.72	0	0.56

表3：各类别在新增亚洲城市测试区中所占的百分比。稀疏标签包含

2.40\times 10^{6}

像素，密集标签包含

1.29\times 10^{6}

像素。

Category	Indu	Urba	Rura	Stad	Squa	Road	Over	Rail	Airp	Padd	Irri	Dryc
Sparse (%)	5.81	3.89	11.56	0.29	0.35	4.75	0.94	0.69	1.20	5.72	31.39	0.19
Dense (%)	5.47	6.91	44.32	0	0	5.21	0.42	0.10	0.60	6.92	20.68	0
Category	Gard	Arbo	Shru	Park	Natu	Arti	Rive	Lake	Pond	Fish	Snow	Bare
Sparse (%)	2.23	12.05	0.97	0.39	0.07	0.33	7.46	4.56	2.39	0.25	0.24	2.26
Dense (%)	0.25	5.16	0.27	0	0	0.05	3.15	0	0.17	0	0	0.32

总共，中国五个特大城市采用 $5.21\times 10^{7}$ 像素稀疏标注， $7.77\times 10^{6}$ 像素密集标注，各类别在测试区域中所占的百分比如表2.

新增的亚洲城市分别采用稀疏标记，总共 $2.40\times 10^{6}$ 个像素，密集标记，总共 $1.29\times 10^{6}$ 个像素，测试区域中各类别所占比例如表3。

稀疏标签覆盖了所有类别，可以用来评估整张图像的分类性能。并且可以利用密集标签来验证局部区域分类结果的精细度。请注意，这些注释仅用于准确性评估，而不用于模型训练。

3方法论

为了将从标记数据集中学到的知识应用于大范围区域的土地覆盖制图，我们提出了一种 UDA 方法，该方法可以通过自适应学习未标记数据的分布来软校正域偏移。我们将两个域称为，源域为 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ ，目标域为 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ ，代表50亿像素数据集和使用的未注释图像分别用于土地覆盖绘图。

首先，我们利用 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 来预训练语义分割模型，这在3.1节中介绍。随后，我们以预训练的语义分割模型为骨干构建Siamese网络，其中两个相同的分支分别处理 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 和 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 的图像。在 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 分支中，选择一小部分置信度较高的图像像素，然后用于与 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 分支进行域联合学习，具体描述见3.2.

3.1土地覆盖分类的语义分割模型

基于深度学习的土地覆盖分类有两种通用策略：基于 DCNN 的面向对象方法和基于端到端 DCNN 的语义分割方法。前者利用 DCNN 以固定大小的 patch 形式处理图像，然后用浅层分类器区分深层特征或直接利用 DCNN 的类别预测，基于对象空间单元进行分类[25, 1 , 26, 19]。相比之下，语义分割模型可以以端到端、像素到像素的方式预测任意大小图像的密集分类图[63,64,65]。

最新的语义分割模型通常由两个主要路径组成：逐渐减小特征图大小并捕获更高级别信息的编码器路径，以及逐渐恢复空间分辨率以及清晰的对象边界的解码器路径[66]. 在我们的工作中，我们采用 U-Net [67] 作为土地覆盖分类和域适应的骨干。值得注意的是，U-Net特地利用特征图的跳跃连接实现了各个相应编码和解码阶段的级联，如图7所示，从而保留了输入图像的更多原始信息并添加到解码路径中。这种设计有助于补偿编码路径中的信息损失，这对于严重依赖光谱信息的卫星图像分类具有重要意义。

为了使U-Net能够处理MS遥感图像，我们将其输入的通道数调整为4，即将其第一个卷积层的内核大小从 $3\times 3\times 3$ 更改为 $3\times 3\times 4$ 。此外，我们根据我们的类别系统调整其输出特征图的通道数，即将其最后一个卷积层的内核数设置为24。

3.2 用于无监督域适应的域联合学习

要使 DCNN 适应新领域，没有比提供其特征分布示例[18]更好的方法。面对没有标注信息的 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ ，我们受到伪标签 [68, 19] 的启发，提出了一种 UDA 方法，从 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 中收集可靠的像素级示例t2> 用于模型适配。与基于差异和基于对抗性的 UDA 方法（强制两个分布在特征空间中对齐）相比，伪标签更灵活，并且对于复杂的现实情况可能更可靠。

为了防止 DCNN 偏向不正确的伪标签或简单样本类别，我们的方法引入了 Siamese 网络（第 3.2.1 节）来收集伪标签，其数量随着训练迭代而动态增加（第 3.2.2 节）。这些伪标签用于与 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 中的真实标签联合训练，并根据 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 的类别分布对联合分类损失进行加权（第3.2.3)。

3.2.1 连体网络

为了避免在训练中引入错误的类别信息，在域联合学习的初始迭代中仅使用极少量的伪标签，这导致两个问题：（1） $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 只能提供非常少的伪标签。开始时的训练样本很少； (2)从 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 中选出的样本可能是极其同质的。因此，为了确保 DCNN 的参数在每次训练迭代时得到有效更新，我们在 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 上预训练 U-Net，并将其作为骨干构建 Siamese 网络。 Siamese 网络有两个分支，每个分支都有一个输入和一个输出[59]。这两个分支具有相同的架构，并在初始化和训练期间共享相同的参数，这使得 Siamese 网络能够同时从两个分布中学习信息，如图7所示。

形式上，给定 $\textbf{\emph{D}}_{\textbf{\emph{S}}}\subset\mathbb{R}^{H\times W\times 4}$ 以及关联的标签 $L_{\textbf{\emph{S}}}\subset[1,K]^{H\times W}$ 和未标记的 $\textbf{\emph{D}}_{\textbf{\emph{T}}}\subset\mathbb{R}^{H\times W\times 4}$ ，其中 $H\times W$ 表示图像和标签映射的大小， $K$ 是类的总数。 Siamese网络的两个分支分别获取图像 $x_{\textbf{\emph{S}}}\in\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 和 $x_{\textbf{\emph{T}}}\in\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 并预测 $K$ 维特征图 $F_{x_{\textbf{\emph{S}}}}\in\mathbb{R}^{H\times W\times K}$ 和 $F_{x_{\textbf{\emph{T}}}}\in\mathbb{R}^{H\times W\times K}$ .

3.2.2 动态伪标签分配

与现有的伪标记方法根据经验选择阈值[17, 58]或为样本集合设置固定比例[56,55,19]不同，我们分配伪标记- 不同训练时期动态数量的样本的标签，如图8所示。采用香农熵[17]作为我们的指标来量化每个图像像素的置信度。信息熵越低代表分类置信度越高。在 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 分支中，熵图 $E_{x_{\textbf{\emph{T}}}}\in\mathbb{R}^{H\times W}$ 计算为

E_{x_{\textbf{\emph{T}}}}^{(h,w)}=\frac{-1}{\log(K)}\sum_{k=1}^{K}F_{x_{\textbf{\emph{T}}}}^{(h,w,k)}\log(F_{x_{\textbf{\emph{T}}}}^{(h,w,k)}),

(1)

其中 $E_{x_{\textbf{\emph{T}}}}^{(h,w)}\in[0,1]$ 是像素 $(h,w)$ 处 $E_{x_{\textbf{\emph{T}}}}$ 的值。

我们按升序排列熵图中 $E_{x_{\textbf{\emph{T}}}}$ 中的所有像素，并选择前 $N$ 像素，其中

N=\lambda\cdot H\cdot W\frac{n_{e}}{N_{e}},

(2)

其中 $n_{e}$ 表示当前训练是第 $n_{e}$ epoch， $N_{e}$ 是epoch总数，使用 $\lambda$ 控制伪标签的整体大小。训练结束时，所选像素占 $x_{\textbf{\emph{T}}}$ 所有像素的比例为 $\lambda$ 。

这种设计的直观解释是，当网络不适应 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 时，它可能只对少量像素给出可靠的预测，并且随着网络逐渐学习 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 的分布>，它可以对越来越多的像素做出可靠的预测。

对于选定的位于 $(h,w)$ 处的像素，使用softmax函数得到其类别概率向量：

P_{x_{\textbf{\emph{T}}}}^{(h,w)}=\frac{\exp(F_{x_{\textbf{\emph{T}}}}^{(h,w)})}{\sum_{k=1}^{K}\exp(F_{x_{\textbf{\emph{T}}}}^{(h,w,k)})},

(3)

其中 $F_{x_{\textbf{\emph{T}}}}^{(h,w)}\in\mathbb{R}^{K}$ 是位于 $(h,w)$ 和 $P_{x_{\textbf{\emph{T}}}}^{(h,w)}\in\mathbb{R}^{K}$ 处的像素的特征向量，其中第 $k$ 元素表示该像素的概率像素属于类 $k$ 。

它的伪标签被指定为

l^{(h,w)}=\mathop{\arg\max}_{k\in\left\{1,\cdots,K\right\}}P_{x_{\textbf{\emph{T}}}}^{(h,w,k)},

(4)

其中 $l^{(h,w)}\in\left\{1,\cdots,K\right\}$ 。

3.2.3 类平衡域联合训练

类平衡是语义分割模型训练的常用策略[69]，但在UDA方法中很少使用，因为目标域中的类别信息未知。由于我们为 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 分配了伪标签，因此可以通过该策略减少由于类别不平衡而导致的分布偏差。

对于 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ ，我们统计每个类别中的像素数与所有标记像素数的比率。假设类 $k$ 的比例为 $\mu_{k}$ ，则其权重为

W_{k}=\frac{1}{\log(1+\mu_{k})}.

(5)

那么 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 分支的损失函数计算为

\mathcal{L}oss_{\textbf{\emph{D}}_{\textbf{\emph{T}}}}=\sum_{n=1}^{N}W_{l^{n}}\mathcal{F}_{CE}(l^{n},P_{x_{\textbf{\emph{T}}}}^{n}),

(6)

其中 $\mathcal{F}_{CE}(\cdot)$ 是交叉熵损失函数， $l^{n}$ 和 $P_{x_{\textbf{\emph{T}}}}^{n}$ 表示第 $n$ 的伪标签和类别概率向量分别从 $x_{\textbf{\emph{T}}}$ 中选择的像素。

如果伪标签存在错误，那么少量的错误最终可能会导致迭代训练过程中产生较大的偏差。当逐渐学习 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 的分布时，为了保持网络对真实标签的辨别力，我们采用 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 分支和 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 的联合学习分支。暹罗网络的总体损失函数为

\mathcal{L}oss=\mathcal{L}oss_{\textbf{\emph{D}}_{\textbf{\emph{S}}}}+\mathcal{L}oss_{\textbf{\emph{D}}_{\textbf{\emph{T}}}},

(7)

其中 $\mathcal{L}oss_{\textbf{\emph{D}}_{\textbf{\emph{S}}}}$ 由 $x_{\textbf{\emph{S}}}$ 的所有像素计算，并且还应用了类平衡加权。

当 Siamese 网络训练完成后，推理阶段仅在其中一个分支上进行前向传播。

4实验

我们的实验包括两部分：（1）为了探索不同土地覆盖分类方法的性能，我们提供了三种代表性算法的50亿像素基准，包括基于面向对象的分类光谱空间特征、基于深度学习的面向对象分类、基于深度学习的语义分割； (2) 为了验证所提出的 UDA 方法的有效性，我们使用来自三个不同传感器的图像对 11 个城市进行了实际的土地覆盖绘图。 4.1节介绍了实现细节、比较方法和评估指标。 4.2 节介绍了50 亿像素 的基准。 4.3节介绍了土地覆盖测绘的结果。

4.1 实验设置

4.1.1 50 亿像素基准设置

数据处理：由于面向对象方法和语义分割方法对训练数据的要求不同，即面向对象方法只允许每个输入样本有一个标签，而语义分割方法则需要一个标签输入样本的每个像素，我们为它们准备不同的训练数据。 50亿像素数据集被随机分为120张图像的训练集和30张图像的测试集。对于两种类型的面向对象方法，我们使用具有多个尺度的图像块[19]来训练模型。补丁比例设置为最佳值。具体来说，大小为 $64\times 64$ 和 $128\times 128$ 像素的补丁是从训练集的图像中随机采样的。如果一个 patch 中超过 $80\%$ 个像素被同一类别覆盖，则该 patch 被视为训练样本。 $64\times 64$ 像素块的数量与 $128\times 128$ 像素块的数量的比率为 $3:1$ 。特别是，对于road，所有补丁的大小都是 $32\times 32$ 像素。为了平衡类别，我们控制属于每个类别的补丁的比例。总共随机选择了 130,000 个多尺度 patch 进行模型训练。对于语义分割方法，原始大图像被裁剪成大小为 $512\times 512$ 像素的图像块，用于模型训练。为了提高训练效率，我们只使用超过 $50\%$ 注释且包含两个或更多类别的图块。从 120 张训练图像中随机选择总共 40,000 个图块。

基线方法：对于基于光谱空间特征的面向对象分类，我们采用多特征融合策略来聚合光谱特征和灰度共生矩阵（GLCM）[70] 通过标准化和向量串联。使用多层感知器（MLP）和随机森林（RF）作为分类器。采用选择性搜索[71]进行对象空间单元分割。这些方法的参数被设置为最优值。 GLCM 的窗口大小为 $7\times 7$ 像素。 MLP 有 4 个隐藏层，每层 20 个节点。 RF 的树数量为 500 棵。用于选择性搜索的初始分割大小为 400 像素。分类器使用图像块进行训练，用于以对象为单位对测试图像进行分类。

对于基于深度学习的面向对象分类，我们采用了两种代表性的 DCNN：GoogLeNet [72] 和 ResNet-101 [73]。两个模型都使用相同的超参数进行训练。 epoch数为120，batch size为256，动量值为0.9，权重衰减为 $10^{-4}$ 。初始学习率为 0.1，每 30 个 epoch 之后除以 10。在训练中，图像块在输入到模型之前统一调整为 $224\times 224$ 像素，并且 $20\%$ 块用于模型验证。采用图像增强策略。在测试阶段，使用选择性搜索进行对象分割，初始分割大小为400像素。测试图像以 $64\times 64$ 像素块为单位进行分类，然后通过投票策略[19]将块级分类图和对象级分割图结合起来。

对于基于深度学习的语义分割，我们利用U-Net [67]和DeepLabv3+ [66]作为基线模型。 DeepLabv3+ 选择的主干网是在50 亿像素上预训练的 ResNet-101。 DeepLabv3+的out stride设置为16。 U-Net的权重是随机初始化的。两个模型都是在相同条件下训练的。 epoch数为120，batch size为32，动量值为0.9，权重衰减为 $10^{-5}$ 。初始学习率为0.05，使用poly学习策略[74]来调整epoch期间的学习率。在损失函数中，忽略未标记区域，并根据表1实现类平衡加权。在训练过程中，会随机选择 $20\%$ 个图块进行模型验证。采用图像增强策略。在测试阶段，模型直接以 $512\times 512$ 像素瓦片为单位分割测试图像，并使用重叠瓦片策略[67]来防止边框中上下文丢失瓦片区域，其中重叠率设置为 $50\%$ 。

评估指标：我们通过总体准确度 (OA)、平均 F1 分数 (mF1)、平均交并集 (mIOU) 和用户准确度 (UA) 来评估实验结果。 mF1 是 F1 分数的类别平均值。 mIOU 是并集交集（IOU）的类别均值，IOU 是通过将预测与真值的交集除以它们的并集[69]得到的。 mF1 和 mIOU 描述了模型最小化每个类别的高估和低估的能力。 UA 表示模型在减少高估方面的性能[75]。

4.1.2 土地覆盖图设置

数据处理：为了使深度模型适应不同分辨率的卫星图像，我们使用50亿像素构建了多尺度源域。根据多个数据源的空间分辨率，从 GF-2 中随机裁剪出不同大小的图像图块，包括 $512\times 512$ 、 $1024\times 1024$ （对于 GF-1）和 $1280\times 1280$ （对于 ST-2）像素，然后统一调整为 $512\times 512$ 像素。由于 PS 的 $3$ m 分辨率是通过对原始数据重采样得到的，其有效空间分辨率为 $3.7$ - $4.1$ m，因此我们使用原始图像分辨率GF-2来适应它。源域中的图块总数为 12,800，三种尺寸的比例为 $2:1:1$ 。

我们为每个目标城市准备一个数据域。原始卫星图像被裁剪成大小为 $512\times 512$ 像素的不重叠的图块。特别地，PS图像在裁剪之前被调整为原始图像分辨率的 $3/4$ ，相当于将其空间分辨率恢复为 $4$ 米。北京、成都、广州、上海和武汉的目标域分别由4126个ST-2图像瓦片、4144个PS图像瓦片、1398个ST-2图像瓦片、3117个PS图像瓦片和1764个GF-1图像瓦片组成。曼谷、德里、内比都、首尔、东京、日本和缅甸的目标域分别包含 441 个 ST-2 图像块。

比较方法：我们将我们的方法与最近领先且具有代表性的 UDA 方法进行比较：AdaptSeg [54]、AdvEnt [76]、CLAN [77]和FADA [78]，其中AdaptSeg和CLAN是基于对抗性的域对齐方法，而AdvEnt和FADA结合了对抗性域对齐和伪标签学习。具体来说，AdaptSeg 结合了分割模型不同特征级别的对抗性学习； CLAN 将每个类与自适应对抗性损失对齐，以强制局部语义一致性； AdvEnt利用对抗性损失和伪标签损失最小化目标域的预测熵； FADA根据伪标签的类别信息实现细粒度的类别级特征对齐。 U-Net 用作这些比较方法的生成器。我们还通过添加损失函数来测试这些方法和动态伪标签分配方法的组合。此外，基线方法仅使用源域进行 U-Net 训练。

U-Net 使用在 50 亿像素 上训练的网络参数进行初始化（请参阅第 4.1.1 节）。对于我们的方法，源分支和目标分支的批量大小均为 16（总共 32）。对于比较方法，批量大小为 32。这是因为我们的方法同时输入源数据和目标数据，而比较方法交替输入源数据和目标数据。我们方法的初始学习率为 0.001。对于比较方法，生成器和判别器的初始学习率分别为 0.001 和 0.0001。对于所有方法，epoch数为100，动量为0.9，权重衰减为 $10^{-5}$ ，并且使用poly学习策略来调整epoch期间的学习率。采用图像增强策略。并根据表1实现类平衡加权。对于我们的方法， $\lambda$ （参见第 3.2.2 节）根据经验设置为 0.5。

为了防止不同目标域相互干扰，我们为每个城市单独训练一个模型。由于源域的瓦片数量远大于目标域的瓦片数量，因此在训练的每个时期，从源域中随机选择与目标域数量相同的瓦片。这会导致每个时期都有不同的子源域，从而允许模型从目标域中选择具有多样性的像素。

4.250亿像素基准

表 4 中列出了50 亿像素 的基线结果。可以看出，与基于光谱空间特征和浅层分类器的方法相比，基于深度学习的方法带来了巨大的性能裕度。这说明传统方法对于具有复杂空间信息的高分辨率图像缺乏判别能力。

表 4： 50 亿像素 基准。类别缩写定义为：Indu - 工业区、Urba - 城市住宅、Rura - 农村住宅、Stad - 体育场、Squa - 广场、Over - 立交桥、铁路 - 火车站、Airp - 机场、 Padd - 稻田，Irri - 灌溉田，Dryc - 旱田0>，Gard - 花园地1>，Arbo - 乔木林2>、Shru - 灌木林3>、Natu - 天然草甸4>、Arti - 人工草甸5>、Rive - 河流6>，鱼 - 鱼塘7>，裸露 - 裸地8>。 准确度结果以百分比值 (

\%

) 表示。

Method	OA	mF1	mIOU	UA:	Indu	Urba	Rura	Stad	Squa	Road	Over	Rail	Airp	Padd
MLP+Fusion	23.89	15.81	9.78		48.49	38.58	13.69	0	0	9.27	0.76	0	0	22.90
RF+Fusion	27.40	17.16	10.23		38.36	23.30	11.99	0.65	0.41	10.39	0.80	0.05	3.13	22.21
GoogLeNet	69.19	39.70	28.99		51.07	66.68	71.95	78.30	8.54	37.87	14.35	15.70	34.92	47.58
ResNet101	69.55	45.73	33.59		58.44	69.22	70.89	82.55	8.93	42.70	12.20	27.32	54.05	50.71
DeepLabv3+	79.87	54.84	42.12		76.87	74.89	79.80	86.36	18.11	82.59	58.50	56.16	24.40	64.53
U-Net	80.35	57.34	44.51		80.72	83.88	85.73	47.32	15.68	84.15	43.68	41.28	34.43	74.34
	Irri	Dryc	Gard	Arbo	Shru	Park	Natu	Arti	Rive	Lake	Pond	Fish	Snow	Bare
MLP+Fusion	47.11	20.85	6.44	54.01	0.58	0	33.21	2.51	52.99	73.68	5.91	22.35	0.13	0
RF+Fusion	59.05	29.21	2.61	58.53	0.43	0	37.22	3.65	44.96	65.04	7.88	31.98	4.50	21.47
GoogLeNet	85.25	77.70	10.29	82.88	12.89	18.14	64.47	51.88	72.53	71.60	9.89	55.53	0	71.78
ResNet101	87.45	79.20	14.23	86.61	17.08	18.40	69.77	64.59	67.01	69.28	9.45	59.41	52.44	78.47
DeepLabv3+	87.80	79.18	14.40	94.38	19.80	56.49	81.75	81.00	91.71	75.12	21.23	76.13	86.60	90.57
U-Net	88.86	81.30	38.05	95.42	25.39	42.92	87.10	68.66	63.58	70.48	21.89	78.75	35.83	96.17

在基于深度学习的方法中，语义分割模型（U-Net 和 DeepLabv3+）显着优于面向对象的方法（ResNet101 和 GoogLeNet）。这是因为语义分割模型可以捕获更大区域的上下文信息，同时通过为每个像素分配标签来保持地面物体更准确的边缘。深度学习，尤其是语义分割模型的性能优势，证明了大规模、逐像素注释数据集对于推进土地覆盖分类研究的重要性。

ResNet101 总体表现优于 GoogLeNet，在火车站、机场、灌木林、天然草甸 上都有明显优于 GoogLeNet 的结果>、和人工草甸。由于残差连接结构[73]能够组合不同级别的特征，ResNet101可以学习低级特征来区分自然类，以及高级特征来识别具有复杂性的人造建筑物结构。

DeepLabv3+对城市功能区取得了最佳效果，包括体育场、广场、立交桥、火车站、公园、人工草地，空间结构复杂。由于DeepLabv3+采用了空洞卷积[79]和空间金字塔池化[66]，它可以捕获这些类别的多级上下文信息。 U-Net 在工业区、城市住宅、农村住宅、不同农业和不同森林类别上表现最佳。这些类别的识别很大程度上依赖于纹理和光谱信息。 U-Net对它们具有更强的判别能力，因为它通过级联结构[67]保留了更多的原始图像信息。

另一个值得注意的问题是，无论哪种方法类型，不同类别的性能差异都很大。例如，所有方法在广场、立交桥、火车站、机场、花园上表现不佳、公园和池塘。这是由于两个因素造成的，首先，这些类别在50亿像素数据集中只占很小的百分比，其次，它们本质上更容易与其他类别混淆。与住宅和农业类别相比，这些类别在城市中覆盖的区域要小得多，并且模型在训练中将偏向于普通和简单的类别。此外，这些类别的显着特征是它们由多种基本地被类型组成；例如，火车站包含多条轨道和类似体育场的建筑屋顶，公园包含草地和树林，机场包含道路和草坪，导致它们很容易被错误分类到其他类别。这就是为什么即使我们在面向对象的方法中控制不同类别的比例一致（参见第4.1.1节），其准确性仍然无法提高。

为了更直观地展示结果，图9中显示了一组土地覆盖分类图。 MLP+Fusion 可以识别一些水域，RF+Fusion 可以识别一些水域、建筑和稻田区域，但地图的其余部分非常混乱。 GoogLeNet和ResNet101未能提取道路并将稻田错误分类为鱼塘。相比之下，DeepLabv3+和U-Net可以分割清晰的道路网络和不同的建成区。 DeepLabv3+ 在河流上的表现比 U-Net 更好。而U-Net可以更准确地识别湖泊和灌溉田。

4.3 土地覆盖测绘

4.3.1中国特大城市的实验结果

中国五个大城市的土地覆盖图如图10所示。尽管使用了来自不同传感器的图像，并且没有注释信息，但我们的方法能够区分市中心的工业区、城市住宅区、农村住宅分散在每个城市的郊区、交通网络和河流系统中。广州沿海的鱼塘和武汉郊区的稻田均被正确识别。森林覆盖的山脉和马赛克边界处会出现明显的错误。北京周边的小片山区被错误地归类为水体，成都周边的部分山区被错误地归类为灌溉田。这是由于不同图像源和不同成像条件导致严重的光谱偏移造成的。与人工构建的类别不同，自然类别的分类更多地依赖于光谱信息。当谱偏移特别显着时，伪标签不可避免地包含错误，这些错误将在迭代域适应学习中不断累积。

表5展示了基于不同测试策略的定量评估结果。可以看出，在OA中，稠密标签的结果普遍优于稀疏标签，而在mF1和mIOU中，稀疏标签优于稠密标签。这是因为 mF1 和 mIOU 对高估和低估（即地面物体的边缘）更敏感。稀疏标签仅标记地物的部分，而密集标签严格勾勒出地物的边缘，这导致密集标签上的 mF1 和 mIOU 结果较差。而OA是整个测试区域的准确率，均匀分布在整个图像上的稀疏标签包含更多难以识别的区域，例如城市功能区复杂，OA值较低。更多分类细节如图11所示。我们的方法在不同的建筑、交通和农业类别以及河流和裸地上取得了良好的性能。

表 5：基于稀疏标签和密集标签的中国五个特大城市土地覆盖图定量评价准确度结果以百分比值 (

\%

) 表示。

Megacity	Sparse Label			Dense Label
	OA	mF1	mIOU	OA	mF1	mIOU
Beijing	70.86	49.76	39.72	87.45	42.43	33.02
Chengdu	71.21	51.06	39.70	76.64	35.99	26.03
Guangzhou	71.23	48.56	39.52	81.97	46.25	38.09
Shanghai	74.80	56.84	44.19	74.70	48.22	39.50
Wuhan	82.29	63.12	52.59	85.62	61.06	50.14

表6显示了不同UDA方法的定量评估，其中所有精度结果是五个特大城市的平均值。可以看出，多尺度GF-2图像瓦片构建的 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 与使用单尺度瓦片预训练的U-Net相比带来了显着的改进。这表明利用多尺度源域数据使模型适应不同空间分辨率的图像是可行的。与基线（仅 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ )相比，AdaptSeg、AdvEnt 和 CLAN 的性能有所下降。这是由于源域和目标域的复杂特征分布引起的负适应。此外， $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 的大小远大于 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 的大小，并且每个训练epoch使用不同的子源域（参见第4.1.2节） >)，给基于域分布对齐的 UDA 方法带来更多混乱。 FADA 比其他比较方法表现更好，因为 FADA 对齐中间级特征而不是深层像素级特征，从而避免了严格的全局匹配。此外，FADA根据伪标签的类别信息实现细粒度的类级特征对齐，从而缓解类别不平衡带来的负适应。这些方法和伪标签分配的结合提高了准确性，但在所有评估结果中均不如我们的方法，这表明伪标签不足以补偿域分布对齐引起的负适应。

表 6：与近期针对中国特大城市的领先 UDA 方法进行比较。 “预训练”是指 U-Net 使用单尺度 GF-2 图像块进行预训练，PS 图像为此策略保留原始尺度。 “

\textbf{\emph{D}}_{\textbf{\emph{S}}}

-only”是基线，表示仅使用多尺度

\textbf{\emph{D}}_{\textbf{\emph{S}}}

来训练Siamese网络。 “DPA”表示动态伪标签分配。准确度结果是五个特大城市的平均值，并以百分比值 (

\%

) 表示。

Method	Sparse Label			Dense Label
	OA	mF1	mIOU	OA	mF1	mIOU
Pre-trained	70.56	46.33	37.64	75.42	38.93	28.25
$\textbf{\emph{D}}_{\textbf{\emph{S}}}$ -only	72.65	49.95	40.01	78.19	42.31	32.55
AdaptSeg	67.18	42.28	31.18	73.00	36.96	26.82
AdaptSeg+DPA	70.91	46.90	33.92	76.80	39.18	28.90
AdvEnt	64.51	41.50	30.49	75.18	35.29	26.49
AdvEnt+DPA	68.69	45.42	32.51	76.85	38.58	28.62
CLAN	65.05	42.18	31.07	72.92	35.71	26.74
CLAN+DPA	69.68	45.65	32.84	75.99	38.57	28.49
FADA	69.83	50.86	39.57	78.64	41.85	33.68
FADA+DPA	73.95	53.15	41.03	81.23	45.26	36.33
Ours (DPA)	74.08	53.87	43.14	81.28	46.79	37.36

图12详细说明了不同UDA方法获得的结果。在这里，我们展示了 AdaptSeg、AdvEnt、CLAN 和 FADA 与伪标记相结合的性能，其表现比单独使用这些方法更好。在北京和成都，比较方法在建成区丢失了良好的道路和河流。而在广州，比较方法将鱼塘错误地分类为河流、池塘和灌溉田。这是因为这些错误分类的类别不太常见，并且基于对抗性的方法以全局方式匹配域分布，导致对齐的特征空间倾向于优先考虑样本量较大的类别。在上海和武汉，裸地、道路、花园地和水田的结果显着改善通过我们的方法与基线进行比较。这表明我们的方法可以学习目标域的信息，同时保持识别两个域的分布的能力。在成都，我们的方法将公园错误分类为池塘和花园土地，它们是公园包含的地面物体。这可能是因为像素中的伪标签很难捕获上下文信息，并且适应的模型更偏向于局部区域的类别。此外，可以看出，对于不同的城市，我们的方法相对于基线的改进是不同的，这是由特征分布和类别分布的差异引起的。当目标域和源域的特征截然不同时，伪标签在域联合中更“有价值”，可以更显着地提高模型到目标域的可迁移性。而且当测试区域的类别分布非常不平衡时，硬样本的伪标签也能带来更大的性能提升。

4.3.2其他亚洲城市的实验结果

图13显示了另外六个亚洲城市的土地覆盖测绘结果。其中，这里的“农村住宅”是指低层住宅，“城市住宅”是指高层住宅。尽管这组实验的目标域和源域位于不同的国家，具有不同的地理环境和城市景观，但取得了可喜的结果。正确识别了位于曼谷和仰光郊区的稻田和花园地，准确提取了分布在德里周边的农村居民区，并准确提取了首尔和东京的密集建筑区有明显区别。水体中存在明显错误，湖泊和河流严重混淆。内比都的部分乔木林被错误分类为灌溉田。另外，road的提取结果比中国城市的提取结果精细度要低得多。

表 7：与最近在另外六个亚洲城市采用的领先 UDA 方法进行比较。 “

\textbf{\emph{D}}_{\textbf{\emph{S}}}

-only”是基线，表示仅使用多尺度

\textbf{\emph{D}}_{\textbf{\emph{S}}}

来训练Siamese网络。 “DPA”表示动态伪标签分配。准确度结果是六个城市的平均值，并以百分比值 (

\%

) 表示。

Method	Sparse Label			Dense Label
	OA	mF1	mIOU	OA	mF1	mIOU
$\textbf{\emph{D}}_{\textbf{\emph{S}}}$ -only	79.59	48.35	37.81	76.23	50.98	38.75
AdaptSeg	61.19	26.02	18.23	58.58	30.23	20.61
AdaptSeg+DPA	64.46	32.35	19.21	60.80	34.94	22.37
AdvEnt	61.30	26.61	17.64	60.35	31.37	21.58
AdvEnt+DPA	63.94	30.73	19.58	62.23	35.28	22.85
CLAN	62.70	25.85	17.91	58.98	30.33	20.77
CLAN+DPA	64.66	31.27	19.20	61.08	34.35	22.38
FADA	68.43	42.39	32.95	77.62	40.46	32.81
FADA+DPA	70.86	46.84	35.74	79.21	43.50	34.35
Ours (DPA)	81.14	51.20	40.81	80.85	55.33	43.99

土地覆盖测绘的定量评价如表7所示，其中所有精度结果为六个城市的平均值。与基线相比，我们的方法明显提高了性能，这表明我们的方法即使对于非常不同的地理区域也可以挖掘可靠的伪标签。在这六个城市中，比较方法与我们的方法之间的性能差距比中国特大城市更大。这是因为在这种情况下，源域和目标域的特征分布更加不同，基于对抗的方法更难在两个分布之间找到合适的匹配，并且模型中引入了更多的域内方差通过刚性对齐。另一个现象是稀疏标签和密集标签的结果通常具有可比性。造成这种现象的原因有两个，一方面是ST-2的空间分辨率低于PS和GF-1，并且在groundtruth和结果中都无法呈现非常精细的边缘。另一方面，较容易分类的农业和自然类别在这6个城市中所占的总面积较大，而位于试验区的复杂城市功能类别较少。因此，稀疏标签和密集标签都无法拉开整体精度和边缘精度之间的差距。

更多细节如图14所示，我们的方法改进了曼谷稻田、德里火车站、的结果内比都的灌溉田、首尔的乔木林、东京的工业区以及仰光的机场。然而，尽管总体准确度令人鼓舞，但这组结果中的道路线却是不连续的。这是由于不同国家不同的建筑风格和城市景观所造成的特征分布差异。基于对抗性的 UDA 方法表现出严重的负适应；当源域和目标域的分布差异很大时，他们倾向于将复杂区域划分为公共类别。例如，在德里、内比都和首尔，比较方法将建成区划分为灌溉田，而在东京，将建成区划分为高层住宅区和工业区区域被错误分类为低层住宅。

4.3.3敏感性分析

一些参数对域自适应结果有影响；我们在本节中对中国五个特大城市的稀疏标签上的这些因素进行了分析，包括训练时期的数量和 $\lambda$ （参见第3.2.2节）。

我们测试了三个不同的纪元数来研究其影响，分别是50、100和150，并且 $\lambda$ 的值固定为0.5。 mF1与历元数之间的关系如图15（a）所示。可以看到，当epoch数从50提高到100时，性能有明显的提升。然而，从 100 到 150，性能变化趋于平缓。造成这种现象的原因有两个：一方面，较大的epoch数意味着一开始选择的像素较少，更好地保证了伪标签的质量。另一方面，大量的训练迭代使模型能够完全适应目标领域。由于 150 个 epoch 会占用更多的计算资源，并且精度提升不是那么显着，因此在实践中 100 个 epoch 更合适。

为了研究 $\lambda$ 如何影响我们的方法，我们对其测试了一组连续变化的值，并将历元数设置为100。每个 $\lambda$ 值获得的mF1如图所示15 (b);可以看出，每个城市的准确率首先随着 $\lambda$ 的增大而上升，然后随着其变大而下降。武汉的准确率在 $\lambda$ 值为0.7时达到最高，而其他城市为0.5。这可能是因为GF-1和GF-2的传感器具有更相似的成像过程，导致源域和目标域分布更接近，即使 $70\%$ 像素是在训练结束时选择的，而在其他城市使用更多的伪标签会引入更多的错误。而当 $\lambda$ 设置为0.9时，目标域中的 $90\%$ 个像素参与了最后一个训练epoch，伪标签错误过多，导致明显下降每个城市的准确度。

5讨论

5.1哪些信息对于土地覆盖分类很重要？

建成环境和人民生活质量受到不同土地类别[8]的综合影响，因此在更完整的类别体系中分析土地覆盖信息具有重要意义。然而，高分辨率卫星图像中异质地物的识别相当困难。另外，还要依靠不同的信息来识别不同的类别。例如，对独立的城市功能建筑进行分类更多地依赖于结构和形状特征，区分密集建成区需要空间关系，而农业和自然类别的识别则离不开纹理和光谱信息。

表4和图9有一个值得注意的现象。不同类别的最高准确率值是通过不同的模型实现的，主要是 DeepLabv3+ 和 U-Net。我们在图16中展示了这两个模型获得的50亿像素的详细分类结果。在第1至第3列中，DeepLabv3+分别可以分割出更完整、更平滑的机场、裸地和体育场。而且U-Net的结果包含大量噪声。在视觉上，DeepLabv3+倾向于将地面物体识别为独立的“实例”，而U-Net似乎很难将土地信息聚合成同质的分割区域。这是因为 DeepLabv3+ 学习到的深层特征更擅长描述上下文和空间关系。然而，U-Net 在第 4 至 5 列中表现出优异的性能，它正确地将灌溉田分类，而 DeepLabv3+ 将其部分错误分类为花园地和道路，DeepLabv3+ 无法从密集的建筑区域中清晰地提取出来。这表明U-Net可以更准确地表示地物的光谱、纹理和清晰的边界。

对这些结果的一种解释是，DeepLabv3+ 的解码器路径中使用的“低级特征”（最接近输入图像的特征）是已前向传播 101 层的特征图，并且与输入图像相比小 16 倍。相比之下，U-Net 使用经过两层且与输入图像具有相同尺度的“低级特征”，因为它采用编码器和解码器路径的串联。因此，U-Net可以保留更多的原始光谱和边缘信息来生成密集的分类图。

上述分析给我们一些启发，在未来的研究中，“低级”光谱、纹理信息和“高级”空间上下文信息的结合可能有助于复杂类别系统中的土地覆盖分类。

5.2如何进一步提高土地覆盖制图的性能？

如图10所示，虽然我们的方法在中国每个特大城市的大部分地区表现良好，但城市周围的山地森林，尤其是北京和成都，结果并不那么令人满意。为了讨论这种现象，我们在图17中使用t-SNE [80]可视化不同数据域的特征空间，其中光谱特征和纹理特征的组合（采用GLCM），并且特征空间的坐标系是对齐的。

从图17中可以观察到特征分布的三个特点：（1）不同域之间存在分布偏移； (2)在每个领域内，几乎每个类别的分布都是分散的； (3)在每个域内，不同类别的分布可能会部分混合。最后一种情况在 $\textbf{\emph{D}}_{\textbf{\emph{S}}}$ 的森林和农田类别中很明显。这是因为它们的特征很大程度上受地理位置和季节变化的影响。例如，50亿像素数据集覆盖了中国西北山区开垦的大量灌溉田，其光谱和纹理特征可能与冬季山区乔木林。然后，在领域联合学习过程中，DCNNs 模型很可能会将 灌溉田伪标签分配给 $\textbf{\emph{D}}_{\textbf{\emph{T}}}$ 中的少量荒林样本。而这些误差会在不断的迭代训练中进一步累积，最终导致土地覆盖测绘结果的错误分类。

由于这个问题是由UDA的固有约束和植被类别的内在属性引起的，在未来的研究中，其他信息来源的整合可能会带来改善。例如，全季节样本数据集[81]提供了30 m分辨率的多个季节的植被样本，多时相分析方法[82, 83]可以更好地区分不同植被类别的覆盖范围。通过使用50亿像素的多源数据融合[84, 13]，有望获得更准确、高分辨率的自然和城市区域测绘结果> 数据集。

5.3 根据我们的数据集和方法可以进一步做什么？

我们利用未标记的高分辨率卫星图像实现全自动分类，这为大规模实时土地覆盖测绘开辟了新的可能性。此外，我们的方法被证明可以推广到不同传感器捕获的图像，特别是对于免费开放的 ST-2 图像。作为连续、可靠、质量受控的数据源，Sentinel 卫星数据被用于最先进的全球土地覆盖测绘项目、ESA 的 World Cover [14] 和 Google 的 Dynamic World [15]。由于在相同空间分辨率下有一定的可比性，我们将北京和广州的结果与动态世界和世界覆盖进行比较。

由于原始图像的采集时间不同，我们只能做一个大概的目测比较。如图18所示，我们的结果能够区分出与动态世界和世界覆盖相对一致的森林、建成区、水体和农田。此外，由于我们对50亿像素进行了广泛、精细和准确的标注，我们的结果呈现出清晰的交通网络和河流系统，以及不同的农业和城市功能区。可见，由于中国城市的快速发展，新的高层住宅建筑与旧的住宅建筑混合在一起，其外观与乡村聚落相同，形成了特殊的城市景观。我们的结果类别更加丰富，有可能为城市规划、城市热岛、城市生活质量等方面的研究做出贡献。

尽管我们在本文中只研究了 11 个城市，但我们的方法可以很容易地推广到中国的其他城市、城镇和村庄，甚至其他亚洲国家。此外，我们的 UDA 方法中使用的离散伪标签经过验证能够改善分类结果。这表明，当已经有大规模、注释良好的数据集时，新获取的图像的标注不需要是密集的和像素级的。因此，对于土地分布和土地分类体系与中国截然不同的其他国家和地区，有潜力进行基于50亿像素和半监督域等的土地覆盖制图以补丁或多边形的形式适应稀疏注释。这是我们未来感兴趣的问题。

6结论

越来越多的高分辨率卫星数据是一座等待勘探和开采的“金矿”。然而，大规模高分辨率土地覆盖绘图仍然是一项具有挑战性的任务。在本文中，我们提出了一个大规模土地覆盖数据集50亿像素，它可以为遥感界提供高质量的基准来推进土地覆盖分类算法。同时，我们提出了一种无监督的域适应方法，可以处理复杂的现实世界分布变化。中国五个特大城市和其他亚洲国家六个城市的土地覆盖测绘结果表明，我们的方法在不同传感器和地理区域中具有普适性。总的来说，我们的工作有潜力扩展到国家范围内的土地覆盖制图，并为涉及土地覆盖信息的各种应用做出贡献。

参考

[1] C. Zhang, I. Sargent, X. Pan, H. Li, A. Gardiner, J. Hare, and P. M. Atkinson, “Joint deep learning for land cover and land use classification,” Remote Sensing of Environment, vol. 221, pp. 173–187, 2019.
[2] Y. Ban, P. Gong, and C. Gini, “Global land cover mapping using earth observation satellite data: Recent progresses and challenges,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 103, no. 1, pp. 1–6, 2015.
[3] X. Huang, D. Wen, J. Li, and R. Qin, “Multi-level monitoring of subtle urban changes for the megacities of china using high-resolution multi-view satellite imagery,” Remote Sensing of Environment, vol. 196, pp. 56–75, 2017.
[4] D. Masiliūnas, N.-E. Tsendbazar, M. Herold, M. Lesiv, M. Buchhorn, and J. Verbesselt, “Global land characterisation using land cover fractions at 100 m resolution,” Remote Sensing of Environment, vol. 259, p. 112409, 2021.
[5] N. Tsendbazar, M. Herold, L. Li, A. Tarko, S. de Bruin, D. Masiliunas, M. Lesiv, S. Fritz, M. Buchhorn, B. Smets et al., “Towards operational validation of annual global land cover maps,” Remote Sensing of Environment, vol. 266, p. 112686, 2021.
[6] T. Esch, W. Heldens, A. Hirner, M. Keil, M. Marconcini, A. Roth, J. Zeidler, S. Dech, and E. Strano, “Breaking new ground in mapping human settlements from space–the global urban footprint,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 134, pp. 30–42, 2017.
[7] P. Gong, H. Liu, M. Zhang, C. Li, J. Wang, H. Huang, N. Clinton, L. Ji, W. Li, Y. Bai, B. Chen, B. Xu, Z. Zhu, C. Yuan, H. P. Suen, J. Guo, N. Xu, W. Li, Y. Zhao, J. Yang, C. Yu, X. Wang, H. Fu, L. Yu, I. Dronova, F. Hui, X. Cheng, X. Shi, F. Xiao, Q. Liu, and L. Song, “Stable classification with limited sample: Transferring a 30-m resolution sample set collected in 2015 to mapping 10-m resolution global land cover in 2017,” Science Bulletin, vol. 64, pp. 370–373, 2019.
[8] X. X. Zhu, C. Qiu, J. Hu, Y. Shi, Y. Wang, M. Schmitt, and H. Taubenböck, “The urban morphology on our planet–global perspectives from space,” Remote Sensing of Environment, vol. 269, p. 112794, 2022.
[9] CORINE-LandCover, “European corine land cover inventory,” https://land.copernicus.eu/pan-european/corine-land-cover, 2018.
[10] L. Yu, J. Wang, and P. Gong, “Improving 30 m global land-cover map from-glc with time series modis and auxiliary data sets: a segmentation-based approach,” International Journal of Remote Sensing, vol. 34, no. 16, pp. 5851–5867, 2013.
[11] T. Hermosilla, M. A. Wulder, J. C. White, and N. C. Coops, “Land cover classification in an era of big and open data: Optimizing localized implementation and training data selection to improve mapping outcomes,” Remote Sensing of Environment, vol. 268, p. 112780, 2022.
[12] X. Huang, J. Li, J. Yang, Z. Zhang, D. Li, and X. Liu, “30 m global impervious surface area dynamics and urban expansion pattern observed by landsat satellites: from 1972 to 2019,” Science China Earth Sciences, vol. 64, no. 11, pp. 1922–1933, 2021.
[13] W. Li, R. Dong, H. Fu, J. Wang, L. Yu, and P. Gong, “Integrating google earth imagery with landsat data to improve 30-m resolution land cover mapping,” Remote Sensing of Environment, vol. 237, p. 111563, 2020.
[14] D. Zanaga, R. Van De Kerchove, W. De Keersmaecker, N. Souverijns, C. Brockmann, R. Quast, J. Wevers, A. Grosu, A. Paccini, S. Vergnaud et al., “Esa worldcover 10 m 2020 v100,” Zenodo: Geneve, Switzerland, 2021.
[15] C. F. Brown, S. P. Brumby, B. Guzder-Williams, T. Birch, S. B. Hyde, J. Mazzariello, W. Czerwinski, V. J. Pasquarella, R. Haertel, S. Ilyushchenko et al., “Dynamic world, near real-time global 10 m land use land cover mapping,” Scientific Data, vol. 9, no. 1, pp. 1–17, 2022.
[16] Q. Yuan, H. Shen, T. Li, Z. Li, S. Li, Y. Jiang, H. Xu, W. Tan, Q. Yang, J. Wang et al., “Deep learning in environmental remote sensing: Achievements and challenges,” Remote Sensing of Environment, vol. 241, p. 111716, 2020.
[17] Q. Xu, X. Yuan, and C. Ouyang, “Class-aware domain adaptation for semantic segmentation of remote sensing images,” IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1–17, 2020.
[18] D. Tuia, C. Persello, and L. Bruzzone, “Domain adaptation for the classification of remote sensing data: An overview of recent advances,” IEEE Geoscience and Remote Sensing Magazine, vol. 4, no. 2, pp. 41–57, 2016.
[19] X.-Y. Tong, G.-S. Xia, Q. Lu, H. Shen, S. Li, S. You, and L. Zhang, “Land-cover classification with high-resolution remote sensing images using transferable deep models,” Remote Sensing of Environment, vol. 237, p. 111322, 2020.
[20] L. Bruzzone and D. F. Prieto, “Unsupervised retraining of a maximum likelihood classifier for the analysis of multitemporal remote sensing images,” IEEE Transactions on Geoscience and Remote Sensing, vol. 39, no. 2, pp. 456–460, 2001.
[21] K. Bahirat, F. Bovolo, L. Bruzzone, and S. Chaudhuri, “A novel domain adaptation bayesian classifier for updating land-cover maps with class differences in source and target domains,” IEEE Transactions on Geoscience and Remote Sensing, vol. 50, no. 7, pp. 2810–2826, 2011.
[22] G. Matasci, M. Volpi, M. Kanevski, L. Bruzzone, and D. Tuia, “Semisupervised transfer component analysis for domain adaptation in remote sensing image classification,” IEEE Transactions on Geoscience and Remote Sensing, vol. 53, no. 7, pp. 3550–3564, 2015.
[23] C. Liu, X. Huang, Z. Zhu, H. Chen, X. Tang, and J. Gong, “Automatic extraction of built-up area from zy3 multi-view satellite imagery: Analysis of 45 global cities,” Remote Sensing of Environment, vol. 226, pp. 51–73, 2019.
[24] X. X. Zhu, D. Tuia, L. Mou, G.-S. Xia, L. Zhang, F. Xu, and F. Fraundorfer, “Deep learning in remote sensing: A comprehensive review and list of resources,” IEEE Geoscience and Remote Sensing Magazine, vol. 5, no. 4, pp. 8–36, 2017.
[25] B. Huang, B. Zhao, and Y. Song, “Urban land-use mapping using a deep convolutional neural network with high spatial resolution multispectral remote sensing imagery,” Remote Sensing of Environment, vol. 214, pp. 73–86, 2018.
[26] S. Srivastava, J. E. Vargas-Muñoz, and D. Tuia, “Understanding urban landuse from the above and ground perspectives: A deep learning, multimodal solution,” Remote Sensing of Environment, vol. 228, pp. 129–143, 2019.
[27] Y. Zhong, Y. Su, S. Wu, Z. Zheng, J. Zhao, A. Ma, Q. Zhu, R. Ye, X. Li, P. Pellikka et al., “Open-source data-driven urban land-use mapping integrating point-line-polygon semantic objects: A case study of chinese cities,” Remote Sensing of Environment, vol. 247, p. 111838, 2020.
[28] L. Ma, Y. Liu, X. Zhang, Y. Ye, G. Yin, and B. A. Johnson, “Deep learning in remote sensing applications: A meta-analysis and review,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 152, pp. 166–177, 2019.
[29] X. X. Zhu, S. Montazeri, M. Ali, Y. Hua, Y. Wang, L. Mou, Y. Shi, F. Xu, and R. Bamler, “Deep learning meets sar: Concepts, models, pitfalls, and perspectives,” IEEE Geoscience and Remote Sensing Magazine, vol. 9, no. 4, pp. 143–172, 2021.
[30] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, 2015.
[31] G.-S. Xia, J. Hu, F. Hu, B. Shi, X. Bai, Y. Zhong, L. Zhang, and X. Lu, “Aid: A benchmark data set for performance evaluation of aerial scene classification,” IEEE Transactions on Geoscience and Remote Sensing, vol. 55, no. 7, pp. 3965–3981, 2017.
[32] J. Ding, N. Xue, G.-S. Xia, X. Bai, W. Yang, M. Yang, S. Belongie, J. Luo, M. Datcu, M. Pelillo et al., “Object detection in aerial images: A large-scale benchmark and challenges,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.
[33] Y. Long, G.-S. Xia, S. Li, W. Yang, M. Y. Yang, X. X. Zhu, L. Zhang, and D. Li, “On creating benchmark dataset for aerial image interpretation: Reviews, guidances, and million-aid,” IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 14, pp. 4205–4230, 2021.
[34] Z. Xiong, F. Zhang, Y. Wang, Y. Shi, and X. X. Zhu, “EarthNets: Empowering AI in Earth Observation,” arXiv preprint arXiv:2210.04936, 2022.
[35] W. Huang, Y. Shi, Z. Xiong, Q. Wang, and X. X. Zhu, “Semi-supervised bidirectional alignment for remote sensing cross-domain scene classification,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 195, pp. 192–203, 2023.
[36] ISPRS-Contest, “Isprs 2d semantic labeling contest,” http://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html, 2018.
[37] M. Volpi and V. Ferrari, “Semantic segmentation of urban scenes by learning local class interactions,” in IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2015, pp. 1–9.
[38] R. Kemker, C. Salvaggio, and C. Kanan, “Algorithms for semantic segmentation of multispectral remote sensing imagery using deep learning,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 145, pp. 60–77, 2018.
[39] D. Marcos, M. Volpi, B. Kellenberger, and D. Tuia, “Land cover mapping at very high resolution with rotation equivariant cnns: Towards small yet accurate models,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 145, pp. 96–107, 2018.
[40] A. Van Etten, D. Lindenbaum, and T. M. Bacastow, “Spacenet: A remote sensing dataset and challenge series,” arXiv preprint arXiv:1807.01232, 2018.
[41] I. Demir, K. Koperski, D. Lindenbaum, G. Pang, J. Huang, S. Basu, F. Hughes, D. Tuia, and R. Raskar, “Deepglobe 2018: A challenge to parse the earth through satellite images,” in IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018, pp. 172–181.
[42] J. Castillo-Navarro, B. Le Saux, A. Boulch, N. Audebert, and S. Lefèvre, “Semi-supervised semantic segmentation in earth observation: The minifrance suite, dataset analysis and multi-task network study,” Machine Learning, pp. 1–36, 2021.
[43] K. Yang, X.-Y. Tong, G.-S. Xia, W. Shen, and L. Zhang, “Hidden path selection network for semantic segmentation of remote sensing images,” IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1–15, 2022.
[44] H. Alemohammad and K. Booth, “Landcovernet: A global benchmark land cover classification training dataset,” arXiv preprint arXiv:2012.03111, 2020.
[45] W. Liu and R. Qin, “A multikernel domain adaptation method for unsupervised transfer learning on cross-source and cross-region remote sensing data classification,” IEEE Transactions on Geoscience and Remote Sensing, vol. 58, no. 6, pp. 4279–4289, 2020.
[46] X. Zhang, X. Yao, X. Feng, G. Cheng, and J. Han, “Dfenet for domain adaptation based remote sensing scene classification,” IEEE Transactions on Geoscience and Remote Sensing, 2021.
[47] S. Ji, D. Wang, and M. Luo, “Generative adversarial network-based full-space domain adaptation for land cover classification from multiple-source remote sensing images,” IEEE Transactions on Geoscience and Remote Sensing, vol. 59, no. 5, pp. 3816–3828, 2020.
[48] S. Saha, S. Zhao, and X. X. Zhu, “Multitarget domain adaptation for remote sensing classification using graph neural network,” IEEE Geoscience and Remote Sensing Letters, vol. 19, pp. 1–5, 2022.
[49] B. Sun and K. Saenko, “Deep coral: Correlation alignment for deep domain adaptation,” in European Conference on Computer Vision. Springer, 2016, pp. 443–450.
[50] M. Long, H. Zhu, J. Wang, and M. I. Jordan, “Unsupervised domain adaptation with residual transfer networks,” Advances in Neural Information Processing Systems, vol. 29, 2016.
[51] Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, and V. Lempitsky, “Domain-adversarial training of neural networks,” The Journal of Machine Learning Research, vol. 17, no. 1, pp. 2096–2030, 2016.
[52] E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell, “Adversarial discriminative domain adaptation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 7167–7176.
[53] J. Wang, Z. Zheng, A. Ma, X. Lu, and Y. Zhong, “Loveda: A remote sensing land-cover dataset for domain adaptive semantic segmentation,” arXiv preprint arXiv:2110.08733, 2021.
[54] Y.-H. Tsai, W.-C. Hung, S. Schulter, K. Sohn, M.-H. Yang, and M. Chandraker, “Learning to adapt structured output space for semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 7472–7481.
[55] L. Yan, B. Fan, H. Liu, C. Huo, S. Xiang, and C. Pan, “Triplet adversarial domain adaptation for pixel-level classification of vhr remote sensing images,” IEEE Transactions on Geoscience and Remote Sensing, vol. 58, no. 5, pp. 3558–3573, 2019.
[56] L. Zhang, M. Lan, J. Zhang, and D. Tao, “Stagewise unsupervised domain adaptation with adversarial self-training for road segmentation of remote-sensing images,” IEEE Transactions on Geoscience and Remote Sensing, 2021.
[57] J. Wang, A. Ma, Y. Zhong, Z. Zheng, and L. Zhang, “Cross-sensor domain adaptation for high spatial resolution urban land-cover mapping: From airborne to spaceborne imagery,” Remote Sensing of Environment, vol. 277, p. 113058, 2022.
[58] D. Peng, H. Guan, Y. Zang, and L. Bruzzone, “Full-level domain adaptation for building extraction in very-high-resolution optical remote-sensing images,” IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1–17, 2021.
[59] S. Zagoruyko and N. Komodakis, “Learning to compare image patches via convolutional neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 4353–4361.
[60] P. Griffiths, C. Nendel, and P. Hostert, “Intra-annual reflectance composites from sentinel-2 and landsat for national-scale crop and land cover mapping,” Remote Sensing of Environment, vol. 220, pp. 135–151, 2019.
[61] D. Ienco, R. Interdonato, R. Gaetano, and D. H. T. Minh, “Combining sentinel-1 and sentinel-2 satellite image time series for land cover mapping via a multi-source deep learning architecture,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 158, pp. 11–22, 2019.
[62] F. Xu and B. Somers, “Unmixing-based sentinel-2 downscaling for urban land cover mapping,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 171, pp. 133–154, 2021.
[63] M. Wurm, T. Stark, X. X. Zhu, M. Weigand, and H. Taubenböck, “Semantic segmentation of slums in satellite images using transfer learning on fully convolutional neural networks,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 150, pp. 59–69, 2019.
[64] T.-H. K. Chen, C. Qiu, M. Schmitt, X. X. Zhu, C. E. Sabel, and A. V. Prishchepov, “Mapping horizontal and vertical urban densification in denmark with landsat time-series from 1985 to 2018: A semantic segmentation solution,” Remote Sensing of Environment, vol. 251, p. 112096, 2020.
[65] L. Mou, Y. Hua, and X. X. Zhu, “A relation-augmented fully convolutional network for semantic segmentation in aerial scenes,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 12 416–12 425.
[66] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-decoder with atrous separable convolution for semantic image segmentation,” in European Conference on Computer Vision, 2018, pp. 801–818.
[67] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, 2015, pp. 234–241.
[68] D.-H. Lee et al., “Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks,” in International Conference on Machine Learning Workshops, vol. 3, no. 2, 2013, p. 896.
[69] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3431–3440.
[70] R. M. Haralick, K. Shanmugam, and I. H. Dinstein, “Textural features for image classification,” IEEE Transactions on Systems, Man, and Cybernetics, vol. 6, pp. 610–621, 1973.
[71] J. R. Uijlings, K. E. Van De Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” International Journal of Computer Vision, vol. 104, no. 2, pp. 154–171, 2013.
[72] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 1–9.
[73] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 770–778.
[74] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no. 4, pp. 834–848, 2017.
[75] P. Olofsson, G. M. Foody, M. Herold, S. V. Stehman, C. E. Woodcock, and M. A. Wulder, “Good practices for estimating area and assessing accuracy of land change,” Remote Sensing of Environment, vol. 148, pp. 42–57, 2014.
[76] T.-H. Vu, H. Jain, M. Bucher, M. Cord, and P. Pérez, “Advent: Adversarial entropy minimization for domain adaptation in semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2517–2526.
[77] Y. Luo, L. Zheng, T. Guan, J. Yu, and Y. Yang, “Taking a closer look at domain shift: Category-level adversaries for semantics consistent domain adaptation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2507–2516.
[78] H. Wang, T. Shen, W. Zhang, L.-Y. Duan, and T. Mei, “Classes matter: A fine-grained adversarial approach to cross-domain semantic segmentation,” in European Conference on Computer Vision, 2020, pp. 642–659.
[79] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking atrous convolution for semantic image segmentation,” arXiv preprint arXiv:1706.05587, 2017.
[80] L. Van der Maaten and G. Hinton, “Visualizing data using t-sne.” Journal of machine learning research, vol. 9, no. 11, 2008.
[81] C. Li, P. Gong, J. Wang, Z. Zhu, G. S. Biging, C. Yuan, T. Hu, H. Zhang, Q. Wang, X. Li et al., “The first all-season sample set for mapping global land cover with landsat-8 data,” Science Bulletin, vol. 62, no. 7, pp. 508–515, 2017.
[82] Y. Shao, R. S. Lunetta, B. Wheeler, J. S. Iiames, and J. B. Campbell, “An evaluation of time-series smoothing algorithms for land-cover classifications using modis-ndvi multi-temporal data,” Remote Sensing of Environment, vol. 174, pp. 258–265, 2016.
[83] T. Hu, X. Huang, J. Li, and L. Zhang, “A novel co-training approach for urban land cover mapping with unclear landsat time series imagery,” Remote Sensing of Environment, vol. 217, pp. 144–157, 2018.
[84] X. Huang, T. Hu, J. Li, Q. Wang, and J. A. Benediktsson, “Mapping urban areas in china using multisource data with a novel ensemble svm method,” IEEE Transactions on Geoscience and Remote Sensing, vol. 56, no. 8, pp. 4258–4273, 2018.

利用米分辨率卫星图像绘制国家规模的土地覆盖图***网站位于https://x-ytong.github.io/project/Five-Billion-Pixels.html。

摘要

1简介

1.1动机

1.2相关工作

1.3本文的贡献

2 研究数据

2.150 亿像素

2.1.1 高分二号影像

2.1.2打造50亿像素

2.1.3 50亿像素的属性

2.2研究领域和数据来源

2.2.1 中国特大城市

2.2.2 其他亚洲城市

2.2.3 数据来源

2.2.4测试区域

3方法论

3.1土地覆盖分类的语义分割模型

3.2 用于无监督域适应的域联合学习

3.2.1 连体网络

3.2.2 动态伪标签分配

3.2.3 类平衡域联合训练

4实验

4.1 实验设置

4.1.1 50 亿像素基准设置

4.1.2 土地覆盖图设置

4.250亿像素基准

4.3 土地覆盖测绘

4.3.1中国特大城市的实验结果

4.3.2其他亚洲城市的实验结果

4.3.3敏感性分析

5讨论

5.1哪些信息对于土地覆盖分类很重要？

5.2如何进一步提高土地覆盖制图的性能？

5.3 根据我们的数据集和方法可以进一步做什么？

6结论

参考

利用米分辨率卫星图像绘制国家规模的土地覆盖图^*^**网站位于https://x-ytong.github.io/project/Five-Billion-Pixels.html。