VPAIR - 大型户外环境中的航空视觉地点识别和定位

Michael Schleiss1,2, Fahmi Rouatbi1 and Daniel Cremers2 1Department Sensor Data Fusion, Fraunhofer FKIE, 53343 Wachtberg, Germany 2Department of Informatics, Technical University of Munich, 85748 Garching, Germany Corresponding author: michael.schleiss@fkie.fraunhofer.de
摘要

视觉地点识别和视觉定位是自动驾驶车辆导航和地图绘制的重要组成部分,尤其是在 GNSS 无法导航的场景中。 最近的工作重点是地面或接近地面的应用,例如自动驾驶汽车或室内场景以及低空无人机飞行。 然而,城市空中交通等应用需要在中高海拔的大面积户外环境中运行。 我们提出了一个名为 VPAIR 的新数据集。 该数据集是在一架轻型飞机上记录的,该飞机在距地面 300 多米的高度飞行,用向下的相机捕获图像。 每个图像都配有高分辨率参考渲染,包括密集的深度信息和 6-DoF 参考姿势。 该数据集涵盖了各种类型的具有挑战性的景观的一百多公里长的轨迹,例如城市、农田和森林。 该数据集的实验说明了鸟瞰图视角变化(例如平面内旋转)带来的挑战。 该数据集将在 https://github.com/AerVisLoc/vpair 下公开提供。

简介

随着人们对自动驾驶汽车研究的兴趣日益浓厚,许多数据集已经发布,这些数据集从自动驾驶汽车的角度解决视觉位置识别(VPR)和/或视觉定位(VL)问题。 [1, 2] 其他数据集是通过地面机器人[3]、铁路系统[4]手持设备[5]或空中平台等方式记录的在室内[6]或低海拔室外环境[7] 然而,它们都具有相似的相机视角,其中场景靠近相机的位置,并且相机大多以直立方式定向。

另一方面,自动飞行汽车在大型户外场景(例如户外)的应用越来越多。后勤[8]、巡逻[9]、检查[10]甚至个人交通[11] 随着监管机构开始计划在本世纪末将自主无人机纳入常规空域[12],将需要卫星导航的替代方案。 有人可能会说,在高海拔地区,卫星信号的接收质量会更好。 然而,全球卫星导航系统 (GNSS) 非常容易受到意外或恶意无线电频率中断(干扰)或虚假信号(欺骗)的影响[13] 安全的航空需要备用系统,尤其是在没有人类飞行员的情况下。 因此,只有存在针对 GNSS 故障的备用系统,真正的自主飞行才能大规模成为现实。

在 VPR 中,目标是通过查询大型地理标记图像数据库中同一地点的实例来检索给定图像的粗略相机姿势。 然后可以以从粗到细的方式进行基于 VL 的姿态细化步骤[14] 这两种技术共同提供了在没有 GNSS 的情况下检索无漂移 6-DoF 全球位置估计的能力,但需要具有精确参考图像的数据库。 数据库通常是通过在不同时间遍历同一地点来构建的。 [15]类似,我们使用公开的地理数据来渲染参考图像和密集深度图。

由于照明、天气和季节以及视点变化引起的外观变化,匹配查询和参考图像具有挑战性。 NetVLAD [16] 和 D2-Net [17] 等学习的全局和局部图像描述符在大规模自主导航场景中表现出了良好的性能 [18, 19] 然而,我们的实验表明,当面临平面内旋转时,性能会急剧下降,这对于具有朝下相机的空中设置来说是典型的。 基于 Parihar 等人 [20] 最近的工作,我们展示了旋转鲁棒性特征如何为 VPR 和 VL 提供有希望的结果,强调需要将当前最先进的技术应用于航空设想。

通过发布我们的数据集,我们希望支持空中机器人社区开发 VPR 和 VL 技术并将其扩展到空中场景,以实现大规模环境中的安全自主飞行。

II 相关工作

VPR 和 VL 数据集通常遵循一种结构,其中捕获设备或车辆视图的一组查询图像伴随着来自同一空间位置的一个或多个时间上独立的遍历的一组地理标记参考图像。 根据其地理标记,参考图像提供粗略的位置估计。 这些随后可以用作姿势细化步骤的起点。

根据捕获查询图像和参考图像的方式,这些数据集可以分为地对地、空对空或空对地数据集。 [21, 1, 3, 4, 5] 等地对地数据集使用相同的传感器设置来收集查询图像和参考图像。 [6, 7]等空对空 VPR 数据集也是如此。 最近,空对地数据集引入了使用外部地理数据从航空图像(例如正射影像)对地面车辆进行地理定位的想法。 外部地理数据提供对全市[22]甚至全国范围地理覆盖[15]的大量地理参考图像的访问。 我们采用相同的想法,但将其用于高空空对空场景。 与我们最相关的是 Zaffar 等人[23]的工作。 它研究了空对空数据集,并提出了现成的 VPR 技术是否能够应对空中平台的 6 自由度运动与地面平台的横向运动相比所带来的视点变化的问题。 然而,其范围仅限于无人机在建筑物层面低空飞行的场景。 与之前发布的 VPR 数据集相比,我们的数据集以使用向下的摄像机从距地面数百米的有利位置拍摄的图像为中心,这为 VPR 和 VL 应对因距场景距离较远而带来的挑战开辟了新的研究方向。平面内旋转。

III VPaiR 数据集

VPAIR 是一个用于评估大规模空中环境中的视觉位置识别和定位的数据集。 我们的目标是收集广泛的表面类型数据,使其具有挑战性和代表性。 VPAIR 数据集是用一架轻型飞机在德国波恩市和埃菲尔山脉之间海拔 300 至 400 米的地区上空记录的,距离为 107 公里。 飞行路径的描述参见图1 该数据集包括来自朝下相机的相机图像以及使用精确卫星和惯性导航系统 (GNSS/INS) 记录的带时间戳的参考姿势。 传感器数据于 2020 年 10 月 13 日单次记录。 它辅以用于地理定位任务的高分辨率 3D 渲染和地理标记参考图像、密集深度图和描述图像中可见的主要表面类型的元数据,以用于评估目的。 总共有 2788 个查询图像和 12788 个数据库图像。

Refer to caption

图1: 录音区。 飞行轨迹覆盖城市、乡村、林业、农业等各类景观,总长107公里。

III-A 传感器设置

数据是在一架标称巡航速度约为 150 公里/小时的轻型 2 座固定翼飞机上收集的。 有效负载由一个以 25 Hz 的分辨率记录 1600x1200 的单目彩色摄像机和 SBG 的双天线 Ellipse-D GNSS/INS 导航系统组成,该系统提供准确的 6-DoF 位姿,预期不确定性为 0.05旋转且位置小于一米。 该数据集的图像数据被下采样至 800x600 像素和 1 Hz,以限制总文件大小并提高其实用性,同时保持完整轨迹的视觉覆盖。

除安装在机翼顶部的 GNSS 天线外,有效载荷的所有物品都彼此靠近地放置在机翼下方,相机朝下。 我们仔细测量了有效载荷所有部分之间的距离,并在图2中提供了示意图。

相机和 INS 通过硬件触发同步,确保时间戳准确。 相机的时间戳对应于曝光的开始。 拍摄当天曝光时间固定为 5 毫秒。 我们使用了传感器驱动程序的官方 ROS 实现,并对它们进行了时间戳同步。 利用Kalibr标定工具箱[24]获得相机内参以及IMU与相机之间的外参。

Refer to caption

图2: 轻型飞机图(俯视图和前视图)和传感器位置。 GPS 天线和 INS 之间的距离是手动测量的,而传感器之间的距离是通过相机惯性校准过程获得的。 坐标系显示安装在车辆上的每个传感器的原点和方向,惯例为:x 向前(红色)、y 向右(绿色)、z 向下(蓝色)。

III-B 参考图像

来自机载摄像机的每张图像都与空间对齐的参考图像、密集的度量深度图和描述主要土地覆盖类型(即城市、农业、林业)的元数据配对。 参考图像和深度图是使用 OpenGL 中自行实现的 3D 引擎结合公开可用的正射影像和 3D 表面模型进行渲染的。 后者由 Geobasis NRW 提供,这是一个国家资助的地理数据存储库,可通过开放数据许可证进行访问,覆盖德国北莱茵-威斯特法伦州的整个领土111Data was accessed via https://www.geoportal.nrw and is redistributed according to Data license Germany - Zero - Version 2.0 http://www.govdata.de/dl-de/zero-2-0 土地覆盖信息也可以通过 Geobasis 获得。 表面模型由 3D 点云表示,精度约为 0.5 m,不仅包括地面,还包括从机载激光扫描获得的植被和建筑物。 这些正射影像是在 2019 年至 2021 年期间拍摄的,地面分辨率为每像素 0.1 m。

Refer to caption

图3: 数据集中的样本。 从左到右:查询图像、参考图像和度量深度图。

3D 点云由 3D 渲染引擎处理为网格,然后使用正射影像进行纹理化。 给定 6-DoF 姿势和内在相机模型,引擎就能够输出非常接近地反映原始视图的透视图像。 然而,在为此数据集创建参考图像时,我们通过将滚动、俯仰和偏航设置为类似于完美朝下相机的恒定角度来忽略滚动、俯仰和偏航,其中图像的顶部面向北方。 除了图像对之外,我们还包括 10,000 张干扰图像,这些图像是从杜塞尔多夫市附近 400 km2 区域内的地理上独立的网格图案区域采样的。

IV 实验设置

给定来自机载摄像机的查询图像,VPR 的目标是识别大量地理参考图像中同一地点的图像。 根据这次匹配,我们将获得球场位置估计。 继续进行粗略位置估计和有关 3D 场景结构的信息,VL 的目标是细化估计并提供 6-DoF 姿态。 我们使用来自 Parihar 等人 [20] 的现成旋转鲁棒描述符 (RoRD) 来执行 VPR 和 VL 任务,并将它们分别与 NetVLAD 和 SIFT/D2-Net 进行比较。

IV-A 视觉地点识别

数据集中的每个参考图像由一组局部描述符描述,然后这些描述符全部存储在数据库中。 对于每个查询,我们会检索每个查询特征描述的 k=10 最近邻域。 然后将检索到的特征与其源图像相关联。 最后,可以根据每个数据库图像检索到的特征的出现情况来计算排名。 排名最高的参考图像构成候选地点。

我们将这种基于局部特征的 VPR 管道与广泛使用的现成技术 NetVLAD [16] 进行比较,该技术在空中 [23] 和大型网络中表现出了良好的性能。过去扩展自主导航场景[18] 我们使用标准 Recall@n 指标来评估距离阈值为 100 m 的 VPR 技术。

IV-B 视觉定位

假设检索到正确的图像,则基于 PnP 解算器对姿势进行细化。 给定一组 2D-3D 点对应关系,它通过最小化相机平面中的重投影误差来估计 6-DoF 位姿。 我们的 VL 管道的工作原理如下。 使用旋转稳健描述符获得查询图像和参考图像之间的第一个 2D-2D 匹配。 然后,与[15]类似,我们通过基于密集度量深度图对渲染图像进行反投影来检索3D场景信息,从而获得每个匹配关键点的3D全局场景坐标。 最后,PnP 解算器提供 6-DoF 位姿。 我们将 RoRD 的使用与两个现成基线进行比较,即 SIFT 和 D2-Net,评估绝对位姿误差度量[19]

V 结果

III显示基于现成局部描述符的VPR技术优于全局图像描述符NetVLAD。 描绘城市环境的场景通常比描绘农业环境或森林的场景表现更好,这些场景可能较少受到外观变化的影响。 III比较了控制航向差异时的地点识别性能。 NetVLAD 受到平面内旋转的严重影响,而 RoRD-VPR 的性能下降不太明显。

我们注意到,与使用 NetVLAD 等全局图像描述符时的单个检索操作相比,基于局部特征的 VPR 管道需要对每个图像进行数百次检索操作。 因此,对于大型数据库,尤其是在受限的移动平台上,运行时和内存要求是不切实际的。 这凸显了对旋转稳健的全局图像描述符的需求。

最后,表IV显示RoRD在视觉定位任务中优于D2-Net和SIFT。 D2-Net 是一种学习图像描述符,基于相同的架构,但旋转不稳健。 SIFT 是旋转不变的,但会受到查询图像和参考图像之间外观变化的影响。

表一: 基于Recall@n的VPR评估。
R@1 R@5 R@20
NetVLAD 10.2 22.6 35.7
RoRD-VPR 38.7 50.1 58.8
表二: Recall@5 按主要场景表面类型分组
urban agricultural forestry
NetVLAD 31.1 15.6 5.5
RoRD-VPR 77.4 27.4 16.9
表三: 查询图像和参考图像之间的标题差异对 Recall@5 的影响。 没有干扰。
Heading difference 0 30 90 135
NetVLAD 66.1 34.4 23.3 17.7
RoRD-VPR 71.4 69.4 56.9 51.2
表四: 满足在绝对位姿误差中测量的平移和旋转阈值的比率。
25m/5 50m/10
SIFT 6.2 15.9
D2-Net 2.9 7.0
RoRD-VL 10.6 27.8

结论

我们提出了 VPAIR——一个用于航空视觉地点识别和定位的具有挑战性的数据集。 基于现成图像描述符的实验强调了对旋转鲁棒性和运行时高效的 VPR 和 VL 技术的需求。 通过向社区发布数据集,我们希望促进大规模航空地理定位的研究。

参考

  • [1] F. Warburg, S. Hauberg, M. Lopez-Antequera, P. Gargallo, Y. Kuang, and J. Civera, “Mapillary street-level sequences: A dataset for lifelong place recognition,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2020, pp. 2626–2635.
  • [2] W. Maddern, G. Pascoe, C. Linegar, and P. Newman, “1 Year, 1000km: The Oxford RobotCar Dataset,” Int. J. Robot. Res., vol. 36, no. 1, pp. 3–15, 2017.
  • [3] M. Leyva-Vallina, N. Strisciuglio, M. Lopez-Antequera, R. Tylecek, M. Blaich, and N. Petkov, “Tb-places: A data set for visual place recognition in garden environments.” IEEE Access, vol. 7, no. 52277-52287, p. 2, 2019.
  • [4] D. Olid, J. M. Fácil, and J. Civera, “Single-view place recognition under seasonal changes,” arXiv preprint arXiv:1808.06516, 2018.
  • [5] H. Taira, M. Okutomi, T. Sattler, M. Cimpoi, M. Pollefeys, J. Sivic, T. Pajdla, and A. Torii, “InLoc: Indoor visual localization with dense matching and view synthesis,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2018.
  • [6] M. Burri, J. Nikolic, P. Gohl, T. Schneider, J. Rehder, S. Omari, M. W. Achtelik, and R. Siegwart, “The euroc micro aerial vehicle datasets,” Int. J. Robot. Res., 2016.
  • [7] F. Maffra, Z. Chen, and M. Chli, “Viewpoint-tolerant place recognition combining 2d and 3d information for uav navigation,” in IEEE Int. Conf. Robot. Autom. (ICRA). IEEE, 2018, pp. 2542–2549.
  • [8] J. Scott and C. Scott, “Drone delivery models for healthcare,” in Proc. 50th Hawaii Int. Conf. Syst. Sci., 2017.
  • [9] A. Girard, A. Howell, and K. Hedrick, “Border patrol and surveillance missions using multiple unmanned air vehicles,” in 43rd IEEE Conf. Decision and Contr. (CDC), vol. 1. IEEE, 2004, pp. 620–625.
  • [10] J. Nikolic, M. Burri, J. Rehder, S. Leutenegger, C. Huerzeler, and R. Siegwart, “A uav system for inspection of industrial facilities,” in IEEE Aerosp. Conf. IEEE, 2013, pp. 1–8.
  • [11] P. Planing and Y. Pinar, “Acceptance of air taxis - a field study during the first flight of an air taxi in a european city,” Dec 2019.
  • [12] S. J. Undertaking, “European atm master plan: Roadmap for the safe integration of drones into all classes of airspace,” SESAR Joint Undertaking, Publications office of the European Union, 2018.
  • [13] M. Harris, “Military tests that jam and spoof gps signals are an accident waiting to happen,” IEEE Spectr., vol. 58, no. 2, pp. 22–27, 2021.
  • [14] P.-E. Sarlin, C. Cadena, R. Siegwart, and M. Dymczyk, “From coarse to fine: Robust hierarchical localization at large scale,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2019, pp. 12 716–12 725.
  • [15] A. Vallone, F. Warburg, H. Hansen, S. Hauberg, and J. Civera, “Danish airs and grounds: A dataset for aerial-to-street-level place recognition and localization,” arXiv preprint arXiv:2202.01821, 2022.
  • [16] R. Arandjelovic, P. Gronat, A. Torii, T. Pajdla, and J. Sivic, “Netvlad: Cnn architecture for weakly supervised place recognition,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2016, pp. 5297–5307.
  • [17] M. Dusmanu, I. Rocco, T. Pajdla, M. Pollefeys, J. Sivic, A. Torii, and T. Sattler, “D2-net: A trainable cnn for joint detection and description of local features,” arXiv preprint arXiv:1905.03561, 2019.
  • [18] M. Zaffar, S. Garg, M. Milford, J. Kooij, D. Flynn, K. McDonald-Maier, and S. Ehsan, “Vpr-bench: An open-source visual place recognition evaluation framework with quantifiable viewpoint and appearance change,” International Journal of Computer Vision, vol. 129, no. 7, pp. 2136–2174, 2021.
  • [19] T. Sattler, W. Maddern, C. Toft, A. Torii, L. Hammarstrand, E. Stenborg, D. Safari, M. Okutomi, M. Pollefeys, J. Sivic et al., “Benchmarking 6dof outdoor visual localization in changing conditions,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2018, pp. 8601–8610.
  • [20] U. S. Parihar, A. Gujarathi, K. Mehta, S. Tourani, S. Garg, M. Milford, and K. M. Krishna, “Rord: Rotation-robust descriptors and orthographic views for local feature matching,” in 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, pp. 1593–1600.
  • [21] A. Torii, J. Sivic, T. Pajdla, and M. Okutomi, “Visual place recognition with repetitive structures,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2013, pp. 883–890.
  • [22] T.-Y. Lin, Y. Cui, S. Belongie, and J. Hays, “Learning deep representations for ground-to-aerial geolocalization,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2015, pp. 5007–5015.
  • [23] M. Zaffar, A. Khaliq, S. Ehsan, M. Milford, K. Alexis, and K. McDonald-Maier, “Are state-of-the-art visual place recognition techniques any good for aerial robotics?” arXiv preprint arXiv:1904.07967, 2019.
  • [24] J. Rehder, J. Nikolic, T. Schneider, T. Hinzmann, and R. Siegwart, “Extending kalibr: Calibrating the extrinsics of multiple imus and of individual axes,” in IEEE Int. Conf. Robot. Autom. (ICRA). IEEE, 2016, pp. 4304–4311.