摘要: 近年来,随着遥感图像分辨率的提高,遥感目标检测(例如飞机、船舶、油桶等检测)已成为研究热点。遥感目标检测具有广泛的应用,如军事调查、灾难救援和城市交通管理。针对舰船目标检测问题,本文创新性的利用旋转框标注的遥感数据集DOTA对Mask RCNN算法进行训练。在对后续的性能分析中,陆续引入群组归一化、权重标准化和可变卷积以提升对旋转框的检测效率。
关键词: Mask RCNN;目标检测;实例分割;旋转框检测
1 项目背景
随着遥感技术的快速发展,遥感图像的空间分辨率、光谱分辨率和辐射分辨率越来越高,这其中包含着丰富的信息。各种不同成像方式、不同空间分辨率的遥感平台得以涌现,产生了大量的遥感图像。遥感在军事和民用领域都有着重要的应用。对于民用领域,遥感图像可用于气象预报、土地规划、环境检测等方面,为国民经济的发展做出了重要的贡献。在军事方面,可以使用遥感图像战略侦察、军事测绘、海洋检测等,可以在不受国界和地域限制的情况下获取各种军事目标情报信息。
目前对于遥感图像中舰船目标的识别占据着重要的地位,由于国家海洋权益越来越受到重视,如何从海量的遥感数据中快速、准确识别舰船成为一个迫切的应用需求。所以本文采用深度学习的方法对遥感图像舰船目标识别,一方面可以替代人们从事重复繁琐的工作,使人们从繁重的遥感图像解译工作中解脱出来;另一方面建立一种端到端的模型结构,不仅可以提高遥感数据的处理速率,而且达到较高的识别准确率。
2 项目具体方案
2.1 数据集的预处理与转换
本次实验选用的是DOTA[7]数据集,该数据集共有2806张图片,来自不同的传感器和平台,每一张尺度约为(800~4000),目标涵盖了各种各样的规模,位置,形状。这些图像被遥感领域的专家注释并被分为15个目标类别,包括飞机、船只、储蓄罐、棒球内场、网球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池,注释后的完整数据集包括188282个实例,每一个被一个任意的四边形标记。
由于DOTA数据集的尺寸非常大,这样的图片输入网络进行训练时,计算资源将不能承载,所以就需要对DOTA数据集进行裁剪。裁剪方式主要分为两个步骤,第一,使用1024×1024窗口在宽幅图片上滑动进行裁剪,窗口每次的步进幅度1000,但是这种裁剪方式可能会导致物体正处于切割处,所以做出如下定义,物体剩余的面积大于或等于原始面积0.7时保留该物体的标注信息,否则对其丢弃处理;第二,对宽幅图像进行放缩,缩放比例分别为0.5,1,2。
Mask RCNN训练时需要三种标注信息,类别(category),包围框(bounding box),掩模(segmentation),其中包围框为非旋转框。DOTA数据集只存在类别与旋转框,标注形式为(x_1,y_1,x_2,y_2,x_3,y_3,x_4,y_4)。DOTA数据集中目标的尺寸范围比较大,舰船面积小至100,大至1000000。切分后的图像尺寸仍然较大,图像中经常性的存在密集排列的物体,所以基于DOTA数据集的识别非常具有挑战性。对舰船目标而言,轮廓信息与旋转框相差无几,所以可以近似将其旋转框等价于掩模标注信息,所以本文Mask RCNN的主要研究对象为舰船目标。对于非旋转框,我们通过旋转框的转换,可以得到非旋转的信息,转换方式如下:
(1)对所有x,y坐标求取
(2)将两两组合,构成四对坐标;
(3)所求的四对坐标即为非旋转信息。
图1为DOTA数据集对舰船目标旋转框的标注,以及通过上述的方式得到非旋转框的标注。
2.2 Mask RCNN算法
Mask RCNN[1]基于Faster RCNN网络架构做出了改进,添加了用于实例分割的分支,该分支与已有的包围框回归分支、分类分支平行。实例分割分支将一个小型的FCN网络应用于所有RoI,预测像素级的分割掩模。Mask RCNN网络相对于Faster RCNN网络主要做出了两处改变,第一,使用RoI Align代替RoI Pooling,使得特征图与原始图片的对齐一致性增强,改善分割的精度;第二,损失函数加入实例分割损失。网络的主要框架图2所示。