基于顶点滑动的多方向物体检测方法.pdf
《基于顶点滑动的多方向物体检测方法.pdf》由会员分享,可在线阅读,更多相关《基于顶点滑动的多方向物体检测方法.pdf(17页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910921351.9 (22)申请日 2019.09.27 (71)申请人 华中科技大学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 许永超符明韬王启萌王裕康 白翔 (74)专利代理机构 深圳市六加知识产权代理有 限公司 44372 代理人 向彬 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/32(2006.01) G06K 9/62(2006.01) G06N 3/04(2006.01) G06N 3/08(2。
2、006.01) G06T 7/73(2017.01) (54)发明名称 一种基于顶点滑动的多方向物体检测方法 (57)摘要 本发明公开了一种基于顶点滑动的多方向 物体检测算法。 与传统的回归角度或者回归四个 顶点的方法不同, 该方法不存在回归角度所带来 的不稳定问题, 也不存在回归四个顶点所带来的 歧义。 首先, 通过卷积网络所获取到的特征同时 预测物体的水平包围盒、 滑动顶点、 及其倾斜包 围盒相对于水平包围盒的面积比例, 从而得到物 体的水平包围盒、 倾斜包围盒及倾斜程度, 通过 倾斜程度确定究竟是选择倾斜或是水平包围盒。 对于倾斜程度较大的物体, 选择倾斜包围盒; 对 于几近水平的物体,。
3、 直接选择该物体水平包围 盒。 该方法是针对在多方向物体领域常用的两种 表示方法所提出的第三种方法, 实现简单, 几乎 不增加额外时间, 能显著提升检测性能, 具有很 强的实际应用价值。 权利要求书5页 说明书9页 附图2页 CN 110717427 A 2020.01.21 CN 110717427 A 1.一种基于顶点滑动的多方向物体检测方法, 其特征在于, 所述方法包括下述步骤: (1)训练基于顶点滑动的多方向物体检测网络模型, 包括如下子步骤: (1.1)对原始数据集中所有图片的多方向物体进行实例级别的标注, 标签为实例级别 的物体包围盒的四个顶点坐标, 顶点为顺时针标注, 其中物体包。
4、围盒为四边形, 得到带标注 的标准训练数据集; (1.2)定义基于顶点滑动的多方向物体检测网络模型, 根据(1.1)带标注的标准训练数 据集, 计算训练标签, 并设计损失函数, 利用反向传导方法训练该多方向物体检测网络, 得 到基于顶点滑动的多方向物体检测网络模型; 包括: (1.2.1)构建基于顶点滑动的多方向物体检测网络模型, 所述检测网络模型由特征金 字塔网络、 区域提取网络、 区域分类回归分支网络组成; (1.2.2)根据特征图在原图上设置水平锚点, 为所述识别网络模型中区域提取网络、 区 域分类回归分支网络生成训练标签; (1.2.3)以带标注的标准训练数据集作为检测网络模型的输入,。
5、 利用特征金字塔网络 提取特征; (1.2.4)将特征金字塔网络提取的特征输入区域提取网络, 经过锚点分配, 利用感兴趣 区域对齐方法调整特征图, 生成物体候选框; (1.2.5)将物体候选框输入区域分类回归分支网络模块, 经过分类和回归两个分支, 计 算损失函数并反向传导, 最终生成预测物体的水平包围盒偏移量, 四个长度比例以及物体 倾斜系数; (1.2.6)以训练标签gt为网络期望输出, 以预测标签为网络预测输出, 针对构建的网 络模型, 设计期望输出和预测输出之间的目标损失函数, 利用反向传导方法训练该多方向 物体检测网络; (2)利用上述训练好的模型对待检测图片进行物体检测, 包括如下。
6、子步骤: (2.1)将待检测图片输入特征金字塔网络提取特征, 经过区域提取网络, 区域分类回归 分支网络生成预测物体的水平包围盒相对锚点的偏移量、 四个长度比例以及物体倾斜系 数; (2.2)通过水平包围盒的顶点坐标以及四个长度比例计算出倾斜包围盒顶点的位置, 当预测的物体倾斜系数大于预设阈值时, 选择水平包围盒, 否则选择倾斜包围盒作为多方 向物体的检测结果, 并对检测结果进行非最大值抑制操作进行过滤, 得到输出结果, 所述水 平包围盒的顶点坐标是通过锚点和水平包围盒相对锚点的偏移量计算得到。 2.根据权利要求1所述的基于顶点滑动的多方向物体检测方法, 其特征在于, 所述步骤 (1.2.1)。
7、中的检测网络模型具体为: 所述检测网络模型由特征金字塔网络、 区域提取网络和区域分类回归分支网络组成; 其中, 所述特征金字塔结构网络以ResNet-101深度卷积神经网络为基础网络, 通过增加一 个自底向上的连接, 一个自顶向下的连接和一个横向连接组成, 用于从输入标准数据集图 片中提取融合不同分辨率的特征; 将提取的不同尺度的特征输入到区域提取网络得到物体 候选区域, 经过感兴趣区域对齐操作后, 得到固定尺度的物体候选区域, 分别输入到区域分 类回归分支网络; 将区域提取网络提取的分辨率为77的物体候选区域输入区域分类回归 权利要求书 1/5 页 2 CN 110717427 A 2 分支。
8、网络, 区域分类回归分支网络包括分类分支和回归分支, 通过分类分支预测输入的物 体候选区域为各个类别的概率, 提供更准确的物体候选区域, 通过回归分支计算物体水平 候选区域相对于真实物体区域的偏移量, 四个长度比例以及一个倾斜系数; 通过偏移量调 整物体候选区域位置, 得到水平包围盒, 在水平包围盒的四条边上通过对应的长度比例确 定倾斜包围盒顶点的位置, 若倾斜系数大于给定阈值, 则采用水平包围盒作为多方向物体 的检测结果, 否则采用倾斜包围盒作为多方向物体的检测结果。 3.根据权利要求1或2所述的基于顶点滑动的多方向物体检测方法, 其特征在于, 所述 步骤(1.2.2)具体为: 对于标准训练。
9、数据集Itr的第k张图片Itrk, 将图片Itrk的宽度和高度分别缩放到预设 宽度W和预设高度H; 对Itrk上任一标注的物体四边形包围盒Gd(v1,v2,v3,v4), 其中vi (xi,yi)为四边形第i个顶点的横、 纵坐标, 下标i1,2,3,4, 其顺序为按照顺时针顺序排列, 第一个顶点v1取当v1的取值有两个时, 取两者中x较小的顶 点作为v1; Gb(x,y,w,h)为包围Gd的最小水平矩形, 其中(x,y)为矩形的中心点坐标, w和h 为矩形的宽度和高度; Gb(b1,b2,b3,b4)是最小水平矩形的坐标表示形式, 其中bi(xi, yi)为矩形第i个顶点横、 纵坐标, 下标i。
10、1,2,3,4, 其顺序为按照顺时针顺序排列, b1取左上 角顶点; 对于区域提取网络, 根据最小水平矩形Gb(x, y, h, w), 以特征金字塔输出的待提取特征 图中的每张特征图上的每个像素对应到原图, 根据区域提取网络预测的物体候选区域设置 许多锚点Q0, 计算锚点相对于最小水平矩形Gb的位置偏移量和类别, 当所有的最小水平矩形 Gb与锚点Q0的Jaccard系数均小于0.3, 并且该锚点不是所有锚点中与Gb的Jaccard系数最大 的那一个时, 那么锚点Q0被标记为负类, 类别标签Prpn取值为0; 若至少存在一个最小水平矩 形Gb与Q0的Jaccard系数不小于0.7, 或者该锚点。
11、是所有锚点中与Gb的Jaccard系数最大的那 一个时, Q0被标记为正类, 类别标签Prpn取值为1, 并相对于Jaccard系数最大的标注盒来计 算位置偏移量, 公式如下: x(x-x0)/w0 y(y-y0)/h0 wlog(w/w0) hlog(h/h0) 其中, x0、 y0分别为锚点Q0的中心点的横坐标、 纵坐标, w0、 h0分别为锚点Q0的宽度和高 度, x、 y分别为Q0的中心点相对于Gb的中心点的横、 纵坐标位置偏移量, log为对数运算, 得到区域提取网络的训练标签为: gtrpn(xrpn,yrpn,hrpn,wrpn,Prpn), 其余锚点不参 与训练; 对于区域分类。
12、分支和回归分支需要生成四种类型的目标标签: 用于分类的类别标签、 用于回归水平包围盒的偏移量标签、 用于得到倾斜包围盒的长度比例标签和用于对两种包 围盒进行选择的倾斜系数标签; 经过区域提取网络获得回归后的水平包围盒Q1, 将Q1匹配到 Jaccard系数最大的最小水平矩形Gb, 当两者的Jaccard系数大于0.5时, Q1类别标签Prcnn取 Gb对应类别, 当两者的Jaccard系数小于0.5时, Q1被标记为背景类别, Prcnn取0; 同理可计算 得水平包围盒的偏移量标签(xrcnn,yrcnn,hrcnn,wrcnn); 对于长度比例标签 i(i1, 2,3,4), 首先计算最小水。
13、平矩形G b与标注四边形包围盒Gd对应顶点的长度silength(bi, 权利要求书 2/5 页 3 CN 110717427 A 3 vi)(i1,2,3,4), 接下来计算长度比例 i: 1,3s1,3/w 2,4s2,4/h 对于倾斜系数标签r, 计算公式如下: r|Gd|/|Gb| 其中|Gd|和|Gb|分别表示Gd和Gb的面积; 区域分类回归分支网络的训练标签为: gtrcnn(xrcnn,yrcnn,hrcnn,wrcnn,Prcnn,r, 1, 2, 3, 4) 综合上述标签gtrpn和gtrcnn, 生成最终的训练标签为: gtxrpn,yrpn,hrpn,wrpn,Prpn,。
14、xrcnn,yrcnn, hrcnn,wrcnn,Prcnn,r, 1, 2, 3, 4。 4.根据权利要求1或2所述的基于顶点滑动的多方向物体检测方法, 其特征在于, 所述 步骤(1.2.3)具体为: 将标准训练数据集Itr中的图片输入特征金字塔网络自底向上的ResNet-101网络结构 中, 以网络中不改变特征图大小的卷积层单元定义为一个层级, 即层级P2, P3, P4, P5, P6, 提取出每个层级的最后输出的卷积特征; 特征金字塔网络模块中自顶向下的连接对 ResNet-101的输出卷积特征进行上采样生成多尺度上采样特征, 特征金字塔网络模块中横 向连接结构将自顶向下过程上采样的每。
15、个层级的特征和自底向上过程生成的特征进行融 合生成最终的特征F2, F3, F4, F5, F6。 5.根据权利要求1或2所述的基于顶点滑动的多方向物体检测方法, 其特征在于, 所述 步骤(1.2.4)具体为: 对于输入图片Itrk, 经过特征金字塔网络提取出5个阶段特征F2, F3, F4, F5, F6, 根据 阶段P2, P3, P4, P5, P6定义锚在不同阶段特征尺度为322, 642, 1282, 2562, 5122, 而每个尺 度层都有3个长宽比12, 1 1, 2 1; 即可提取出不同尺度和比例的15个特征图Ftr1, Ftr2, , Ftr15, 记为Ftrp, 下标p1。
16、, , 15; 通过感兴趣区域对齐操作, 对特征Ftrp生成固定尺度的物体候选区域, 其中为区域提取 网络生成分辨率为77的物体候选区域Rrcnn, 通过分类预测每个物体候选框为正确物体区 域包围盒的概率Pr p n, 通过回归预测物体候选框偏移量 6.根据权利要求1或2所述的基于顶点滑动的多方向物体检测方法, 其特征在于, 所述 步骤(1.2.5)具体为: 区域分类回归分支网络分为分类和回归两个网络分支, 将大小为77的物体候选区域 Rrcnn输入分类分支, 通过全连接操作输出预测包围盒的分类得分即预测包围盒为各 个类别的概率, 每个类别的概率取值为0, 1之间的小数; 将Rrcnn输入回归。
17、分支, 输出9个 0, 1之间的小数组成作为预测水 平包围盒Gq被预测为正类时中心点的横坐标、 纵坐标、 高度和宽度相对于标注包围盒Gb中心 点的横坐标、 纵坐标、 高度和宽度的预测位置偏移量,倾斜系数以及长度比例。 7.根据权利要求1或2所述的基于顶点滑动的多方向物体检测方法, 其特征在于, 所述 权利要求书 3/5 页 4 CN 110717427 A 4 步骤(1.2.6)具体为: 以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出, 以步骤(1.2.4)和(1.2.5) 中的预测标签为网络预测输出, 针对步骤(1.2.1)构建的 网络模型, 设计期望输出和预测输出之间的目标损失。
18、函数, 整体目标损失函数由区域提取 网络、 区域分类回归分支网络损失函数共同组成, 整体目标损失函数表达式如下: 其中,为区域提取网络的损失函数,为区域 分类回归分支网络的损失函数, 特别地, L是长度比例损失函数, Lr是倾斜系数损失函数, 1, 2, 3为损失函数的权重系数; 根据设计的整体目标损失函数, 利用反向传播算法对模型进行迭代训练, 最小化分类 损失和回归损失组成的整体目标损失函数, 实现最优网络模型。 8.根据权利要求1或2所述的基于顶点滑动的多方向物体检测方法, 其特征在于, 所述 步骤(2.1)具体为: 对于待检测数据集Itst里的第k张图片Itstk, 将其输入到步骤(1。
19、.2)训练好的模型中, 经过特征金字塔网络和区域提取网络后生成回归后的包围盒再输入区域分类回归分支网 络, 对每个包围盒Gq, 分类分支会输出由分类得分预测值Prcnn, 作为Gq被预测为各个类别的 得分; 回归分支输出由9个小数组成 作为预测水平包围盒Gq被预测为正类时中心点的横坐标、 纵坐标、 高度和宽度相对于标注 包围盒Gb中心点的横坐标、 纵坐标、 高度和宽度的预测位置偏移量,倾斜系数以及长度比 例。 9.根据权利要求1或2所述的基于顶点滑动的多方向物体检测方法, 其特征在于, 所述 步骤(2.2)具体为: 根据Yrcnn中的计算网络预测到的水平包围盒位置 Qzh, 根据Yrcnn中的。
20、以及Qzh计算网络预测到的倾斜包围盒位置Qzr, 最后根据倾 斜系数 和阈值(0.8)从Qzh和Qzr中选择最终预测结果: 对预测的多方向物体包围盒Qz进行非最大值抑制操作进行过滤, 得到输出结果: 1)对预 权利要求书 4/5 页 5 CN 110717427 A 5 测到的多方向围盒, 当且仅当物体分类得分时, 该检测结果才被保留; 2)对 上一步保留的多方向包围盒, 按照Jaccard系数0.1进行非最大值抑制操作, 得到最后保留 的正类物体多方向包围盒。 权利要求书 5/5 页 6 CN 110717427 A 6 一种基于顶点滑动的多方向物体检测方法 技术领域 0001 本发明属于计。
21、算机视觉技术领域, 更具体地, 涉及一种基于顶点滑动的多方向物 体检测方法。 背景技术 0002 由于卷积神经网络的出现, 目标检测已经取得了令人欣喜的成就。 现有的最优秀 的目标检测算法通过回归一个水平包围盒来检测物体, 这对于多方向的物体而言是不适合 的。 然而, 多方向的物体是广泛存在的, 多方向的物体检测也有着广泛的应用, 例如检测遥 感目标、 多方向的自然场景文本以及鱼眼相机照片中的行人。 直接使用经典的预测水平包 围盒的目标检测算法不能够精确的包围旋转的物体, 尤其是在存在大量密集倾斜的物体的 情况下, 邻近物体的水平包围盒存在大幅度的重叠。 0003 近期多方向目标检测的发展主要。
22、来自于对于经典目标检测算法的修改, 使用旋转 矩形或者四个顶点来取代原始的水平包围盒。 这种修改在多方向目标检测领域取得了可期 的结果, 它们一般使用单个或者多个级联的回归, 一般而言级联的回归比单次回归的结果 更准确。 0004 尽管现有的方法取得了不错的结果, 但是仍然有其局限性。 对于使用旋转矩形来 检测的算法, 旋转矩形的角度尤为重要, 一个微小的角度误差将会导致IoU(Intersection over Union, 交并比)迅速降低, 这种情况在细长的物体上(桥梁、 港口、 中文文本行)尤为常 见; 基于顶点回归的的方法一般存在定义标注的歧义, 会产生混乱的检测结果; 而基于部分 。
23、组合的方法和基于分割的方法则会在后处理上花费大量时间。 发明内容 0005 本发明的目的在于提供一种基于顶点滑动的多方向物体检测方法, 该检测方法比 回归角度的方式更加健壮, 弥补了回归四个顶点的方式在倾斜时顶点定义歧义导致的漏 洞, 实现了任意方向物体的准确检测。 0006 为实现上述目的, 本发明从一个全新的视角来解决多方向物体的检测问题, 提供 了一种基于分治算法的倾斜/水平框选择机制与倾斜包围盒的表示方法, 包括以下步骤: 0007 (1)训练基于顶点滑动的多方向物体检测网络模型, 包括如下子步骤: 0008 (1.1)对原始数据集中所有图片的多方向物体进行实例级别的标注, 标签为实例。
24、 级别的物体包围盒的四个顶点坐标, 顶点为顺时针标注, 其中物体包围盒为四边形, 得到带 标注的标准训练数据集; 0009 (1.2)定义基于顶点滑动的多方向物体检测网络模型, 根据(1.1)带标注的标准训 练数据集, 计算训练标签, 并设计损失函数, 利用反向传导方法训练该多方向物体检测网 络, 得到基于顶点滑动的多方向物体检测网络模型; 包括: 0010 (1.2.1)构建基于顶点滑动的多方向物体检测网络模型, 所述检测网络模型由特 征金字塔网络、 区域提取网络、 区域分类回归分支网络组成; 其中, 所述特征金字塔结构网 说明书 1/9 页 7 CN 110717427 A 7 络以Res。
25、Net-101深度卷积神经网络为基础网络, 通过增加一个自底向上的连接, 一个自顶 向下的连接和一个横向连接组成, 用于从输入标准数据集图片中提取融合不同分辨率的特 征; 将提取的不同尺度的特征输入到区域提取网络得到物体候选区域, 经过感兴趣区域对 齐操作后, 得到固定尺度的物体候选区域, 分别输入到区域分类回归分支网络; 将区域提取 网络提取的分辨率为77的物体候选区域输入区域分类回归分支网络, 区域分类回归分支 网络包括分类分支和回归分支, 通过分类分支预测输入的物体候选区域为各个类别的概 率, 提供更准确的物体候选区域, 通过回归分支计算物体水平候选区域相对于真实物体区 域的偏移量, 四。
26、个长度比例以及一个倾斜系数; 通过偏移量调整物体候选区域位置, 得到水 平包围盒, 在水平包围盒的四条边上通过对应的长度比例确定倾斜包围盒顶点的位置, 若 倾斜系数大于给定阈值, 则采用水平包围盒作为多方向物体的检测结果, 否则采用倾斜包 围盒作为多方向物体的检测结果。 0011 (1.2.2)根据特征图在原图上设置水平锚点, 为所述识别网络模型中区域提取网 络、 区域分类回归分支网络生成训练标签; 对于标准训练数据集Itr的第k张图片Itrk, 将图 片Itrk的宽度和高度分别缩放到预设宽度W和预设高度H; 对Itrk上任一标注的物体四边形 包围盒Gd(v1, v2, v3, v4), 其中。
27、vi(xi, yi)为四边形第i个顶点的横、 纵坐标, 下标i1, 2, 3, 4, 其顺序为: 按照顺时针顺序排列, 第一个顶点v1取当 v1的取值有两个时, 取两者中x较小的顶点作为v1; Gb(x, y, w, h)为包围Gd的最小水平矩 形, 其中(x, y)为矩形的中心点坐标, W和h为矩形的宽度和高度; Gb(b1, b2, b3, b4)是最小 水平矩形的坐标表示形式, 其中bi(xi, yi)为矩形第i个顶点横、 纵坐标, 下标i1, 2, 3, 4, 其顺序为, 按照顺时针顺序排列, b1取左上角顶点; 0012 对于区域提取网络, 根据最小水平矩形Gb(x, y, h, w。
28、), 以特征金字塔输出的待提取 特征图中的每张特征图上的每个像素对应到原图, 根据区域提取网络预测的物体候选区域 设置许多锚点Q0, 计算锚点相对于最小水平矩形Gb的位置偏移量和类别, 当所有的最小水平 矩形Gb与锚点Q0的Jaccard系数均小于0.3, 并且该锚点不是所有锚点中与Gb的Jaccard系数 最大的那一个时, 那么锚点Q0被标记为负类, 类别标签Prpn取值为0; 若至少存在一个最小水 平矩形Gb与Q0的Jaccard系数不小于0.7, 或者该锚点是所有锚点中与Gb的Jaccard系数最大 的那一个时, Q0被标记为正类, 类别标签Prpn取值为1, 并相对于Jaccard系数。
29、最大的标注盒 来计算位置偏移量, 公式如下: 0013 x(x-x0)/w0 0014 y(y-y0)/h0 0015 wlog(w/w0) 0016 hlog(h/h0) 0017 其中, x0、 y0分别为锚点Q0的中心点的横坐标、 纵坐标, w0、 h0分别为锚点Q0的宽度和 高度, x、 y分别为Q0的中心点相对于Gb的中心点的横、 纵坐标位置偏移量, log为对数运 算, 即可得区域提取网络的训练标签为: 0018 gtrpn(xrpn, yrpn, hrpn, wrpn, Prpn) 0019 其余锚点不参与训练。 0020 对于区域分类分支和回归分支需要生成四种类型的目标标签: 。
30、用于分类的类别标 说明书 2/9 页 8 CN 110717427 A 8 签、 用于回归水平包围盒的偏移量标签、 用于得到倾斜包围盒的长度比例标签和用于对两 种包围盒进行选择的倾斜系数标签; 经过区域提取网络可以获得回归后的水平包围盒Q1, 将Q1匹配到Jaccard系数最大的最小水平矩形Gb, 当两者的Jaccard系数大于0.5时, Q1类别 标签Prcnn取Gb对应类别, 当两者的Jaccard系数小于0.5时, Q1被标记为背景类别, Prcnn取0; 同理可计算得水平包围盒的偏移量标签(xrcnn, yrcnn, hrcnn, wrcnn); 对于长度比例标 签 i(i1, 2, 。
31、3, 4), 首先计算最小水平矩形G b与标注四边形包围盒Gd对应顶点的长度si length(bi, vi)(i1, 2, 3, 4), 接下来计算长度比例 i: 0021 1, 3s1, 3/w 0022 2, 4s2, 4/h 0023 对于倾斜系数标签r, 计算公式如下: 0024 r|Gd|/|Gb| 0025 其中|Gd|和|Gb|分别表示Gd和Gb的面积; 区域分类回归分支网络的训练标签为: 0026 gtrcnn(xrcnn, yrcnn, hrcnn, wrcnn, Prcnn, r, 1, 2, 3, 4) 0027 综合上述标签gtrpn和gtrcnn, 生成最终的训练标。
32、签为: 0028 gtxrpn, yrpn, hrpn, wrpn, Prpn, xrcnn, yrcnn, 0029 hrcnn, wrcnn, Prcnn, r, 1, 2, 3, 4; 0030 (1.2.3)以带标注的标准训练数据集Itr作为检测网络模型的输入, 利用特征金字 塔网络提取特征; 将标准训练数据集Itr中的图片输入特征金字塔网络自底向上的ResNet- 101网络结构中, 以网络中不改变特征图大小的卷积层单元定义为一个层级, 即层级P2, P3, P4, P5, P6, 提取出每个层级的最后输出的卷积特征F; 特征金字塔网络模块中自顶向下 的连接对ResNet-101的输。
33、出卷积特征进行上采样生成多尺度上采样特征, 特征金字塔网络 模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特 征进行融合生成最终的特征F2, F3, F4, F5, F6。 0031 (1.2.4)将特征金字塔网络提取的特征输入区域提取网络, 经过锚点分配, 利用感 兴趣区域对齐方法调整特征图, 生成物体候选框; 对于输入图片Itrk, 经过特征金字塔网络 提取出5个阶段特征F2, F3, F4, F5, F6, 根据阶段P2, P3, P4, P5, P6定义锚在不同阶段特 征尺度为322, 642, 1282, 2562, 5122, 而每个尺度层都有3个长宽比。
34、1 2, 1 1, 2 1; 即可提 取出不同尺度和比例的15个特征图Ftr1, Ftr2, , Ftr15, 记为Ftrp, 下标p1, , 15; 0032 通过感兴趣区域对齐操作, 对特征Ftrp生成固定尺度的物体候选区域, 其中为区域 提取网络生成分辨率为77的物体候选区域Rrcnn, 通过分类预测每个物体候选框为正确物 体区域包围盒的概率Prpn, 通过回归预测物体候选框偏移量 0033 (1.2.5)将物体候选框输入区域分类回归分支网络模块, 经过分类和回归两个分 支, 计算损失函数并反向传导, 最终生成预测物体的水平包围盒偏移量, 四个长度比例以及 物体倾斜系数; 区域分类回归分。
35、支网络分为分类和回归两个网络分支, 将大小为77的物 体候选区域Rrcnn输入分类分支, 通过全连接操作输出预测包围盒的分类得分即预测 包围盒为各个类别的概率, 每个类别的概率取值为0, 1之间的小数; 将Rrcnn输入回归分 支, 输出9个0, 1之间的小数组成 说明书 3/9 页 9 CN 110717427 A 9 作为预测水平包围盒Gq被预测为 正类时中心点的横坐标、 纵坐标、 高度和宽度相对于标注包围盒Gb中心点的横坐标、 纵坐 标、 高度和宽度的预测位置偏移量,倾斜系数以及长度比例。 0034(1.2.6)以训练标签gt为网络期望输出, 以预测标签为网络预测输出, 针对构建 的网络。
36、模型, 设计期望输出和预测输出之间的目标损失函数; 以步骤(1.2.2)中计算得到的 训练标签gt为网络期望输出 , 以 步骤 (1 .2 .4) 和 (1 .2 .5) 中的预测标签 为网络预测输出, 针对步骤(1.2.1)构建的网络模型, 设计期望 输出和预测输出之间的目标损失函数, 整体目标损失函数由区域提取网络、 区域分类回归 分支网络损失函数共同组成, 整体目标损失函数表达式如下: 0035 0036 0037 0038 0039其中,为区域提取网络的损失函数,为 区域分类回归分支网络的损失函数, 特别地, L是长度比例损失函数, Lr是倾斜系数损失函 数,1, 2, 3为损失函数的。
37、权重系数, 分别设置为1, 1, 12; 0040 根据设计的整体目标损失函数, 利用反向传播算法对模型进行迭代训练, 最小化 分类损失和回归损失组成的整体目标损失函数, 实现最优网络模型。 0041 (2)利用上述训练好的模型对待检测图片进行物体检测, 包括如下子步骤: 0042 (2.1)将待检测图片输入特征金字塔网络提取特征, 经过区域提取网络, 区域分类 回归分支网络生成预测物体的水平包围盒偏移量、 四个长度比例以及物体倾斜系数; 对于 待检测数据集Itst里的第k张图片Itstk, 将其输入到步骤(1.2)训练好的模型中, 经过特征 金字塔网络和区域提取网络后生成回归后的包围盒再输入。
38、区域分类回归分支网络, 对每个 包围盒Gq, 分类分支会输出由分类得分预测值Prcnn, 作为Gq被预测为各个类别的得分; 回归 分支会输出由9个小数组成作为预 测水平包围盒Gq被预测为正类时中心点的横坐标、 纵坐标、 高度和宽度相对于标注包围盒Gb 中心点的横坐标、 纵坐标、 高度和宽度的预测位置偏移量,倾斜系数以及长度比例; 结合锚 点和水平包围盒相对锚点的偏移量可以得到水平包围盒的顶点坐标。 0043(2.2)根据Yrcnn中的可以计算网络预测到的水 平包围盒位置Qzh, 根据Yrcnn中的以及Qzh可以计算网络预测到的倾斜包围盒 位置Qzr, 最后根据倾斜系数 和阈值(0.8)从Qzh。
39、和Qzr中选择最终预测结果: 说明书 4/9 页 10 CN 110717427 A 10 0044 0045 对预测的多方向物体包围盒Qz进行非最大值抑制操作进行过滤, 得到输出结果: 网络模型对特征图Ftstp上每个预测为正类物体的初始包围盒Q0都会回归出多方向包围盒的 位置, 同一张测试图片Itstk上每个特征图上回归出的正类多方向包围盒通常会出现彼此重 叠的情况, 这时就要对所有正类物体多方向包围盒位置做非最大值抑制操作, 具体步骤是: 1)对预测到的多方向围盒, 当且仅当物体分类得分时, 该检测结果才被保 留; 2)对上一步保留的多方向包围盒, 按照Jaccard系数0.1进行非最大。
40、值抑制操作(NMS), 得到最后保留的正类物体多方向包围盒。 0046 通过本发明所构思的以上技术方案, 与现有技术相比, 本发明具有以下技术效果: 0047 (1)准确度高: 该发明定位比回归角度的方法更加健壮, 没有回归四个角点的方法 的歧义导致的对于特定角度的漏洞, 可以对任意方向物体进行精准检测; 0048 (2)通用性强: 本发明可用于多种多方向物体检测(如场景文本, 遥感物体以及鱼 眼图像中的行人)而不针对某一类特定物体进行专门设计, 理论上可以用于任何有类似性 质的物体检测。 附图说明 0049 图1是本发明基于顶点滑动的多方向物体检测方法的流程图, 其中, 实线箭头表示 训练,。
41、 虚线箭头表示测试; 0050 图2是本发明倾斜包围盒的表示方法; 0051 图3是本发明一实施例中利用训练好的基于滑动顶点的多方向物体检测网络模型 对遥感物体和场景文本进行检测的可视化结果。 具体实施方式 0052 为了使本发明的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对 本发明进行进一步详细说明。 应当理解, 此处所描述的具体实施例仅仅用以解释本发明, 并 不用于限定本发明。 此外, 下面所描述的本发明各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可以相互组合。 0053 以下首先就本发明的技术术语进行解释和说明: 0054 ResNet: ResNet是。
42、基于残差块堆叠的深度卷积神经网络, 残差结构防止了在训练 网络时梯度的消失, 通过多个通道越来越多的残差块的堆叠, 成为经典的卷积神经网络模 型。 它们的预训练模型可用于PyTorch开发框架下的即插即用, 通常被现有的多数计算机视 觉任务采用为网络模型的基本结构。 0055 区域建议网络(RPN, Region Proposal Network): 区域建议是指的在目标检测中 初步得到的大致物体区域包围盒。 借由输入一张特征图, 卷积核在特征图上扫描预测得到 相对于锚点的偏移以及置信分数, 从而得到大致为物体的包围盒以及其为前景物体的置信 度。 0056 RoI池化: 得到区域建议之后, 检。
43、测器会将特征图中的特征根据区域建议裁剪出来 说明书 5/9 页 11 CN 110717427 A 11 得到小部分区域的特征以供后期的分类与回归使用, 这一步便是RoI池化。 0057 旋转矩形回归: 既有的回归多方向物体包围盒的一种基本方法, 通过将多方向物 体包围盒表示成四个顶点的坐标(8个参数), 直接回归四个顶点的偏移量得到最终的结果。 该方法的问题在于, 多方向物体的顶点除了必须是凸四边形之外, 并无严格顺序, 但网络的 预测必须严格定义顺序, 从而造成了回归目标的歧义, 不利于学习与预测。 0058 四个顶点回归: 已有的回归多方向物体包围盒的另一种基本方法。 通过将多方向 物体。
44、包围盒表示成一个带旋转角度的矩形(5个参数), 除了回归经典的水平包围盒之外, 外 加一个角度参数, 最终得到结果。 该方法的问题在于, 旋转角度回归的准确性十分关键, 角 度的一点偏差可能造成IoU迅速下降。 0059 非最大值抑制(NMS, non maximum suppression): 非最大值抑制是一种在计算机 视觉检测领域中被广泛应用的后处理算法, 它按照设定的阈值, 通过排序、 遍历和剔除来循 环迭代实现对重叠检测框的过滤, 去掉冗余的检测框, 得到最终的检测结果。 0060 如图1所示, 本发明基于顶点滑动的多方向物体检测网络方法包括以下步骤: 0061 (1)训练基于顶点滑。
45、动的多方向物体检测网络模型, 包括如下子步骤: 0062 (1.1)对原始数据集中所有图片的多方向物体进行实例级别的标注, 标签为实例 级别的物体包围盒的四个顶点坐标, 顶点为顺时针标注, 其中物体包围盒为四边形, 得到带 标注的标准训练数据集; 0063 (1.2)定义基于顶点滑动的多方向物体检测网络模型, 根据(1.1)带标注的标准训 练数据集, 计算训练标签, 并设计损失函数, 利用反向传导方法训练该多方向物体检测网 络, 得到基于顶点滑动的多方向物体检测网络模型; 包括: 0064 (1.2.1)构建基于顶点滑动的多方向物体检测网络模型, 所述检测网络模型由特 征金字塔网络、 区域提取。
46、网络、 区域分类回归分支网络组成; 其中, 所述特征金字塔结构网 络以ResNet-101深度卷积神经网络为基础网络, 通过增加一个自底向上的连接, 一个自顶 向下的连接和一个横向连接组成, 用于从输入标准数据集图片中提取融合不同分辨率的特 征; 将提取的不同尺度的特征输入到区域提取网络得到物体候选区域, 经过感兴趣区域对 齐操作后, 得到固定尺度的物体候选区域, 分别输入到区域分类回归分支网络; 将区域提取 网络提取的分辨率为77的物体候选区域输入区域分类回归分支网络, 区域分类回归分支 网络包括分类分支和回归分支, 通过分类分支预测输入的物体候选区域为各个类别的概 率, 提供更准确的物体候。
47、选区域, 通过回归分支计算物体水平候选区域相对于真实物体区 域的偏移量, 四个长度比例以及一个倾斜系数; 通过偏移量调整物体候选区域位置, 得到水 平包围盒, 在水平包围盒的四条边上通过对应的长度比例确定倾斜包围盒顶点的位置, 若 倾斜系数大于给定阈值, 则采用水平包围盒作为多方向物体的检测结果, 否则采用倾斜包 围盒作为多方向物体的检测结果。 0065 (1.2.2)根据特征图在原图上设置水平锚点, 为所述识别网络模型中区域提取网 络、 区域分类回归分支网络生成训练标签; 对于标准训练数据集Itr的第k张图片Itrk, 将图 片Itrk的宽度和高度分别缩放到预设宽度W和预设高度H; 如图2所。
48、示, 为本发明实施例中倾 斜包围盒的表示方法; 对Itrk上任一标注的物体四边形包围盒Gd(v1, v2, v3, v4), 其中vi (xi, yi)为四边形第i个顶点的横、 纵坐标, 下标i1, 2, 3, 4, 其顺序为: 按照顺时针顺序排 列, 第一个顶点v1取当v1的取值有两个时, 取两者中x较小 说明书 6/9 页 12 CN 110717427 A 12 的顶点作为v1; Gb(x, y, w, h)为包围Gd的最小水平矩形, 其中(x, y)为矩形的中心点坐标, W 和h为矩形的宽度和高度; Gb(b1, b2, b3, b4)是最小水平矩形的坐标表示形式, 其中bi (xi,。
49、 yi)为矩形第i个顶点横、 纵坐标, 下标i1, 2, 3, 4, 其顺序为, 按照顺时针顺序排列, b1 取左上角顶点; 0066 对于区域提取网络, 根据最小水平矩形Gb(x, y, h, w), 以特征金字塔输出的待提取 特征图中的每张特征图上的每个像素对应到原图, 根据区域提取网络预测的物体候选区域 设置许多锚点Q0, 计算锚点相对于最小水平矩形Gb的位置偏移量和类别, 当所有的最小水平 矩形Gb与锚点Q0的Jaccard系数均小于0.3, 并且该锚点不是所有锚点中与Gb的Jaccard系数 最大的那一个时, 那么锚点Q0被标记为负类, 类别标签Prpn取值为0; 若至少存在一个最小。
50、水 平矩形Gb与Q0的Jaccard系数不小于0.7, 或者该锚点是所有锚点中与Gb的Jaccard系数最大 的那一个时, Q0被标记为正类, 类别标签Prpn取值为1, 并相对于Jaccard系数最大的标注盒 来计算位置偏移量, 公式如下: 0067 x(x-x0)/w0 0068 y(y-y0)/h0 0069 wlog(w/w0) 0070 hlog(h/h0) 0071 其中, x0、 y0分别为锚点Q0的中心点的横坐标、 纵坐标, w0、 h0分别为锚点Q0的宽度和 高度, x、 y分别为Q0的中心点相对于Gb的中心点的横、 纵坐标位置偏移量, log为对数运 算, 即可得区域提取网。
- 内容关键字: 基于 顶点 滑动 多方 物体 检测 方法
多功能信号采集控制器.pdf
用于汽车曲轴加工用表面打磨装置.pdf
金属锂锭包装装置.pdf
漏电检测设备.pdf
用于管件与端盖焊接的夹具.pdf
电池检测防爆机构.pdf
塑料造粒机用输送装置.pdf
可调路灯.pdf
用于保护电池及储存运输安全的熔断片.pdf
用于不锈钢开平机的可调限位装置.pdf
摆动脉冲出水结构及出水装置.pdf
车载充电器.pdf
隧道内部照明装置.pdf
抗冲击耐腐蚀风机叶片.pdf
装盒机入盒机构及装盒机.pdf
轨道集装箱门式起重机的运行机构.pdf
电极植入设备.pdf
阀门加工用尺寸检测装置.pdf
汽车地桩锁的防撞装置.pdf
污水处理用生态浮床.pdf
汽车散热器管路折弯工装.pdf
玻璃幕墙拼接装置.pdf
钢筋衍架楼承板防漏浆结构及楼承板.pdf
充电桩用防撞阻拦杆.pdf
电视音频测试装置.pdf
定位装夹设备及加工系统.pdf
基于BIM和AI大模型的工程进度管理方法及系统.pdf
基于4D毫米波雷达的目标航迹起始方法.pdf
基于多层级虚拟电厂的能量协调控制分配方法及系统.pdf
钻孔灌注桩清孔装置及其施工方法.pdf
建筑施工安全智能监控系统及方法.pdf
接插件到位检测方法、装置、设备及其介质.pdf
耐蚀耐磨合金.pdf
基于环状化合物的加合物及其作为鞣剂和防腐剂的用途.pdf
模板的制造方法.pdf
作为因子VIIA抑制剂的2-2-羟基联苯-3-基-1H-苯并咪唑-5-甲脒衍生物.pdf
洗衣机供水方法.pdf
糖皮质激素受体调制剂.pdf
受控的泄漏销和振动阻尼器.pdf
轴承机构及缝纫机.pdf
用于包含有不同程度粘性的液体物质的瓶子的倾倒流嘴.pdf
铸造有气缸套的气缸体结构、制造气缸体的方法以及在该方法中铸造的气缸套.pdf
用于机器洗碟的含有亲水改性聚羧酸盐的洗涤剂配料.pdf
内部导向针.pdf
一种治具固定框.pdf
利用条形码检测缝纫机底线的终点的装置和方法.pdf
织物的接缝结构.pdf
墨、喷墨记录法、墨盒、记录单元和喷墨记录设备.pdf
一种双高聚酯污泥脱水网.pdf
一种抗菌性纳滤膜的制备方法.pdf
永动式大气温差发电机.pdf