基于注意力残差模块和支路融合的人体关键点检测方法.pdf

上传人:n****g 文档编号:10446291 上传时间:2021-06-21 格式:PDF 页数:11 大小:634.36KB
收藏 版权申诉 举报 下载
基于注意力残差模块和支路融合的人体关键点检测方法.pdf_第1页
第1页 / 共11页
基于注意力残差模块和支路融合的人体关键点检测方法.pdf_第2页
第2页 / 共11页
基于注意力残差模块和支路融合的人体关键点检测方法.pdf_第3页
第3页 / 共11页
文档描述:

《基于注意力残差模块和支路融合的人体关键点检测方法.pdf》由会员分享,可在线阅读,更多相关《基于注意力残差模块和支路融合的人体关键点检测方法.pdf(11页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010410104.5 (22)申请日 2020.05.15 (71)申请人 南京邮电大学 地址 210023 江苏省南京市栖霞区栖霞街 道广月路30-06号 (72)发明人 刘峰龙芳芳干宗良崔子冠 赵峥来 (74)专利代理机构 南京苏高专利商标事务所 (普通合伙) 32204 代理人 曹坤 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/46(2006.01) G06K 9/62(2006.01) G06N 3/04(2006.01) G06N。

2、 3/08(2006.01) (54)发明名称 一种基于注意力残差模块和支路融合的人 体关键点检测方法 (57)摘要 本发明公开了一种基于注意力残差模块和 支路融合的人体关键点检测方法。 属于计算机视 觉技术领域, 包括如下步骤: 用特征提取网络对 输入图片进行特征处理, 得到特征图; 将特征图 输入区域生成网络得到目标建议框; 进行区域池 化操作, 得到感兴趣区域特征图; 再将其输入卷 积层中进行特征提取操作得到特征图一; 利用支 路一、 支路二进行特征提取和融合; 将两支路的 结果叠加, 先用反卷积进行分辨率复原再进行两 倍的线性插值上采样; 将关键点的位置建模为独 热二进制掩码进行训练。。

3、 本发明使得网络输出的 信息多样性有所改善, 更好地捕捉不同视野, 不 仅在简单场景下有效解决了检测关键点混乱的 问题, 其准确性和效率性得到提高, 且能够良好 的适应复杂场景。 权利要求书1页 说明书6页 附图3页 CN 111626159 A 2020.09.04 CN 111626159 A 1.一种基于注意力残差模块和支路融合的人体关键点检测方法, 其特征在于, 其检测 方法具体包括以下步骤: 步骤(1.1), 使用特征提取网络对输入图片进行特征处理, 得到特征图; 将特征图输入 区域生成网络得到目标建议框后, 结合特征图进行区域池化操作, 得到感兴趣区域特征图; 步骤(1.2), 将。

4、得到的感兴趣区域特征图输入卷积层中进行特征提取操作, 得到的结果 记为特征图一; 步骤(1.3), 将特征图一分别输入至支路一、 支路二中进行特征处理; 步骤(1.4), 将特征图一通过支路一和支路二中处理的结果叠加, 结果记为特征图二, 再对特征图二反卷积后进行上采样, 最后通过独热二进制掩码得到关节点信息。 2.根据权利要求1所述的一种基于注意力残差模块和支路融合的人体关键点检测方 法, 其特征在于, 步骤(1.3)中所述支路一对特征图一进行特征处理的具体步骤如下: (1.3.1), 在支路一的输入处设计两个一样的注意力残差模块, 配合数据旁路连通网路 中的前后层, 将两个注意力残差模块进。

5、行两两连接和像素级的叠加, 使用级联方式, 使得网 络中每一层模块都接受来自前几层模块的特征映射; (1.3.2), 经过卷积层降维后输入至全连接层; 最后, 对其进行形状重塑得到与支路一 尺寸一致的卷积层。 3.根据权利要求2所述的一种基于注意力残差模块和支路融合的人体关键点检测方 法, 其特征在于, 步骤(1.3.1)中所述注意力残差模块是由空洞卷积的残差小模块配合注意 力机制组成: 其中, 所述的空洞卷积的残差小模块: 是由降维卷积层、 空洞卷积层及升维卷积层三个 卷积层组成, 通过上述三个卷积层的卷积运算得到卷积权重, 设卷积权重为V; 其注意力机制具体步骤: 将V通过一个卷积层进行卷。

6、积运算后, 再依次进行全局加权池 化、 点乘卷积及S型生长曲线, 网络即可得到空间注意力权重; 最后, 空间注意力权重与V加 权, 以实现通道注意力的输出, 得到空间注意力加权特征。 4.根据权利要求1所述的一种基于注意力残差模块和支路融合的人体关键点检测方 法, 其特征在于, 所述步骤(1.3)中支路二对特征图一进行特征处理的操作如下: 将设置在支路二内部的三个空间卷积率不同的空洞卷积层一、 空洞卷积层二及空洞卷 积层三作为一个组合, 通过该组合获得不同的感受野, 从而获取多尺度信息。 5.根据权利要求1-4所述的一种基于注意力残差模块和支路融合的人体关键点检测方 法, 其特征在于, 将两个。

7、支路的输出参数叠加得到特征图二; 对特征图二使用反积卷层进行 分辨率复原, 再由两倍的线性插值进行上采样, 生成高分辨率输出, 最后将人体的关节点位 置建模为独热二进制掩码, 从而得到关节点信息。 权利要求书 1/1 页 2 CN 111626159 A 2 一种基于注意力残差模块和支路融合的人体关键点检测方法 技术领域 0001 本发明属于计算机视觉技术领域, 具体涉及一种基于注意力残差模块和支路融合 的人体关键点检测方法。 背景技术 0002 现有技术中, 对人体姿态的检测一直被国内外学者广泛关注, 也是计算机视觉领 域中的一项重要课题, 其核心内容是通过图像处理与分析、 机器学习、 模式。

8、识别等技术从图 片中检测出人体目标, 区分人体部位, 进而对人的关节点进行检测; 近年来国内外的相关研 究依据获取人体描述姿态的原始数据方式的不同, 将检测人体姿态的研究方式分为基于穿 戴式传感器和基于计算机视觉领域的方法; 前者多为接触式的姿态分析系统, 有较高的对 人体分析能力, 但是采集人体运动参数的传感器需要附置在人体或者配件上, 存在穿戴不 便的问题, 给人带来不自然的感觉; 而且其成本高、 操作难、 不适合远程控制, 难以得到普 及; 目前最好的人体检测算法虽然已经得到了很好的效果, 但是依然存在一些错误, 这些错 误会导致检测任务精确度不高; 而后者以图像中的光流、 人体剪影、 。

9、轮廓、 骨架、 关节点等来 表示人体姿态, 不需要求解人体模型参数, 简化了人体姿态的求解; 深度学习算法的提出, 给人体姿态的检测提供了一种新的思路, 一般通过图像的全局特征进行匹配分析, 可以有 效的避免局部特征方法在复杂姿态和遮挡关系情况下出现的特征匹配歧义性问题, 可以保 证算法具有较好的鲁棒性。 发明内容 0003 针对上述问题, 本发明提供了本发明的目的在于提供一种基于注意力残差模块和 支路融合的人体关键点检测方法, 解决了现有技术中存在的检测效果不佳、 准确性较低的 问题。 0004 本发明的技术方案是: 一种基于注意力残差模块和支路融合的人体关键点检测方 法, 其检测方法具体包。

10、括以下步骤: 0005 步骤(1.1), 使用特征提取网络对输入图片进行特征处理, 得到特征图; 将特征图 输入区域生成网络得到目标建议框后, 结合特征图进行区域池化操作, 得到感兴趣区域特 征图; 0006 步骤(1.2), 将得到的感兴趣区域特征图输入卷积层中进行特征提取操作, 得到的 结果记为特征图一; 0007 步骤(1.3), 将特征图一分别输入至支路一、 支路二中进行特征处理; 0008 步骤(1.4), 将特征图一通过支路一和支路二中处理的结果叠加, 结果记为特征图 二, 再对特征图二反卷积后进行上采样, 最后通过独热二进制掩码得到关节点信息。 0009 进一步地, 所述步骤(1。

11、.3)中支路一对特征图一进行特征处理的具体步骤如下: 0010 (1.3.1), 在支路一的输入处设计两个一样的注意力残差模块, 配合数据旁路连通 网路中的前后层, 将两个注意力残差模块进行两两连接和像素级的叠加, 使用级联方式, 使 说明书 1/6 页 3 CN 111626159 A 3 得网络中每一层模块都接受来自前几层模块的特征映射; 0011 (1.3.2), 再经过卷积层降维后输入至全连接层; 最后, 对其进行形状重塑得到与 支路一尺寸一致的卷积层。 0012 进一步地, 步骤(1.3.1)中所述注意力残差模块是由空洞卷积的残差小模块配合 注意力机制组成: 0013 其中, 所述的。

12、空洞卷积的残差小模块: 是由降维卷积层、 空洞卷积层及升维卷积层 三个卷积层组成, 通过上述三个卷积层的卷积运算得到卷积权重, 设卷积权重为V; 0014 其注意力机制具体步骤: 将V通过一个卷积层进行卷积运算后, 再依次进行全局加 权池化、 点乘卷积及S型生长曲线, 网络即可得到空间注意力权重; 最后, 空间注意力权重与 V加权, 以实现通道注意力的输出, 得到空间注意力加权特征。 0015 进一步地, 所述步骤(1.3)中支路二对特征图一进行特征处理的操作如下: 0016 将设置在支路二内部的三个空间卷积率不同的空洞卷积层一、 空洞卷积层二及空 洞卷积层三作为一个组合, 通过该组合获得不同。

13、的感受野, 从而获取多尺度信息。 0017 进一步地, 将两个支路的输出参数叠加得到特征图二; 对特征图二使用反积卷层 进行分辨率复原, 再由两倍的线性插值进行上采样, 生成高分辨率输出, 最后将人体的关节 点位置建模为独热二进制掩码, 从而得到关节点信息。 0018 本发明的有益效果是: 本发明属于计算机视觉技术领域人体姿态检测方法, 是自 上而下的检测方法, 具体涉及注意力残差模块和数据旁路进行特征融合, 持久性、 可用性更 强, 准确度更高; (1)、 本发明在第一个支路处的注意力残差模块是对各个通道特征进行权 重的分配, 在空间和通道方面自适应地突出显示特征图的信息; 同时注意力残差模。

14、块之间 创建了两两的跨层连接来连通网路中前后层, 使得信号可以在输入层和输出层之间高速流 通, 这种设计方式改善了层间的信息流, 丰富了信息, 为后续检测的高准确性和高效率性奠 定了基础; (2)、 本发明在第二个支路处采用的配合空洞卷积的全卷积网络(Fully Convolutional Networks, 记为FCN)支路, 使得卷积前后的每组结果能进行相互交错, 相互 依赖, 扩大了感受野, 又解决了空洞卷积局部信息丢失问题(栅格问题); 能够捕获多尺度上 下文信息, 获得局部信息依赖。 有效避免了感受野单一, 获取的上下文信息不够多,“看的” 不够 “全” ; 由此导致的检测关节点混乱。

15、的问题; (3)、 本发明对所述两支路进行了相加融合 操作, 获得更加多样化的信息, 更好地捕捉每个目标区域的不同视野; 通过结合这两种视野 的预测结果, 网络输出的信息多样性有所改善, 不仅在简单场景下有效地解决了检测关节 点混乱的问题, 其准确性和效率性得到提高, 而且能够良好的适应复杂场景。 附图说明 0019 图1是本发明的结构示意图; 0020 图2是本发明中注意力残差模块的结构示意图; 0021 图3是本发明中空洞卷积存在的栅格问题示例结构示意图; 0022 图4是本发明的人体关节点示意图。 具体实施方式 0023 为了更清楚地说明本发明的技术方案, 下面将对本发明中进行进一步地叙。

16、述; 显 说明书 2/6 页 4 CN 111626159 A 4 而易见地, 下面描述中的仅仅是一部分的实施例, 对于本领域的普通技术人员来讲, 在不付 出创造性劳动的前提下, 还可以根据这些将本发明所述的技术方案应用于其它类似情景; 为了更清楚地说明本发明的技术方案, 下面结合附图对本发明的技术方案做进一步地详细 说明: 0024 一种基于注意力残差模块和支路融合的人体关键点检测方法, 包括使用特征提取 网络对输入图片进行特征处理, 得到特征图; 将特征图输入区域生成网络得到目标建议框; 结合特征图进行区域池化操作, 得到感兴趣区域特征图; 将得到的感兴趣区域特征图输入 卷积层中进行特征提。

17、取操作得到特征图一; 利用全新的神经网络进行更深的特征提取和融 合; 将两支路的结果叠加后, 先用反卷积进行分辨率复原再进行两倍的线性插值上采样; 将 关节点的位置建模为独热二进制掩码进行训练。 0025 如图1所示, 其检测方法具体包括以下步骤: 0026 步骤(1.1), 使用特征提取网络对输入图片进行特征处理, 得到特征图; 将特征图 输入区域生成网络得到目标建议框后, 结合特征图进行区域池化操作, 得到感兴趣区域特 征图; 0027 步骤(1.2), 将得到的感兴趣区域特征图输入卷积层中进行特征提取操作, 得到的 结果记为特征图一; 0028 步骤(1.3), 将特征图一分别输入至支路。

18、一、 支路二中进行特征处理; 0029 步骤(1.4), 将特征图一通过支路一和支路二中处理的结果叠加, 结果记为特征图 二, 再对特征图二反卷积后进行上采样, 最后通过独热二进制掩码得到关节点信息。 0030 进一步地, 所述步骤(1.2)中, 所述的卷积层是指三个一样的卷积层; 0031 为了便于叙述, 在此处进行卷积层相关参数的定义, 记输入特征图长、 宽、 维度分 别为W、 H、 C, 尺寸形式记为RWHC; 卷积核(kernel)尺寸为k, 尺寸形式记为kk; 步长 (stride)为s; 填充(padding)为p; 则经过卷积操作后的输出特征图的宽度为: 0032 0033 长度。

19、同理; 0034 故此处卷积层尺寸为33, 步长和填充都为1, 则由公式得经过该卷积层后得到的 特征图一和感兴趣区域特征图尺度一致, 为RWHC。 0035 进一步地, 所述步骤(1.3)中, 所述支路一对特征图一进行特征处理的具体步骤如 下: 0036 (1.3.1), 在支路一的输入处设计两个一样的注意力残差模块, 配合数据旁路连通 网路中的前后层, 将两个注意力残差模块进行两两连接和像素级的叠加, 使用级联方式, 使 得网络中每一层模块都接受来自前几层模块的特征映射; 其中: 0037 (1)、 所述的空洞卷积的残差小模块: 是由降维卷积层、 空洞卷积层及升维卷积层 三个卷积层组成, 通。

20、过上述三个卷积层的卷积运算得到卷积权重, 设卷积权重为V; 0038 (2)、 其注意力机制具体步骤: 将V通过一个卷积层进行卷积运算后, 再依次进行全 局加权池化、 点乘卷积及S型生长曲线, 网络即可得到空间注意力权重; 最后, 空间注意力权 重与V加权, 以实现通道注意力的输出, 得到空间注意力加权特征; 0039 具体地, 1), 空洞卷积的残差小模块: 空洞卷积有一个空洞卷积率(Dilation 说明书 3/6 页 5 CN 111626159 A 5 Rate, 记为d)参数可以设置, 具体含义就是在卷积核中填充(d-1)个0或者是跳过像素数; 因 此, 当设置不同的Dilation。

21、 Rate时, 感受野就会不一样, 也即获取了多尺度信息; 延续前文 参数定义, 则空洞卷积的卷积核大小为: 0040 nk+(k-1)*(d-1) (2) 0041 因此输出特征图的宽度为: 0042 0043 长度同理; 0044 空洞卷积可以任意扩大感受野, 且不需要引入额外参数, 但如果把分辨率增加了, 算法整体计算量也会增加, 故不可盲目增加; 并且所述空洞卷积存在栅格问题, 即会丢失信 息, 远距离获取的信息没有相关性(小目标比较明显); 0045 至此, 为了增加感受野的同时减少计算量, 降维卷积层、 空洞卷积层及升维卷积层 三个卷积层参数分别设置为: 输入维度为C, 输出维度为。

22、C/4, k1, s1; 输入维度为C/4, 输 出维度为C/4, k3, s1, p2, d2; 输入维度为C, 输出维度为C/4, k1, s1; 0046 2)、 所述注意力机制具体步骤: 设注意力残差模块的输入为VRHWC, 学习的残差 映射为V RHWC, 降维的倍数为r; 所述注意力残差模块的输出为则有: 0047 0048 其中, *表示空间上下文中的按元素相乘; 空间注意权重 RHW由以下方式产生; 首先通过卷积运算得到卷积权重W1RHWC; 然后对所得特征图进行全局加权池化操作 (Global Depthwise Convolution, 记为GDC), 设卷积中分组数量为G。

23、, 输出特征图数量为N, 则当满足式(5)和式(6)时, 达到GDC的效果: 0049 0050 kHW (6) 0051 即分组数量和输出特征图数量皆等于输入特征图数量, 同时卷积核的尺寸与输入 特征图的尺寸相同; 则学习到的卷积权重为W2R11C/r, 即长度为C/r的向量, GDC给每个位 置赋予了可学习的权重, 同时在空间范围内对整个网路在结构上做正则化防止过拟合; 再 对上述输出进行点乘, 卷积核的尺寸为11C/r, 这里的运算会将所述W2在深度方向上进 行加权组合, 生成W3R11C; 最后通过S型生长曲线, 即得到空间注意力权重 Sigmoid (W3V), 其中W3表示卷积权重。

24、, Sigmoid表示S型生长曲线; 最后, 在注意力残差模块的输入V 上重新加权, 以实现通道注意力的输出, 得到在空间范围内, 在第i,j个元素处的空间注意 力加权特征: 0052 0053 其中, i.j、 Vi.j表示 和V在空间范围内, 在第i,j个元素处的值, *表示第i,j个元素 之间的逐元素相乘; 0054 作为举例, 这里可设置为WW14, C512, r4。 0055 (1.3.2), 将上述结果再经过卷积层降维后输入至全连接层; 为了与支路一的最终 结果进行叠加, 最后, 对其进行形状重塑得到与支路一尺寸一致的卷积层; 具体地: 说明书 4/6 页 6 CN 111626。

25、159 A 6 0056 1)、 将所述步骤(1.3.1)得到的特征, 经过降维卷进行降维; 作为举例, 这里参数设 置为: 输入维度为C, 输出维度为C/2, k3, s1; 0057 2)、 将1)得到的特征送入全卷积(FC), FC层有和FCN不同的属性, FCN根据局部感受 野在每个像素处进行预测, 并且在不同的空间位置共享参数; FC层是位置敏感的, 是通过改 变参数组来实现不同空间位置的预测; 因此, 它们具有适应不同空间位置的能力, 也利用整 个方案的全局信息在每个空间位置进行预测, 区分并识别属于同一对象的独立关节点部分 很有帮助; 不仅高效, 而且还允许在FC层中使用更多样本。

26、训练参数, 避免过拟合等, 从而提 高通用性; 作为具体实施方式, 使用的特征图尺寸为1414, 因此FC层会产生19611的 向量; 为了与支路二的输出进行结果加融, 需要保持与支路二的尺度一致, 故将得到的向量 进行形状重塑, 重塑后的尺度和第一支路输出的尺度一致。 0058 进一步地, 步骤(1.3)中所述特征图一通过对支路二的输入具体步骤如下: 将设置 在支路二内部的三个空间卷积率不同的空洞卷积层一、 空洞卷积层二及空洞卷积层三作为 一个组合, 通过该组合获得不同的感受野, 从而获取多尺度信息; 具体参数计算情况如下: 0059 记第j层的感受野大小为rfj, 则计算公式为: 0060。

27、 rfj(n-1)*j+1 (8) 0061 其中rf01; 如附图3, 从左到右属于top-bottom关系(从左依次卷积到右); 三个 卷积核均为k3, d2, 根据公式(2)可得n为5, 再根据公式(8)可得第三层(最右边)的中心 像素的感受野为13; 然而参与实际计算的只有75; 为防止此问题, 所述设计将3个卷积层 形成一个组, 然后每个组使用连续增加的空洞率, 其他组重复; 目标是让最后的感受野全覆 盖整个区域(没有任何空洞或丢失边缘); 此时需要满足: 0062 MiMaxMi+1-2ri,2ri-Mi+1 (9) 0063 其中, Maxa,b是指求取a和b中的最大值, Mi是。

28、指在i层的最大空洞卷积率, Mi+1是 指在(i+1)层的最大空洞卷积率, ri是第i层的空洞卷积率, 设计的目标是让M2k; 0064 假设取k的值为3, 则有第二层, k3, 可以得出, 如果r1,2,5则由(9)得 0065 M2MaxM3-2r2,-M3+2r2), 0066 r2Max1,-1,223 0067 满足条件; 至此, 按照以上所述, 可选取r1,2,5作为一组。 0068 进一步地, 将两个支路的输出参数叠加得到特征图二; 对特征图二使用反积卷层 进行分辨率复原, 再由两倍的线性插值进行上采样, 生成高分辨率输出, 将人体的关节点位 置建模为独热二进制掩码, 从而得到关。

29、节点信息; 0069 具体地, 1), 两支路相加, 进一步地特征融合, 通过结合这两种视野的预测结果, 网 络输出的信息多样性有所改善, 输出掩码质量有所提升, 以获得更好的关节点预测; 0070 2), 对以上1)所述的融合后的最终特征, 先用反卷积进行分辨率复原为, 以长、 宽、 维度标记的尺寸, 记为WHK(作为举例, 可取282817), 再由两倍的线性插值进行上 采样, 生成2W2HK(作为举例, 可取565617)的高分辨率输出; 0071 3), 将关节点的位置建模为独热二进制掩码, 并用以上5所述的2W2HK的高分 辨率输出, 对于实例的K个关节点中的每个关节点, 都做独热M。

30、M(作为举例, 可取5656) 二进制掩码, 二进制掩码中只有一个像素标记为前景, 训练完成, 即得所求K个关节点; 0072 另外, 在训练期间, 对于每个带有标注的真实关节点, 将M2的softmax输出上的交 说明书 5/6 页 7 CN 111626159 A 7 叉熵损失最小化(这有助于检测到单个点); K个关节点仍然被独立对待, 对应一个关节点类 型(例如有眼, 左肩)。 0073 经过上述步骤, 最终可以明确标定需要检测是K(作为举例, 可取17)个关节点, 不 仅在简单场景下有效地解决了检测关节点混乱的问题, 其准确性和效率性得到提高, 而且 能够良好的适应复杂场景。 0074 最后, 应当理解的是, 本发明中所述实施例仅用以说明本发明实施例的原则; 其他 的变形也可能属于本发明的范围; 因此, 作为示例而非限制, 本发明实施例的替代配置可视 为与本发明的教导一致; 相应地, 本发明的实施例不限于本发明明确介绍和描述的实施例。 说明书 6/6 页 8 CN 111626159 A 8 图1 说明书附图 1/3 页 9 CN 111626159 A 9 图2 图3 说明书附图 2/3 页 10 CN 111626159 A 10 图4 说明书附图 3/3 页 11 CN 111626159 A 11 。

展开阅读全文
内容关键字: 基于 注意力 模块 支路 融合 人体 关键 检测 方法
关于本文
本文标题:基于注意力残差模块和支路融合的人体关键点检测方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10446291.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1