基于卷积神经网的深度图像头部检测与定位方法及系统.pdf
《基于卷积神经网的深度图像头部检测与定位方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于卷积神经网的深度图像头部检测与定位方法及系统.pdf(18页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010820333.4 (22)申请日 2020.08.14 (71)申请人 成都数城科技有限公司 地址 610000 四川省成都市高新区肖家河 中街44号9幢1层 (72)发明人 马祥天肖仕华蔡木目心 王旭鹏桑楠焦运磊 (74)专利代理机构 成都华风专利事务所(普通 合伙) 51223 代理人 张巨箭 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/46(2006.01) G06K 9/62(2006.01) G06T 7/73(2017.01。
2、) (54)发明名称 基于卷积神经网的深度图像头部检测与定 位方法及系统 (57)摘要 本发明公开了基于卷积神经网的深度图像 头部检测与定位方法及系统, 属于图像处理技术 领域, 方法包括对图像进行分类处理, 再进行聚 类分析, 能够得到头部中点信息, 进而实现多目 标的头部检测与定位。 本发明对图像进行分类处 理, 可以获得包含头部信息的所有待处理目标图 像; 再将待处理目标图像进行聚类分析, 能够消 除背景及噪声的干扰, 得到包含至少一个头部目 标对应样本点在真实头部中心区域形成的密集 点簇, 以获取头部中点信息, 进而在复杂环境下 实现了多目标的头部的检测与精确定位。 权利要求书2页 说。
3、明书12页 附图3页 CN 111931670 A 2020.11.13 CN 111931670 A 1.基于卷积神经网的深度图像头部检测与定位方法, 其特征在于: 所述方法具体包括: 对图像进行分类处理, 获得包含头部信息的所有待处理目标图像; 将待处理目标图像进行聚类分析, 得到头部中点信息, 进而实现多目标的头部检测与 定位。 2.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法, 其特征在 于: 所述对图像进行分类处理包括特征提取步骤: 将原始图像转换为多通道图像, 并采用不同卷积核对该多通道图像进行卷积操作, 获 取原始图像在不同尺度上的特征映射, 再通过多个残差块进。
4、行特征提取, 以提取原始图像 的低层特征和高层特征。 3.根据权利要求2所述的基于卷积神经网的深度图像头部检测与定位方法, 其特征在 于: 所述特征提取步骤后还包括目标分类步骤: 通过softmax作为激活函数, 输出包含头部信息的待处理目标图像与未包含头部信息 的图像的概率值, 进而获得包含头部信息的所有待处理目标图像。 4.根据权利要求3所述的基于卷积神经网的深度图像头部检测与定位方法, 其特征在 于: 所述将待处理目标图像进行聚类分析具体包括: 将所有待处理目标图像的中心点抽象为d维空间中的样本点; 将d维空间指定圆形区域内的任意点作为起始点; 计算起始点的偏移均值, 将起始点移动至偏移。
5、均值位置处; 重复上一步骤, 直至样本点收敛, 进而实现多目标的头部检测与定位。 5.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法, 其特征在 于: 所述计算起始点的偏移均值的计算公式为: 公式中, x表示点集, xi表示点集中第i个点, xik表示第i个点的第k个特征维度, b是核带 宽, g(t)是核函数, wk是第k个属性的权重系数。 6.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法, 其特征在 于: 所述权重通过平均绝对差、 标准差、 方差、 变异系数进行定义, 当采用平均绝对差为加权 系数时, 权重系数的计算公式为: 当采用标准差为加权系数时, 权。
6、重系数的计算公式为: 当采用方差为加权系数时, 权重系数的计算公式为: 权利要求书 1/2 页 2 CN 111931670 A 2 当采用变异系数为加权系数时, 权重系数的计算公式为: 以上公式中, n表示样本大小。 7.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法, 其特征在 于: 所述将所有待处理目标图像的中心点抽象为d维空间中的样本点步骤前还包括: 计算所有待处理目标图像中包含完整头部的矩形图像块的大小, 计算公式如下: 上式中, wp, hP表示包含完整头部的矩形图像块的大小; fx, fy为深度相机的水平焦距和 垂直焦距; R为定值, 代表头部平均宽度; DP为该。
7、点像素值。 8.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法, 其特征在 于: 所述方法还包括性能验证步骤, 评价正确检测到头部的指标公式为: IoU(A, B) IoU(A, B)表示正确检测到头部的指标; A表示真实的头部区域; B为预测的头部区域; 为阈值, 具体为0.5。 9.一种卷积神经网络, 其特征在于, 所述网络用于对图像进行分类处理, 获得包含头部 信息的所有待处理目标图像, 包括顺次连接的多尺度特征提取单元、 基于残差块的特征提 取单元和分类单元。 10.根据权利要求9所述的基于卷积神经网的深度图像头部检测与定位方法, 其特征在 于: 所述多尺度特征提取单元。
8、包括顺次连接的多个不同卷积核的卷积层, 和与最后一层卷 积层连接的池化层; 所述基于残差块的特征提取单元包括若干顺次连接的残差块, 所述残差块包括若干卷 积层, 且最后一层卷积层对特征进行降维处理; 分类单元与第一残差块连接, 第一残差块与第二残差块连接, 且第二残差块中的卷积 层与第一残差块中的卷积层执行跳跃加法操作, 以更好地获得原始图像的语义信息。 权利要求书 2/2 页 3 CN 111931670 A 3 基于卷积神经网的深度图像头部检测与定位方法及系统 技术领域 0001 本发明涉及图像处理技术领域, 尤其涉及基于卷积神经网的深度图像头部 检测 与定位方法及系统。 背景技术 000。
9、2 头部检测, 作为计算机视觉的重要组成部分, 广泛应用于生活中的各个领 域, 更 是许多基于人脸研究领域的基础, 如头部姿态分析、 人脸的验证与识别、 注意力分析等。 在 过去的一段时间里, 人们对头部的检测与定位进行了大量的 研究, 无论是在实际应用或学 术研究中, 都提供了许多精确的和有竞争力的解 决方案。 但绝大多数的研究均致力于普通 RGB图像的分析。 然而, 受制于成像 原理, RGB图像的成像质量非常依赖于光照条件, 这导致 在某些重要的应用场 合, 无法通过普通RGB相机获得有效的图像信息, 而IntelRealSense 等设备的 广泛应用获取有效的深度图像成为一种现实, 而。
10、深度相机基于红外的成像原理, 使深度图像对光照条件以及图像尺寸具有不敏感性, 能很好地弥补普通RGB图 像的相关缺 陷。 0003 目前, Chen等人在 基于深度图像的头部检测深度信息挖掘 中, 提出了 一种新的 头部描述符合对像素进行分类, 即通过一个线性的判别分析(LDA)分类 器, 将输入图像中 的每个像素分类为属于或不属于头部, 再通过深度数据分析, 消除头部中心的误报, 并作 为最终的头部检测聚类像素。 A.T.Nghiem等人在 使 用kinect摄像头进行头部检测及其在 坠落检测中的应用 构建的人体跌倒检测 框架中, 首先利用三维数据进行头部检测, 该方 法通过背景减除法检测运。
11、动物 体, 并在轮廓线段上搜索所有可能的头部位置。 G.Fanelli 等人在 基于随机回 归森林的实时头位估计 中, 考虑到随机回归森林处理大型训练数据 的能力, 通过该方法对头部进行定位。 G.Borghi等人在 基于深度图像的头部姿态估计 方 法 中, 利用深度学习强大的感知能力, 用深度头像和头部中点真实值来训 练CNN模型, 进 而预测头部位置。 然而以上两种情况, 作者只考虑了头部定位 问题, 且假设预测对象上有 且只有一个测试目标。 0004 最近DiegoBallotta等人在 基于深度图像的野外头部检测 中, 首次通 过卷积神 经网络处理基于深度图像的头部检测问题, 他们将每。
12、一帧深度图像划 分为若干个图像块, 利用分类器将每个图像块划分为头部与非头部, 并通过滑 动窗口检测和定位头部。 然而, 受噪声以及杂乱背景的影响, 图像块误检测现 象较多, 且网络性能过度依赖于计算时间。 之后, DiegoBallotta等人在 基于 深度图像的全卷积网络头部检测 中, 又通过全卷积网 络, 对于每个输入帧, 创建一个以头部位置为中心的二元高斯分布, 提高了检测准确率和 检测效率, 然而该方法仅局限于单目标任务且定位精度较低。 发明内容 0005 本发明的目的在于克服现有技术头部检测与定位中局限于单目标任务且精 度较 低的问题, 提供基于卷积神经网的深度图像头部检测与定位方。
13、法及系统。 说明书 1/12 页 4 CN 111931670 A 4 0006 本实用新型的目的是通过以下技术方案来实现的: 基于卷积神经网的深度 图像 头部检测与定位方法, 所述方法具体包括: 0007 对图像进行分类处理, 获得包含头部信息的所有待处理目标图像; 将待处 理目标 图像进行聚类分析, 得到头部中点信息, 进而实现多目标的头部检测与 定位。 0008 作为一选项, 所述对图像进行分类处理包括特征提取步骤: 0009 将原始图像转换为多通道图像, 并采用不同卷积核对该多通道图像进行卷 积操 作, 获取原始图像在不同尺度上的特征映射, 再通过多个残差块进行特征 提取, 以提取原 。
14、始图像的低层特征和高层特征。 0010 作为一选项, 所述特征提取步骤后还包括目标分类步骤: 0011 通过softmax作为激活函数, 输出包含头部信息的待处理目标图像与未包含 头部 信息的图像的概率值, 进而获得包含头部信息的所有待处理目标图像。 0012 作为一选项, 所述将待处理目标图像进行聚类分析具体包括: 0013 将所有待处理目标图像的中心点抽象为d维空间中的样本点; 将d维空间 指定圆 形区域内的任意点作为起始点; 计算起始点的偏移均值, 将起始点移动 至偏移均值位置 处; 重复上一步骤, 直至样本点收敛, 进而实现多目标的头部 检测与定位。 0014 作为一选项, 所述计算起。
15、始点的偏移均值的计算公式为: 0015 0016 公式中, xi表示d维空间指定圆形区域内的点集, xik表示第k个样本点, b 是核带 宽, g(t)是核函数, wk是第k个属性的权重系数。 0017 作为一选项, 所述权重通过平均绝对差、 标准差、 方差、 变异系数进行定 义, 当采 用平均绝对差为加权系数时, 权重系数的计算公式为: 0018 0019 当采用标准差为加权系数时, 权重系数的计算公式为: 0020 0021 当采用方差为加权系数时, 权重系数的计算公式为: 0022 0023 当采用变异系数为加权系数时, 权重系数的计算公式为: 说明书 2/12 页 5 CN 11193。
16、1670 A 5 0024 0025 以上公式中, n表示样本大小。 0026 作为一选项, 所述将所有待处理目标图像的中心点抽象为d维空间中的样 本点步 骤前还包括: 计算所有待处理目标图像中包含完整头部的矩形图像块的 大小, 计算公式如 下: 0027 0028 上式中, wp, hP表示包含完整头部的矩形图像块的大小; fx, fy为深度相 机的水平 焦距和垂直焦距; R为定值, 代表头部平均宽度; DP为该点像素值。 0029 作为一选项, 所述方法还包括性能验证步骤, 评价正确检测到头部的指标 公式 为: 0030 IoU(A,B) 0031 0032 IoU(A, B)表示正确检测。
17、到头部的指标; A表示真实的头部区域; B为预测的 头部区 域; 为阈值, 具体为0.5。 0033 需要进一步说明的是, 上述基于卷积神经网的深度图像头部检测与定位方 法中 各选项技术特征能够进行组合和替换, 构成一新的技术方案。 0034 本发明还包括一种卷积神经网络, 该网络可以为基于上述基于卷积神经网 的深 度图像头部检测与定位方法的卷积神经网络, 也可以单独用作图像分类处 理, 所述网络用 于对图像进行分类处理, 获得包含头部信息的所有待处理目标 图像, 包括顺次连接的多尺 度特征提取单元、 基于残差块的特征提取单元和分 类单元。 0035 作为一选项, 所述多尺度特征提取单元包括顺。
18、次连接的多个不同卷积核的 卷积 层, 和与最后一层卷积层连接的池化层; 0036 所述基于残差块的特征提取单元包括若干顺次连接的残差块, 所述残差块 包括 若干卷积层, 且最后一层卷积层对特征进行降维处理; 0037 分类单元与第一残差块连接, 第一残差块与第二残差块连接, 且第二残差 块中的 卷积层与第一残差块中的卷积层执行跳跃加法操作, 以更好地获得原始 图像的语义信息。 0038 需要进一步说明的是, 上述基于卷积神经网的深度图像头部检测与定位系 统中 各选项技术特征能够进行组合和替换, 构成一新的技术方案。 0039 与现有技术相比, 本发明有益效果是: 0040 (1)本发明对图像进。
19、行分类处理, 可以获得包含头部信息的所有待处理目 标图 像; 再将待处理目标图像进行聚类分析, 能够消除背景及噪声的干扰, 得 到包含至少一个 头部目标对应样本点在真实头部中心区域形成的密集点簇, 以 获取头部中点信息, 进而在 复杂环境下实现了多目标的头部的检测与精确定位。 0041 (2)本发明将原始图像转换为多通道图像, 并采用不同卷积核对该多通道 图像进 说明书 3/12 页 6 CN 111931670 A 6 行卷积操作, 获取原始图像在不同尺度上的特征映射, 即在图像的特征 空间中构造金字 塔; 再通过多个残差块进行特征提取, 进而提取到原始图像的 底层特征(细节信息)和高层 特。
20、征(语义信息), 减小计算量的同时保证了较 高的检测正确率。 0042 (3)本发明通过softmax作为激活函数, 对图像进行分类, 以确定包含头 部信息的 所有待处理目标图像。 0043 (4)本发明通过将待处理目标图像进行聚类分析, 能够减小图像分类带来 的干 扰, 进而在复杂环境下实现了多目标的头部的检测与精确定位。 0044 (5)本发明起始点偏移均值的计算公式, 根据数据属性的重要性给出了不 同的权 重系数, 进一步提升了聚类性能。 0045 (6)本发明聚类分析中的权重系数通过平均绝对差、 标准差、 方差、 变异 系数进行 定义, 利用不同的指标作为加权欧式距离的加权系数, 进一。
21、步提高了 聚类分析的准确度。 0046 (7)本发明通过计算所有待处理目标图像中包含完整头部的矩形图像块的 大小, 进而保证进行聚类分析的各样本图像块均包含完整的头部信息。 0047 (8)本发明通过性能验证步骤, 能够验证本发明方法性能, 保证了本发明 方法的 可靠性。 附图说明 0048 下面结合附图对本发明的具体实施方式作进一步详细的说明, 此处所说明 的附 图用来提供对本申请的进一步理解, 构成本申请的一部分, 在这些附图中 使用相同的参考 标号来表示相同或相似的部分, 本申请的示意性实施例及其说 明用于解释本申请, 并不构 成对本申请的不当限定。 0049 图1为本发明实施例1的方法。
22、流程处理图; 0050 图2为本发明实施例1方法性能验证示意图; 0051 图3为本发明实施例4的卷积神经网络框图; 0052 图4为本发明实施例4的基于残差块的特征提取单元中第一、 第二残差块 示意图。 具体实施方式 0053 下面结合附图对本发明的技术方案进行清楚、 完整地描述, 显然, 所描述 的实施 例是本发明一部分实施例, 而不是全部的实施例。 基于本发明中的实施 例, 本领域普通技 术人员在没有做出创造性劳动前提下所获得的所有其他实施 例, 都属于本发明保护的范 围。 0054 在本发明的描述中, 需要说明的是, 属于 “中心” 、“上” 、“下” 、“左” 、 “右” 、“竖直”。
23、 、 “水平” 、“内” 、“外” 等指示的方向或位置关系为基 于附图所述的方向或位置关系, 仅是为 了便于描述本发明和简化描述, 而不是 指示或暗示所指的装置或元件必须具有特定的方 位、 以特定的方位构造和操作, 因此不能理解为对本发明的限制。 此外, 属于 “第一” 、“第 二” 仅用于描述 目的, 而不能理解为指示或暗示相对重要性。 0055 在本发明的描述中, 需要说明的是, 除非另有明确的规定和限定, 属于 “安 装” 、 “相连” 、“连接” 应做广义理解, 例如, 可以是固定连接, 也可以是 可拆卸连接, 或一体地连 接; 可以是机械连接, 也可以是电连接; 可以是直接 相连, 。
24、也可以通过中间媒介间接相连, 说明书 4/12 页 7 CN 111931670 A 7 可以是两个元件内部的连通。 对于本领 域的普通技术人员而言, 可以具体情况理解上述术 语在本发明中的具体含义。 0056 此外, 下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之 间未 构成冲突就可以相互结合。 0057 实施例1 0058 如图1所示, 在实施例1中, 基于卷积神经网的深度图像头部检测与定位 方法, 具 体包括以下步骤: 0059 S01: 对图像进行分类处理, 获得包含头部信息的所有待处理目标图像; 0060 S02: 将待处理目标图像进行聚类分析, 得到头部中点信息, 进而。
25、实现多目 标的头 部检测与定位。 其中, 头部中点信息具体为目标头部的中心位置信息。 0061 进一步地, 在步骤S01中具体包括特征提取步骤, 具体包: 0062 S011: 将原始图像转换为多通道图像, 并采用不同卷积核对该多通道图像 进行卷 积操作, 以获取原始图像在不同尺度上的特征映射; 0063 S012: 再通过多个残差块进行特征提取, 以提取原始图像的低层特征和高 层特 征, 通过浅层特征将区分简单目标、 深层特征区分复杂目标。 0064 进一步地, 步骤S011中将单通道深度图转换为三通道的图像后输入网络, 具体使 用表面法线的x、 y和z分量作为图像像素的每个通道, 再分别使。
26、用7*7, 3*3大小的卷积核, 通过卷积层提取图像的局部特征, 再通过池化操作缩小矩阵 的尺寸, 从而减少最后全连接 中的参数, 加快计算速度, 防止过拟合。 0065 进一步地, 步骤S012中多个残差块形成了一残差网络(基于残差块的特征 提取单 元), 该残差网络(基于残差块的特征提取单元)中的残差块具体为两 层卷积层的残差块或 三层卷积层的残差块, 在本实施例中, 残差网络(基于残 差块的特征提取单元)具体为16个 卷积核大小分别为1*1, 3*3, 1*1的残差块, 用作特征提取, 其目的是通过深层网络提取特 征高级的语义信息(特征), 同 时防止梯度消失, 防止退化现象出现。 更进。
27、一步地, 残差块中 的最后一个残差 块的卷积核为1*1是为了降维处理, 使各残差块之间的第一卷积层与最后 一个 卷积层能够执行加法操作后输入至下一残差块。 将最后一个残差块定义为第一 残差 块, 与第一残差块连接的残差块为第二残差块, 对第一残差块中的第一个 卷积层输入端的 特征进行上采样处理, 以使第一残差块中的第一个卷积层与第 二残差块中的第二个卷积 层具有相同的尺寸, 且第二残差块中的第二个卷积层 输出端与第一残差块中的第一个卷 积层输出端特征执行加法操作, 第二残差块 中的第一个卷积层输出端与第一残差块中的 第二个卷积层输出端特征执行加法 操作, 以融合多层特征信息, 以获得加强的语义。
28、信息, 提高检测性能。 0066 进一步地, 步骤S012后还包括图像分类步骤: 0067 S013: 采用softmax作为激活函数, 输出包含头部信息的待处理目标图像与 未包 含头部信息的图像的概率值, 进而获得包含头部信息的所有待处理目标图 像。 0068 作为一具体实施例, 本发明通过分别包含128、 84、 2个神经元的三个顺次 连接的 全连接层实现图像的分类。 具体地, 为防止过拟合, 本发明在全连接层 采用丢弃正则化 dropout( 0.5)处理。 且在步骤S01中的卷积层和全连接层 均采用双曲正切函数tanh作 为激活函数, 以增加神经网络模型的非线性, 其具 体表达如下: 。
29、说明书 5/12 页 8 CN 111931670 A 8 0069 0070 其中, tanh是双曲函数中的一个, tanh()为双曲正切, x为输入特征。 0071 最后一层全连接层用softmax作为激活函数将该层两个神经元输出i,j映射 为 概率值Si, Sj: 0072 0073 其中, Si,Sj分别为正样本(包含头部信息的待处理目标图像)概率和负样 本(未包 含头部信息的图像)概率。 本发明将头部检测抽象为一个二分类问题, 因此采用交叉熵作 为网络的损失函数: 0074 0075 上式中, p作为样本真实值, (0, 1为负样本, 1, 0为正样本), qSi, Sj 为预测 值。
30、。 交叉熵值越低, 表示两个概率分布越靠近。 0076 更进一步地, 在步骤S01对图像进行分类处理前还包括网络训练步骤; 具 体地, 将 包含头部信息的待处理目标图像定义为正样本, 将未包含头部信息的 图像定义为负样本, 选取部分正样本、 负样本作为训练集, 将训练集中的正样 本、 负样本输入用于图像分类的 神经网络进行特征提取并输出预测结果(正负 样本的分布), 若该预测结果与样本集正负 样本不同, 继续通过损失函数对该 神经网络进行优化, 使预测结果准确率达到本发明图像 分类要求。 0077 更进一步地, 本发明所采用图像具体为深度图像, 在没有任何约束的情况 下, 人 脸以未知比例出现。
31、在图像中任何位置。 不同于普通二维图像, 深度图像 每个像素点的值为 物体到深度相机的距离。 本发明遵从从深度数据到头部姿势 估计: 暹罗方法, 给出头部中 心点px,y以及真实头部的平均大小和标定参数, 可计算出包含完整头部的矩形图像 块的大小(wp,hp): 0078 0079 其中, fx, fy为深度相机的水平焦距和垂直焦距(以像素为单位); R为定 值, 代表头 部平均宽度(250mm); DP为该点像素值(即深度值, 单位: mm)。 0080 更进一步地, 为精简样本(正样本、 负样本), 根据包含完整头部的矩形 图像块的 大小的计算公式可知, 将相邻kk像素作为一个采样单位, 。
32、平均深度值 作为该采样单位的 Dp, 则每帧图像采样数量如公式如下: 0081 0082 上式中, (wi, hi)为输入图像的尺寸。 采样后, 对样本进行标准化处理。 首 先, 将所 有样本调整为6464像素; 再去除背景, 假设所有样本包含完整的头 部, 则将样本中深度 值大于Dp+L的像素点置0, L为头部中点到轮廓的深度差; 最后, 将样本的归一化到-1,1。 0083 进一步地, 步骤S02将待处理目标图像进行聚类分析包括但不限于K均值 聚类、 K- 重点聚类等, 本申请聚类分析具体包括: 说明书 6/12 页 9 CN 111931670 A 9 0084 S021: 将所有待处理。
33、目标图像的中心点抽象为d维空间中的样本点; 具体 地, 本实 施例具体将所有待处理目标图像的中心点抽象为二维空间中的样本点 x1,x2,x3,xn; 0085 S022: 将d维空间指定圆形区域内的任意点作为起始点; 0086 S023: 计算起始点的偏移均值, 将起始点移动至偏移均值位置处; 0087 S024: 重复步骤S023, 直至样本点收敛, 进而实现多目标的头部检测与定 位。 其 中, 样本点收敛即可获取至少一个密集样本点簇, 若存在多个密集样本 点簇, 则表示图像 中含有多个目标头部, 样本点在真实头部中心区域形成密集 点簇, 而误检测的样本点数量 少且分布分散。 0088 具体。
34、地, 步骤S023中计算起始点的偏移均值具体为计算起始点密度增大的 最快 方向, 具体的计算公式为: 0089 0090 上式中, Sh为数据集的点到x的距离小于半径h的样本点集, 如图1中的 圆形区域。 K为圆形区域内样本点的数量, Sh的定义为: 0091 Sh(x)y:(y-xi)(y-xi)Th2 0092 上式中, k表示在这n个样本点xi中,有k个点落入Sh区域中。 0093 更为具体地, 将起始点移动至偏移均值位置处有: 0094 xt+1xt+Mh 0095 上式中, xt为起始点, xt+1为移动后的新的起始点。 0096 进一步地, 在步骤S024中, 样本点收敛即Mh0,。
35、 这些样本点最终会在局 部密度最 大值处收敛, 且收敛到相同局部最大值的点被认为是同一簇类成员, 进而实现头部目标的 定位。 0097 更进一步地, 本申请为了保证聚类分析的准确度, 根据数据属性的重要性 给出了 不同的权重系数, 通过计算在二维欧式空间中核密度估计值的梯度、 二 维空间中两个点集 之间的距离进而计算出下一次起始点的位置。 0098 具体地, 二维欧式空间中核密度估计值的梯度方法如下: 0099 0100 其中, ck, d是归一化常数, b是核带宽, g(t)是核函数。 0101 具体地, 计算二维空间中两个点集xi(xi1, xi2, ., xid)和xj(xj1, xj2。
36、, ., xjd) 之 间的距离可以表示为: 0102 0103 上式中, wk(k1, 2, ., d)代表了第k个属性的权重系数。 0104 具体地, 计算出下一次起始点的位置为: 说明书 7/12 页 10 CN 111931670 A 10 0105 0106 其中, x表示点集, xi表示点集中第i个点, xik表示第i个点的第k个特征维 度, b是 核带宽, g(t)是核函数, wk是第k个属性的权重系数。 wk对下一个起始 点的计算至关重要, 对 聚类性能有一定影响。 加权系数是基于样本点的离散程 度, 本发明通过平均绝对差(MAD)、 标准差(STD)、 方差(VAR)、 变异。
37、系数(CV) 定位权重, 在不同的加权系数下改进了传统的均 值漂移算法的欧氏距离。 为便 于更好理解本发明加权系数对聚类性能的影响, 作为一实施 例, 将样本序列设 置为X(x1, x2, ., xn), 其中n是样本大小。 每一个点xi设置为 xi (xi1, xi2, ., xid), (i1, 2, ., n), 其中d是数据的属性维度。 xi1, xi2, ., xid属性的 权重 系数则为w1, w2, ., wd。 0107 当采用平均绝对差为加权系数时, 权重系数的计算公式为: 0108 0109 当采用标准差为加权系数时, 权重系数的计算公式为: 0110 0111 当采用方差。
38、为加权系数时, 权重系数的计算公式为: 0112 0113 当采用变异系数为加权系数时, 权重系数的计算公式为: 0114 0115 为验证本发明聚类算法的效果, 本发明将本申请聚类算法与传统的聚类算 法分 别执行头部检测认为, 实验结果见下表1: 0116 表1本申请聚类算法与传统的聚类算法性能比较表 0117 方法 检测准确率 IoU 传统聚类算法 0.959 0.862 本发明聚类算法 0.971 0.885 0118 由上表不难看出, 本发明聚类算法相较于传统的聚类算法准确率更高, 能 够实现 更加精准的头部检测与定位。 0119 进一步地, 步骤S021前还包括计算所有待处理目标图像。
39、中包含完整头部的 矩形 说明书 8/12 页 11 CN 111931670 A 11 图像块的大小, 以使进行聚类分析的图像都包含完整的头部, 具体计算公 式如下: 0120 0121 上式中, wp, hP表示包含完整头部的矩形图像块的大小; fx, fy为深度相 机的水平 焦距和垂直焦距; R为定值, 代表头部平均宽度; DP为该点像素值。 0122 进一步地, 本发明还包括性能验证步骤, 评价正确检测到头部的指标公式 为: 0123 IoU(A,B) 0124 0125 IoU(A, B)表示正确检测到头部的指标; A表示真实的头部区域; B为预测的 头部区 域; 为阈值, 具体为0.。
40、5。 0126 进一步地, 为了验证本发明图像分类及聚类算法的性能, 本发明通过两个 用于实 验的公共数据集Pandora, Watch-n-patch进行性能验证, 且验证了不同采 样单位k对系统 性能的影响, 并在在公共数据集上验证系统的有效性。 最后, 由于缺乏多目标的深度数据 集, 本发明用Kinect v2相机在室内环境采集深度图 像并验证系统针对多目标检测与定位 的有效性。 需要进一步说明的是, 本发明 的性能验证步骤是在Windows10操作系统下运行, CPU为 IntelCore-i7(3.40GHz), 内存为16GB, 显卡为NVIDIARTX2080。 0127 具体地。
41、, Pandora数据集, 通过MicrosoftKinectone采集22名受试者(10名 男性和 12名女性)的110个序列, 约250000多张图像组成, 用于头部肩部姿态 估计。 并通过眼镜、 围 巾、 手机等制造人为干扰。 数据集给出了头部姿态的真 实值, 并提供了人物的头部中心位 置, 其中深度图像分辨率为512x424。 Watch-n-patch,同样通过MicrosoftKinectone采集7 名受试者在复杂多样的环境中 且无监督状态下进行日常活动的各种动作。 它由458个视频 组成, 总时长230 分钟, 用于人类活动建模, 该数据集提供了头部中点真实值, 本发明还在 该。
42、数 据中的由2785张图像组成测试子集进一步相较于最近几年的其他现有技术方法 验 证了本发明性能, 具体验证结果如下: 0128 表2本发明与最近几年研究方法的性能对比 0129 方法 检测准确率 IoU fps Ballottaetal. 0.956 0.806 0.238 Ballottaetal. 0.984 0.789 16.79 本发明算法 0.960 0.880 1.09 0130 具体地, 表2是在Pandora数据集上进行的性能验证, 根据上表可以看出, 本发明 检测准确率与时效性鉴于两者之间, 但检测精度IoU有明显提升。 0131 表3本发明与最近几年研究方法的性能对比 说。
43、明书 9/12 页 12 CN 111931670 A 12 0132 0133 0134 具体地, 表3是在在watch-n-patch数据集进行的性能验证, 根据上表可以 看出, 本发明检测准确率接近目前最佳方法(检测正确率为0.964的方法)。 结 合表2, 本发明方法 与目前最佳方法相比, 检测精度更高, 即头部定位更加精确。 0135 进一步地, 在本发明性能验证过程中, 还研究了k值(深度图像的采样单 位)的大 小对本发明算法的影响, 其验证结构如下: 0136 表4 K值对本发明算法的影响 0137 k 检测准确率 IoU fps 3 0.96 0.898 0.209 7 0.9。
44、6 0.887 0.662 11 0.892 0.792 1.56 17 0.831 0.701 3.4 0138 上表在pandora数据集上通过改变k的大小表明k会影响系统的检测性能, k越小, 更有利于在头部中点附近形成密集的点簇, 且精度更高, 但时间消耗大。 0139 进一步地, 本发明方法在watch-n-patch数据集上示例如图2所示, 其中图 2(a)为 图像分类预测中点在与图像相同尺寸的二维平面空间上的聚类图, 其中点 集密集处即为 预测头部区域, 点集分散出为误检测区域, 如图2(a)中由左至 右的第一幅图中的靠近底部 的两个区域为误检区域。 图2显示了本发明在深度 图像。
45、上的检测效果, 矩形框为预测头部 区域, 由此可以看出, 本发明能够实现 深度图像头部检测与精准定位, 其能够实现多目标 任务的头部检测。 需要进一 步说明的是, 图2仅为本发明实施例1性能验证示意图, 其横纵 坐标值、 及人 物灰度并不限定本发明保护范围。 0140 实施例2 0141 本实施例提供了一种存储介质, 与实施例1具有相同的发明构思, 其上存 储有计 算机指令, 所述计算机指令运行时执行实施例1中所述的一基于卷积神 经网的深度图像头 部检测与定位方法的步骤。 0142 基于这样的理解, 本实施例的技术方案本质上或者说对现有技术做出贡献 的部 分或者该技术方案的部分可以以软件产品的。
46、形式体现出来, 该计算机软件 产品存储在一 个存储介质中, 包括若干指令用以使得一台计算机设备(可以是个 人计算机, 服务器, 或者 网络设备等)执行本发明各个实施例所述方法的全部或 部分步骤。 而前述的存储介质包 括 : U盘、 移动硬盘、 只读存储器 (Read-OnlyMemory , ROM) 、 随机存取存储器 说明书 10/12 页 13 CN 111931670 A 13 (RandomAccessMemory, RAM)、 磁碟或者光盘等各种可以存储程序代码的介质。 0143 实施例3 0144 本实施例还提供一种终端, 与实施例1具有相同的发明构思, 包括存储器 和处理 器,。
47、 所述存储器上存储有可在所述处理器上运行的计算机指令, 所述处 理器运行所述计算 机指令时执行实施例1中所述的基于卷积神经网的深度图像 头部检测与定位方法的步骤。 处理器可以是单核或者多核中央处理单元或者特 定的集成电路, 或者配置成实施本发明 的一个或者多个集成电路。 0145 在本发明提供的实施例中的各功能单元可以集成在一个处理单元中, 也可 以是 各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中。 0146 实施例4 0147 本发明还包括一种卷积神经网络, 与实施例1具有相同的发明构思, 用于 实现深 度图像的分类, 获得包含头部信息的所有待处理目标图像, 包括特征提 。
48、取网络, 特征提取 网络包括顺次连接的多尺度特征提取单元、 基于残差块的特 征提取单元, 还包括与基于残 差块的特征提取单元输出端连接的分类单元。 其 中, 多尺度特征提取单元, 用于获取原始 图像在不同尺度上的特征映射; 基于 残差块的特征提取单元在多尺度特征提取单元的基 础上, 提取原始图像的低层 特征和高层特征; 分类单元用于根据原始图像的低层特征和高 层特征对原始图 像分类, 得到包含头部信息的所有待处理目标图像。 0148 进一步地, 如图3所示, 多尺度特征提取单元包括顺次连接的多个不同卷 积核的 卷积层, 和与最后一层卷积层连接的池化层。 作为一具体实施例, 多尺 度特征提取单元。
49、包 括顺次连接的2个卷积核分别为7*7, 3*3的卷积层和1个池 化层, 卷积层用于提取图像的局 部特征, 池化层缩小矩阵的尺寸, 从而减少最 后全连接中的参数, 加快计算速度, 防止过拟 合。 需要进一步说明的是, 原始 深度图像转换为三通道的图像后输入上述多尺度特征提取 单元, 进而在两个不 同卷积核卷积层的卷积处理后, 得到原始深度图像不同尺度特征映 射, 即在图 像的特征空间中构造金字塔, 在系统检测速度与准确率之间进行了权衡, 以获 取鲁棒性更强的语义信息, 在提高图像分类准确率的同时减小了计算量。 0149 进一步地, 基于残差块的特征提取单元包括若干顺次连接的残差块, 残差 块包。
50、括 若干卷积层, 且最后一层卷积层对特征进行降维处理; 分类单元与第一 残差块连接, 第一 残差块与第二残差块连接, 且第二残差块中的卷积层与第一 残差块中的卷积层执行跳跃 加法操作, 以更好地获得原始图像的语义信息。 更 为具体地, 基于残差块的特征提取单元 中的残差块具体为两层卷积层的残差块 或三层卷积层的残差块, 在本实施例中, 基于残差 块的特征提取单元具体为16 个卷积核大小分别为1*1, 3*3, 1*1的残差块, 用作特征提取, 其目的是通过 深层网络提取特征高级的语义信息(特征), 同时防止梯度消失, 防止退化现 象出现。 更进一步地, 为了降维处理, 残差块中的最后一个残差块。
- 内容关键字: 基于 卷积 神经 深度 图像 头部 检测 定位 方法 系统
印章弯曲文本行矫正方法、装置及系统.pdf
电缆切断装置.pdf
可调节板仓.pdf
骨料烘干装置.pdf
防停机落尘的分切机双通道吸尘机构.pdf
高精度垂直升降顶升设备.pdf
电池水冷散热器结构.pdf
手机视频采集器.pdf
不锈钢无缝管接头.pdf
棒料折弯装置.pdf
蔬菜温室大棚温湿度检测装置.pdf
铜合金电缆加工用电缆夹持装置.pdf
电路板检测用定位机构.pdf
具有高可靠性的调浆机输送装置.pdf
储能移动电源分体装置.pdf
药学西药碎药器.pdf
水循环喷淋式旋风分离除尘装置.pdf
龙虾扣检测机.pdf
管道连接的机械密封结构.pdf
多工位钻孔定位机构.pdf
圆筒混料机掘进式清料装置.pdf
低净空安装隔热保冷管托.pdf
PICC导管防压伤连接座.pdf
用于钾肥生产的筛分装置.pdf
基于JDE多任务网络模型的多目标跟踪方法.pdf
基于碳减排的多能源协调优化控制系统及方法.pdf
基于图像分析的工地大气污染物检测方法及相关装置.pdf
挤出机挤出稳定性测试装置.pdf
沉水植物群落生态系统构建方法.pdf
路网生成方法、可读存储介质及智能设备.pdf
路由表维护方法、路径选择方法、设备、系统及存储介质.pdf
照明模组、照明系统及车辆.pdf
一种升降式旋转室外消火栓.pdf
框架结构T型连接柱.pdf
防静电地板吸板器.pdf
一种建筑用箱体或井口预留孔洞活动模具.pdf
速成拉建房屋.pdf
预制桥面板精轧螺纹钢筋弧形连接构造.pdf
一种内固定式伸缩门滑行导轨及伸缩门.pdf
多用途封井器.pdf
一种新型圆弧建筑模板紧固件.pdf
一种超实木防水组合踢脚线.pdf
电气柜前门板门锁装置.pdf
双人正杆器.pdf
一种纳米铝塑复合板.pdf
强磁打捞器.pdf
一种基于无刷直流电机的环卫车电动扫盘系统.pdf
一种可调节型门铰链.pdf
一种用于基桩竖向抗压静载试验的船筏式试验装置.pdf
免贴墙砖.pdf
一种聚氨酯仿石材防火保温装饰复合板.pdf