驾驶环境下手部区域的检测方法.pdf

上传人:刘** 文档编号:11450283 上传时间:2021-09-27 格式:PDF 页数:10 大小:1,019.29KB
收藏 版权申诉 举报 下载
驾驶环境下手部区域的检测方法.pdf_第1页
第1页 / 共10页
驾驶环境下手部区域的检测方法.pdf_第2页
第2页 / 共10页
驾驶环境下手部区域的检测方法.pdf_第3页
第3页 / 共10页
文档描述:

《驾驶环境下手部区域的检测方法.pdf》由会员分享,可在线阅读,更多相关《驾驶环境下手部区域的检测方法.pdf(10页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910378179.7 (22)申请日 2019.05.08 (71)申请人 北京创源微致软件有限公司 地址 100192 北京市海淀区清河永泰园甲1 号综合楼4层10-11 申请人 大连理工大学 (72)发明人 林相波史明明李一博戴佐俊 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/46(2006.01) G06K 9/62(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种驾。

2、驶环境下手部区域的检测方法 (57)摘要 本发明公开了一种驾驶环境下手部区域的 检测方法, 包括如下步骤: 步骤1)准备数据集, 该 数据集在真实驾驶环境中通过安装在驾驶室不 同位置处的相机设备拍摄驾驶室内景况下获取, 并将数据集分为训练图像集和测试图像集, 然后 对数据集进行数据扩充, 之后生成新的手部区域 标签; 步骤2)构建手部检测卷积神经网络结构, 采用多尺度架构, 利用不同尺度上的特征信息, 完成特征提取并融合; 步骤3)采用ADAM优化算法 端到端训练, 从训练图像集中随机采样, 当损失 函数L稳定后停止训练; 步骤4)采用非极大值抑 制用来消除冗余的候选框, 得到最佳的手部目标 。

3、包围框; 步骤5)公布检测结果; 便于实现对人类 手部区域的检测, 适用于驾驶室环境下的人手区 域标注。 权利要求书2页 说明书6页 附图1页 CN 110110665 A 2019.08.09 CN 110110665 A 1.一种驾驶环境下手部区域的检测方法, 其特征在于, 具体包括如下步骤: 步骤1)准备数据集, 该数据集在真实驾驶环境中通过安装在驾驶室不同位置处的相机 设备拍摄驾驶室内景况下获取, 并将数据集分为训练图像集和测试图像集, 然后对数据集 进行数据扩充, 之后生成新的手部区域标签; 步骤2)构建手部检测卷积神经网络结构, 采用多尺度架构, 利用不同尺度上的特征信 息, 完成。

4、特征提取并融合; 步骤3)采用ADAM优化算法端到端训练, 从训练图像集中随机采样, 当损失函数L稳定后 停止训练; 该损失函数L公式如下: LLc+Lr (1) 其中Lc为评价框内外像素是否正确分类的概率, Lr为评价包围框顶点位置是否得到正 确回归; Lc- p*(1-p)logp-(1- )(1-p*)plog(1-p) (2) 其中p*表示真实的像素分类结果, p表示网络估计的像素位于包围框内的概率, 是正 负样本平衡因子,根据经验取值, 实验中设置2可以取得较好的实 验结果; 其中Ci和分别表示手部包围框坐标的回归结果和真实值; 步骤4)采用非极大值抑制用来消除冗余的候选框, 得到最。

5、佳的手部目标包围框; 步骤5)公布检测结果。 2.根据权利要求1所述的驾驶环境下手部区域的检测方法, 其特征在于, 步骤1)中所述 训练图像集按照9: 1比例随机分为训练子集、 验证子集。 3.根据权利要求1所述的驾驶环境下手部区域的检测方法, 其特征在于, 步骤1)中对数 据集的数据扩充方法包括水平翻转、 垂直翻转、 随机角度旋转、 平移、 高斯模糊和锐化, 扩充 后训练数据增加到至少22000幅图像。 4.根据权利要求1所述的驾驶环境下手部区域的检测方法, 其特征在于, 步骤1)中数据 扩充包含以下规则: 扩充规则1: 亮度增强范围1.21.5倍, 缩放比例0.71.5倍, x方向平移40。

6、像素, y方向平 移60像素; 扩充规则2: 随机裁剪边距0-16像素, 按50概率水平翻转; 扩充规则3: 100垂直翻转, 加入均值为0, 方差为3的高斯模糊处理; 扩充规则4: 随机旋转, 旋转角度上限45 , 加入高斯白噪声, 噪声水平20, 按50概率 随机锐化。 5.根据权利要求1所述的驾驶环境下手部区域的检测方法, 其特征在于, 步骤1)中新的 手部区域标签生成方法如下: 以原有包围框的四条边框为基准, 向框内缩进指定长度d 权利要求书 1/2 页 2 CN 110110665 A 2 0.2lmin, lmin为最短边框长度, 框内部分标记为1, 框外部分标记为0。 6.根据权。

7、利要求1所述的驾驶环境下手部区域的检测方法, 其特征在于, 步骤2)中特征 提取并融合包含三个卷积模块和一个上采样特征融合处理, 具体包括如下步骤: 输入层图像尺寸256256, 第一个卷积模块ConvB_1含两个卷积层和一个最大池化层, 卷积核33, 64个通道; 第二个卷积模块ConvB_2含两个卷积层和一个最大池化层, 卷积核3 3, 128个通道; 第三个卷积模块ConvB_3含三个卷积层和一个最大池化层, 卷积核33, 256个通道; 上述池化层的核尺寸均为22, 步长为2; 将第三个卷积模块ConvB_3输出的特征图上采样, 尺寸扩大一倍, 再将第二个卷积模块 ConvB_2输出的。

8、特征图利用Dropout机制随机去除20的通道数, 将二者级联; 融合后的特 征图FusF_1规范化处理后送入11和33级联卷积组ConvC_1, 共128个通道; 其输出再经 过一个卷积核个数为32的33卷积层后送入输出层; 输出层含两个分支, 分支1通过单通道 11卷积, 预测每个像素点位于目标区域的概率; 分支2通过4通道11卷积, 预测目标包围 框顶点的坐标值。 7.根据权利要求1所述的驾驶环境下手部区域的检测方法, 其特征在于, 步骤5)中检测 结果包括如下客观量化评价指标: 平均准确度AP、 平均召回率AR、 综合评价指标F1-score和 检测速度FPS; 假设TP表示估计到了真。

9、实目标, FP表示估计到的目标不是真实目标, FN表示真实目标 没有被估计到, 则 FPS采用帧率描述。 权利要求书 2/2 页 3 CN 110110665 A 3 一种驾驶环境下手部区域的检测方法 技术领域 0001 本发明属于计算机视觉的目标检测领域, 尤其是涉及一种驾驶环境下手部区域的 检测方法。 背景技术 0002 人手检测、 分类和跟踪已经有多年的研究历史, 可以应用在许多领域, 如虚拟现 实, 人机交互环境, 驾驶员行为监控等。 由于自然图像中手部区域受到较多因素的干扰, 如 光照变化、 遮挡、 手形变化、 视角变化、 手部分辨率低等, 到目前为止, 自然图像中的手部区 域检测远。

10、没有达到人类识别的准确性, 很多应用场合不得不依赖效率低下的人工检测方 式。 因此, 研究自然环境下人类手部区域的准确检测方法有十分重要的意义。 本文目标是从 机动车驾驶室环境下的静态图像中检测手部区域, 研究一种基于深度学习技术的新方法, 可以为诸如驾驶员行为检测等提供技术手段。 0003 在手部检测中利用皮肤颜色信息是很多方法取得较好效果的有效策略。 如文献 1A.Mittal,A.Zisserman,and P.H.S.Torr.Hand detection using multiple proposals.In British Machine Vision Conference,201。

11、1提出一种两段式方法, 采用上 下文、 肤色、 滑动窗形状这三个互补的检测器给出手部区域候选框, 然后通过分类器给出每 个候选框的置信概率。 这类方法的缺点是在检测自然图像中的手部区域时, 由于复杂照明 情况导致的皮肤颜色变化极大地影响其检测性能。 采用多模态信息的方法也可以在某些应 用中取得较好的 结果。 如文献2E .Ohn-Ba r ,S .Ma rtin ,A .Tawa ri ,and M.M.Trivedi.Head,eye,and hand patterns for driver activity recognition.In ICPR,pages 660665,2014同时提取。

12、RGB图像和深度图像的HOG特征, 结合SVM检测手部区 域并完成驾驶员行为识别。 不过, 因为所选择的HOG特征的局限性, 该方法对手部区域的检 测精度不高。 文献3X.Zhu,X.Jia,and K.Wong, “Pixel-level hand detection with shapeaware structured forests,” in Processing of Asian Conference on Computer Vision.Springer Press,2014,pp.6478.采用形状敏感型结构化森林算法逐个像素检测 手部区域, 虽然对第一视角下的手部检测有较好效果,。

13、 但是逐个像素扫描整幅图像的方式 过于耗时。 通过人体部位分割间接得到手部区域4L .Karlinsky ,M.Dinerstein , D.Harari,and S.Ullman, “The chains model for detecting parts by their context,” in Proceedings of Computer Vision and Pattern Recognition.IEEE Press,2010,pp.2532.是另外一种手部区域检测方案, 通过把人体分成不同的部位确定 手部区域, 不过当出现遮挡时, 这样的方法很难检测到手部。 随着深度学习技术的。

14、蓬勃发 展, 基于卷积神经网络的目标检测取得了很大地进步。 如基于候选区域提名的卷积神经网 络系列(RCNN, Fast-RCNN, Faster-RCNN, R-FCN),YOLO系列目标检测网络等, 虽然它们检测 猫、 狗、 行人、 汽车、 沙发等物体取得了较好的结果, 但是当目标在图像中所占区域相对较小 时(例如人手)或有遮挡时, 使用这些网络的原始结构检测准确度不高,需要设计更有效的 结构。 文献5Lu Ding,Yong Wang,et al.Multi-scale predictions for robust hand 说明书 1/6 页 4 CN 110110665 A 4 de。

15、tection and classification,arXiv:1804.08220v1cs.CV,2018以提出一种多尺度 R-FCN网络结构, 包含5个卷积层, 从不同尺度给出手部区域候选框, 并从中抽取不同层的特 征图进行融合, 进而得到检测到的手部区域包围框。 文献6T.Hoang Ngan Le Kha Gia Quach Chenchen Zhu,et al.Robust Hand Detection and Classification in Vehicles and in the Wild,CVPRW 2018,pp:39-46也是以R-FCN网络结构为基本框架, 采用多尺度。

16、 方式融合不同层的特征, 在候选框中筛选手部区域。 文献7Xiaoming Deng,Ye Yuan, Yinda Zhang,et al.,Joint Hand Detection and Rotation Estimation by Using CNN, arXiv:1612.02742v1cs.CV,2016.设计一种手部区域检测和手部旋向检测的联合网络, 通过特征共享完成最后的手部区域检测。 发明内容 0004 本发明目的是: 提供一种驾驶环境下手部区域的检测方法, 作为一种新的手部检 测网络结构, 不需要建立肤色模型, 不需要额外的特征提取器, 通过驾驶室环境下的RGB数 据集对网络。

17、模型进行训练, 实现对人类手部区域的检测, 适用于驾驶室环境下的人手区域 标注。 0005 本发明的技术方案是: 一种驾驶环境下手部区域的检测方法, 具体包括如下步骤: 0006 步骤1)准备数据集, 该数据集在真实驾驶环境中通过安装在驾驶室不同位置处的 相机设备拍摄驾驶室内景况下获取, 并将数据集分为训练图像集和测试图像集, 然后对数 据集进行数据扩充, 之后生成新的手部区域标签; 0007 步骤2)构建手部检测卷积神经网络结构, 采用多尺度架构, 利用不同尺度上的特 征信息, 完成特征提取并融合; 0008 步骤3)采用ADAM优化算法端到端训练, 从训练图像集中随机采样, 当损失函数L稳。

18、 定后停止训练; 0009 该损失函数L公式如下: 0010 LLc+Lr (1) 0011 其中Lc为评价框内外像素是否正确分类的概率, Lr为评价包围框顶点位置是否得 到正确回归; 0012 Lc- p*(1-p)logp-(1- )(1-p*)plog(1-p) (2) 0013 其中p*表示真实的像素分类结果, p表示网络估计的像素位于包围框内的概率, 是正负样本平衡因子,根据经验取值, 实验中设置2可以取得较好 的实验结果; 0014 0015其中Ci和分别表示手部包围框坐标的回归结果和真实值; 0016 0017 步骤4)采用非极大值抑制用来消除冗余的候选框, 得到最佳的手部目标包。

19、围框; 0018 步骤5)公布检测结果。 说明书 2/6 页 5 CN 110110665 A 5 0019 作为优选的技术方案, 步骤1)中所述训练图像集按照9: 1比例随机分为训练子集、 验证子集。 0020 作为优选的技术方案, 步骤1)中对数据集的数据扩充方法包括水平翻转、 垂直翻 转、 随机角度旋转、 平移、 高斯模糊和锐化, 扩充后训练数据增加到至少22000幅图像。 0021 作为优选的技术方案, 步骤1)中数据扩充包含以下规则: 0022 扩充规则1: 亮度增强范围1.21.5倍, 缩放比例0.71.5倍, x方向平移40像素, y方 向平移60像素; 0023 扩充规则2: 。

20、随机裁剪边距0-16像素, 按50概率水平翻转; 0024 扩充规则3: 100垂直翻转, 加入均值为0, 方差为3的高斯模糊处理; 0025 扩充规则4: 随机旋转, 旋转角度上限45 , 加入高斯白噪声, 噪声水平20, 按50 概率随机锐化。 0026 作为优选的技术方案, 步骤1)中新的手部区域标签生成方法如下: 以原有包围框 的四条边框为基准, 向框内缩进指定长度d0.2lmin, lmin为最短边框长度, 框内部分标记为 1, 框外部分标记为0。 0027 作为优选的技术方案, 步骤2)中特征提取并融合包含三个卷积模块和一个上采样 特征融合处理, 具体包括如下步骤: 0028 输入。

21、层图像尺寸256256, 第一个卷积模块ConvB_1含两个卷积层和一个最大池 化层, 卷积核33, 64个通道; 第二个卷积模块ConvB_2含两个卷积层和一个最大池化层, 卷 积核33, 128个通道; 第三个卷积模块ConvB_3含三个卷积层和一个最大池化层, 卷积核3 3, 256个通道; 上述池化层的核尺寸均为22, 步长为2; 0029 将第三个卷积模块ConvB_3输出的特征图上采样, 尺寸扩大一倍, 再将第二个卷积 模块ConvB_2输出的特征图利用Dropout机制随机去除20的通道数, 将二者级联; 融合后 的特征图FusF_1规范化处理后送入11和33级联卷积组ConvC。

22、_1, 共128个通道; 其输出 再经过一个卷积核个数为32的33卷积层后送入输出层; 输出层含两个分支, 分支1通过单 通道11卷积, 预测每个像素点位于目标区域的概率; 分支2通过4通道11卷积, 预测目标 包围框顶点的坐标值。 0030 作为优选的技术方案, 步骤5)中检测结果包括如下客观量化评价指标: 平均准确 度AP、 平均召回率AR、 综合评价指标F1-score和检测速度FPS; 0031 假设TP表示估计到了真实目标, FP表示估计到的目标不是真实目标, FN表示真实 目标没有被估计到, 则 0032 0033 0034 0035 FPS采用帧率描述。 0036 本发明的优点是。

23、: 0037 1、 本发明驾驶环境下手部区域的检测方法, 不仅准确率高, 而且适用性更好, 计算 说明书 3/6 页 6 CN 110110665 A 6 复杂性低, 运行时间少, 训练过程简单, 效率高, 测试效率达42fps。 0038 2、 本发明采用深度卷积神经网络结构建立手部检测的模型, 可以提取人手相关的 更为全面的特征, 对遮挡、 不均匀光照、 尺度变化、 形状变化等具有更好的鲁棒性。 附图说明 0039 下面结合附图及实施例对本发明作进一步描述: 0040 图1为针对不同光照、 不同手部形状、 不同大小的手、 不同数量手的检测结果示意 图。 具体实施方式 0041 实施例: 由。

24、于手部区域在不同图像中有较大的尺寸变化, 因此考虑用不同深度的 特征图分别表达不同尺寸人手的特征, 其中采用更深层的特征聚焦较大的手部区域, 而较 浅层的特征聚焦较小的手部区域, 为了减小计算开销, 本发明采用U型卷积神经网络结构的 思想逐步合并特征图, 具体包括如下步骤: 0042 步骤1)准备数据集, 该数据集在真实驾驶环境中通过安装在驾驶室不同位置处的 相机设备拍摄驾驶室内景况下获取, 其目的是研究背景杂乱、 复杂照明条件以及经常性遮 挡情况下人手区域检测方法的性能, 并将数据集分为训练图像集和测试图像集, 然后对数 据集进行数据扩充, 之后生成新的手部区域标签; 0043 其中数据集共。

25、包括5500个训练图像, 5500个测试图像, 图像尺寸在训练和测试时 统一调整为256256; 训练图像集按照9: 1比例随机分为训练子集、 验证子集, 其中训练子 集包含4950张图像, 验证子集包含550张图像, 测试图像集包含5500张图像。 相机视角包括: 移动拍摄、 固定在左前方拍摄司机、 固定在右前方拍摄司机、 固定在后方, 固定在司机右侧、 固定在上方、 戴在司机头上等。 0044 深度神经网络需要海量的数据训练才能得到一个较好的模型。 因此, 在原有数据 基础上, 需要对数据集进行扩充。 对数据集的数据扩充方法包括水平翻转、 垂直翻转、 随机 角度旋转、 平移、 高斯模糊和锐。

26、化, 扩充后训练数据增加到至少22000幅图像。 0045 数据扩充包含以下规则: 0046 扩充规则1: 亮度增强范围1.21.5倍, 缩放比例0.71.5倍, x方向平移40像素, y方 向平移60像素; 0047 扩充规则2: 随机裁剪边距0-16像素, 按50概率水平翻转; 0048 扩充规则3: 100垂直翻转, 加入均值为0, 方差为3的高斯模糊处理; 0049 扩充规则4: 随机旋转, 旋转角度上限45 , 加入高斯白噪声, 噪声水平20, 按50 概率随机锐化。 0050 原有数据集给出的手部区域标签是包围框形式, 即包围框的顶点坐标。 本专利网 络输出部分使用的信息是像素点落。

27、在包围框内的概率信息, 因此需要对原始标签进行处 理, 生成新的标签。 新的手部区域标签生成方法如下: 以原有包围框的四条边框为基准, 向 框内缩进指定长度d0.2lmin, lmin为最短边框长度, 框内部分标记为1, 框外部分标记为0。 0051 步骤2)构建手部检测卷积神经网络结构, 采用多尺度架构, 利用不同尺度上的特 征信息, 完成特征提取并融合; 说明书 4/6 页 7 CN 110110665 A 7 0052 特征提取并融合包含三个卷积模块和一个上采样特征融合处理, 具体包括如下步 骤: 0053 输入层图像尺寸256256, 第一个卷积模块ConvB_1含两个卷积层和一个最大。

28、池 化层, 卷积核33, 64个通道; 第二个卷积模块ConvB_2含两个卷积层和一个最大池化层, 卷 积核33, 128个通道; 第三个卷积模块ConvB_3含三个卷积层和一个最大池化层, 卷积核3 3, 256个通道; 上述池化层的核尺寸均为22, 步长为2; 0054 将第三个卷积模块ConvB_3输出的特征图上采样, 尺寸扩大一倍, 再将第二个卷积 模块ConvB_2输出的特征图利用Dropout机制随机去除20的通道数, 将二者级联; 融合后 的特征图FusF_1规范化处理后送入11和33级联卷积组ConvC_1, 共128个通道; 其输出 再经过一个卷积核个数为32的33卷积层后送。

29、入输出层; 输出层含两个分支, 分支1通过单 通道11卷积, 预测每个像素点位于目标区域的概率; 分支2通过4通道11卷积, 预测目标 包围框顶点的坐标值。 0055 步骤3)采用ADAM优化算法端到端训练, 从训练图像集中随机采样, 当损失函数L稳 定后停止训练; 0056 该损失函数L公式如下: 0057 LLc+Lr (1) 0058 其中Lc为评价框内外像素是否正确分类的概率, Lr为评价包围框顶点位置是否得 到正确回归; 0059 Lc- p*(1-p)logp-(1- )(1-p*)plog(1-p) (2) 0060 其中p*表示真实的像素分类结果, p表示网络估计的像素位于包围。

30、框内的概率, 是正负样本平衡因子,根据经验取值, 实验中设置2可以取得较好 的实验结果; 0061 0062其中Ci和分别表示手部包围框坐标的回归结果和真实值; 0063 0064 步骤4)目标检测过程中, 在同一目标位置会产生大量的相互重叠的候选框, 每个 候选框有不同的置信度。 采用非极大值抑制用来消除冗余的候选框, 得到最佳的手部目标 包围框; 0065 步骤5)公布检测结果; 检测结果包括如下客观量化评价指标: 平均准确度AP、 平均 召回率AR、 综合评价指标F1-score和检测速度FPS; 0066 假设TP表示估计到了真实目标, FP表示估计到的目标不是真实目标, FN表示真实。

31、 目标没有被估计到, 则 0067 0068 说明书 5/6 页 8 CN 110110665 A 8 0069 0070 FPS采用帧率描述。 0071 本网络检测驾驶室环境下RGB静态图像中手部区域的性能通过主观视觉检测和客 观量化指标的方式评价, 图1所示为几个典型实例的手部检测结果, 可以看到, 所述方法对 不同光照、 不同手部形状、 不同大小的手、 不同数量的手均具有较好的检测效果。 0072 本方法在测试集上定量评价结果如表1所示, 方法性能与VIVA数据集上竞赛最好 结果进行了对比。 0073 表1.测试集中对手部区域检测的定量评价指标 0074 方法AP()AR()FFPS 本专利98.386.792.242 背景技术文献694.874.7-4.65 0075 上述实施例仅例示性说明本发明的原理及其功效, 而非用于限制本发明。 任何熟 悉此技术的人士皆可在不违背本发明的精神及范畴下, 对上述实施例进行修饰或改变。 因 此, 举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完 成的一切等效修饰或改变, 仍应由本发明的权利要求所涵盖。 说明书 6/6 页 9 CN 110110665 A 9 图1 说明书附图 1/1 页 10 CN 110110665 A 10 。

展开阅读全文
内容关键字: 驾驶 环境 下手 区域 检测 方法
关于本文
本文标题:驾驶环境下手部区域的检测方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11450283.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1