基于SSD-MobileNet的实时手势检测和识别方法及系统.pdf

上传人:三** 文档编号:10342829 上传时间:2021-06-18 格式:PDF 页数:20 大小:1.27MB
收藏 版权申诉 举报 下载
基于SSD-MobileNet的实时手势检测和识别方法及系统.pdf_第1页
第1页 / 共20页
基于SSD-MobileNet的实时手势检测和识别方法及系统.pdf_第2页
第2页 / 共20页
基于SSD-MobileNet的实时手势检测和识别方法及系统.pdf_第3页
第3页 / 共20页
文档描述:

《基于SSD-MobileNet的实时手势检测和识别方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于SSD-MobileNet的实时手势检测和识别方法及系统.pdf(20页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010419695.2 (22)申请日 2020.05.18 (71)申请人 武汉工程大学 地址 430000 湖北省武汉市东湖新技术开 发区光谷一路206号 (72)发明人 程志宇徐国庆许犇张岚斌 付尧罗京 (74)专利代理机构 北京轻创知识产权代理有限 公司 11212 代理人 赵秀斌 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/62(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发。

2、明名称 一种基于SSD-MobileNet的实时手势检测和 识别方法及系统 (57)摘要 本发明提供一种基于SSD-MobileNet的实时 手势检测和识别方法及系统, 其中, 一种基于 SSD-MobileNet的实时手势检测和识别系统包括 数据处理单元, 用于接收原始egohands视频数据 集, 原始egohands视频数据集包括多帧原始数据 集图像, 还用于对多帧原始数据集图像进行扩充 处理, 建立扩充数据集; SSD-MobileNet手部数据 检测模型, 包括SSD网络及Mobilenet网络, 用于 手势图像提取, 使用扩充数据集进行训练及优 化, 还用于对自建的复杂背景下的数字。

3、手势数据 集中的图像进行手势图像提取, 获取手势识别数 据集; 改进的CNN的手势识别模型用Ghost模块层 代替传统卷积层, 对手势图像进行手势识别, 使 用手势识别数据集进行训练及优化。 本发明引入 SSD-MobileNet和改进的CNN的手势识别模型相 结合, 具有提高手势检测和识别的工作效率的优 点。 权利要求书2页 说明书13页 附图4页 CN 111709295 A 2020.09.25 CN 111709295 A 1.一种基于SSD-MobileNet的实时手势检测和识别方法, 其特征在于, 包括以下步骤: S1: 获取原始egohands视频数据集, 所述原始egohand。

4、s视频数据集包括多帧原始数据 集图像, 对多帧原始数据集图像进行扩充处理, 建立扩充数据集, 执行S2; S2: 建立SSD-MobileNet手部数据检测模型, 所述SSD-MobileNet手部数据检测模型用 于提取手势图像, 所述SSD-MobileNet手部数据检测模型包括SSD网络及Mobilenet网络, 对 SSD-MobileNet手部数据检测模型进行训练并优化, 执行S3; S3: 使用SSD-MobileNet手部数据检测模型对自建的复杂背景下的数字手势数据集中 的图像进行手势图像提取, 获取手势识别数据集, 执行S4; S4: 建立改进的CNN的手势识别模型, 使用手势识。

5、别数据集训练并优化改进的CNN的手 势识别模型, 执行S5; S5: 获取待检测视频数据集, 使用SSD-MobileNet手部数据检测模型对待检测视频数据 集中的图像进行手势图像提取, 使用改进的CNN的手势识别模型对手势图像进行手势识别, 输出识别结果。 2.根据权利要求1所述的一种基于SSD-MobileNet的实时手势检测和识别方法, 其特征 在于, 所述S1中对多帧原始数据集图像进行扩充处理具体包括, 对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或对比 度调整和/或加噪声和/或高斯模糊, 获得不同对比度的手势数据, 建立扩充数据集。 3.根据权利要求1或2所。

6、述的一种基于SSD-MobileNet的实时手势检测和识别方法, 其 特征在于, 所述S2中对SSD-MobileNet手部数据检测模型进行训练并优化具体包括, S231: 按照比例, 将扩充数据集分为训练集及测试集, 抽取训练集中一部分验证集, 执 行S232; S232: 使用训练集训练SSD-MobileNet手部数据检测模型, 使用验证集调节SSD- MobileNet手部数据检测模型参数, 执行S233; S233: 使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化, 若否, 执行 S232, 若是, 执行S3。 4.根据权利要求1或2所述的一种基于SSD-Mob。

7、ileNet的实时手势检测和识别方法, 其 特征在于, 所述S4具体包括以下步骤, S41: 建立改进的CNN的手势识别模型, 执行S42; S42: 使用手势识别数据集训练并优化改进的CNN的手势识别模型, 执行S43; S43: 获取改进的CNN的手势识别模型的优化评价参数, 所述优化评价参数包括正类预 测为正类结果参数TP、 负类预测为正类结果参数FP、 负类预测为正类结果参数FN、 负类预测 为负类结果参数TN, 执行S44; S44: 根据优化评价参数计算改进的CNN的手势识别模型的评价指标, 所述评价指标包 括准确率、 精确率及召回率, 执行S45; S45: 根据改进的CNN的手。

8、势识别模型的评价指标判断改进的CNN的手势识别模型是否 优化成功, 若否, 执行S42, 若是执行S5。 5.根据权利要求4所述的一种基于SSD-MobileNet的实时手势检测和识别方法, 其特征 在于, 所述改进的CNN的手势识别模型用Ghost模块层代替传统卷积层, 所述改进的CNN的手 势识别模型的损失函数为categorical_crossentropy损失函数, 优化函数为Adam优化算 权利要求书 1/2 页 2 CN 111709295 A 2 法。 6.一种基于SSD-MobileNet的实时手势检测和识别系统, 其特征在于, 包括, 数据处理单元, 用于接收原始egohan。

9、ds视频数据集, 所述原始egohands视频数据集包 括多帧原始数据集图像, 还用于对多帧原始数据集图像进行扩充处理, 建立扩充数据集; SSD-MobileNet手部数据检测模型, 包括SSD网络及Mobilenet网络, 用于手势图像提 取, 使用扩充数据集进行训练及优化, 还用于对自建的复杂背景下的数字手势数据集中的 图像进行手势图像提取, 获取手势识别数据集, 还用于对待测试视频数据集中的图像进行 手势图像提取; 改进的CNN的手势识别模型, 用于对手势图像进行手势识别, 使用手势识别数据集进行 训练及优化, 还用于从待测试视频数据集中提取的手势图像进行手势识别, 输出识别结果。 7。

10、.根据权利要求6所述的一种基于SSD-MobileNet的实时手势检测和识别系统, 其特征 在于, 所述数据处理单元对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或 亮度调整和/或对比度调整和/或加噪声和/或高斯模糊, 获得不同对比度的手势数据, 建立 扩充数据集。 8.根据权利要求6或7所述的一种基于SSD-MobileNet的实时手势检测和识别系统, 其 特征在于, 所述数据处理处理单元还用于将扩充数据集分为训练集及测试集, 抽取训练集 中一部分验证集, 所述SSD-MobileNet手部数据检测模型使用扩充数据集进行训练及优化 具体包括以下步骤, 所述S2中对SSD-Mobil。

11、eNet手部数据检测模型进行训练并优化具体包括, S31: 按照比例, 将扩充数据集分为训练集及测试集, 抽取训练集中一部分验证集, 执行 S32; S32: 使用训练集训练SSD-MobileNet手部数据检测模型, 使用验证集调节SSD- MobileNet手部数据检测模型参数, 执行S33; S33: 使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化, 若否, 执行S32, 若是, 完成优化。 9.根据权利要求8所述的一种基于SSD-MobileNet的实时手势检测和识别系统, 其特征 在于, 所述SSD网络的损失函数包括定位损失和分类损失, 所述SSD网络的损失函数。

12、为: 其中, N为所有匹配到真实框的default box数目, Lconf为置信损失, Lloc为定位损失。 10.根据权利要求6或7所述的一种基于SSD-MobileNet的实时手势检测和识别系统, 其 特征在于, 所述改进的CNN的手势识别模型包括输入层、 三层Ghost模块层、 三层池化层、 两 层全连接层及输出层, 损失函数为categorical_crossentropy损失函数, 优化函数为Adam 优化算法。 权利要求书 2/2 页 3 CN 111709295 A 3 一种基于SSD-MobileNet的实时手势检测和识别方法及系统 技术领域 0001 本发明涉及图像识别的技。

13、术领域, 具体涉及一种基于SSD-MobileNet的实时手势 检测和识别方法及系统。 背景技术 0002 随着目标检测技术的不断发展和深入, 现代检测仪器精度的不断提升, 各种先进 的检测算法广泛应用于当下的智能设备中, 其中手势检测和识别分析一直以来都是人机交 互领域研究的重点。 可以从不同的手部特征开始利用检测算法对手的表面纹理及外部姿态 进行深入分析, 达到检测和识别的目的。 0003 目前, 针对实时手势检测与识别相结合的研究在确保高精度的情况下往往是借助 较高端的外部硬件设备实现, 如Leap公司制造的Leap Motion体感控制器, 微软推出的 Kinect体感周边外设, 谷歌。

14、设计的Project Soli雷达芯片以及CyberGlove系统公司提供的 数据手套设备等, 能够达到良好的识别速度和精度, 但不具备普适性。 15年Minto L , Zanuttigh P.等人在Exploiting silhouette descriptors and synthetic data for hand gesture recognition一文提出了一种实时手势识别方案, 针对的是深度相机设备得 到深度数据, 从采集到的数据中提取出手部轮廓特征, 然后输入到多类别支持向量机中, 进 行手势识别。 0004 检测技术的完备随之而来的是检测类别的丰富和完善, 越来越多手势数据。

15、集的开 源, 为手势的检测和识别任务提供了很好的数据基础。 然而目前对手势数据的整理和利用 不是很充分, 在检测速度和检测精度上还存在不足, 严重制约了实时手势检测和识别的工 作效率。 发明内容 0005 本发明的目的在于克服现有技术中的缺点, 提供一种基于SSD-MobileNet的实时 手势检测和识别方法及系统, 引入SSD-MobileNet和改进的CNN的手势识别模型相结合, 具 有提高手势检测和识别的工作效率的优点。 0006 本发明的目的是通过以下技术方案来实现的: 一种基于SSD-MobileNet的实时手 势检测和识别方法, 包括以下步骤: 0007 S1: 获取原始egoha。

16、nds视频数据集, 所述原始egohands视频数据集包括多帧原始 数据集图像, 对多帧原始数据集图像进行扩充处理, 建立扩充数据集, 执行S2; 0008 S2: 建立SSD-MobileNet手部数据检测模型, 所述SSD-MobileNet手部数据检测模 型用于提取手势图像, 所述SSD-MobileNet手部数据检测模型包括SSD网络及Mobilenet网 络, 对SSD-MobileNet手部数据检测模型进行训练并优化, 执行S3; 0009 S3: 使用SSD-MobileNet手部数据检测模型对自建的复杂背景下的数字手势数据 集中的图像进行手势图像提取, 获取手势识别数据集, 执。

17、行S4; 0010 S4: 建立改进的CNN的手势识别模型, 使用手势识别数据集训练并优化改进的CNN 说明书 1/13 页 4 CN 111709295 A 4 的手势识别模型, 执行S5; 0011 S5: 获取待检测视频数据集, 使用SSD-MobileNet手部数据检测模型对待检测视频 数据集中的图像进行手势图像提取, 使用改进的CNN的手势识别模型对手势图像进行手势 识别, 输出识别结果。 0012 本发明的有益效果是, 在进行实时检测之前, 先建立SSD-MobileNet手部数据检测 模型及改进的CNN的手势识别模型, 训练及优化SSD-MobileNet手部数据检测模型及改进的。

18、 CNN的手势识别模型。 在实时检测时, 接收实时视频数据, 将实时视频数据中的帧图像处理 成一定大小, SSD-MobileNet手部数据检测模型对实时视频数据进行手势提取, 按照周期提 取手势图并分类别保存, 去除所有不完整和模糊的手势图片, 将处理好的手势图按照一定 大小进行缩放, 统一尺寸。 改进的CNN的手势识别模型识别手势图中的手势, 测试过程中的 帧率符合实时检测和识别的要求, 达到提高手势检测和识别的工作效率的效果。 0013 进一步, 所述S1中对多帧原始数据集图像进行扩充处理具体包括, 0014 对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或 对比。

19、度调整和/或加噪声和/或高斯模糊, 获得不同对比度的手势数据, 建立扩充数据集。 0015 采用上述进一步方案的有益效果是, 对原始数据集中的图像进行随机翻转、 平移、 剪裁、 亮度调整、 对比度调整、 加噪声、 高斯模糊操作中的一种或多种, 扩充多次, 获得不同 对比度的手势数据, 减少了原始数据获取的工作量。 0016 进一步, 所述S2中对SSD-MobileNet手部数据检测模型进行训练并优化具体包括, 0017 S231: 按照比例, 将扩充数据集分为训练集及测试集, 抽取训练集中一部分验证 集, 执行S232; 0018 S232: 使用训练集训练SSD-MobileNet手部数据。

20、检测模型, 使用验证集调节SSD- MobileNet手部数据检测模型参数, 执行S233; 0019 S233: 使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化, 若否, 执 行S232, 若是, 执行S3。 0020 采用上述进一步方案的有益效果是, 使用训练集训练SSD-MobileNet手部数据检 测模型, 使用验证集调节SSD-MobileNet手部数据检测模型参数, 测试集判断SSD- MobileNet手部数据检测模型的优化程度, 有效降低了数据的偶然性。 0021 进一步, 所述S4具体包括以下步骤, 0022 S41: 建立改进的CNN的手势识别模型, 。

21、执行S42; 0023 S42: 使用手势识别数据集训练并优化改进的CNN的手势识别模型, 执行S42; 0024 S43: 获取改进的CNN的手势识别模型的优化评价参数, 所述优化评价参数包括正 类预测为正类结果参数TP、 负类预测为正类结果参数FP、 负类预测为正类结果参数FN、 负类 预测为负类结果参数TN, 执行S44; 0025 S44: 根据优化评价参数计算改进的CNN的手势识别模型的评价指标, 所述评价指 标包括准确率、 精确率及召回率, 执行S45; 0026 S45: 根据改进的CNN的手势识别模型的评价指标判断改进的CNN的手势识别模型 是否优化成功, 若否, 执行S42,。

22、 若是执行S5。 0027 进一步, 所述改进的CNN的手势识别模型用Ghost模块层代替传统卷积层, 所述改 进的CNN的手势识别模型的损失函数为categorical_crossentropy损失函数, 优化函数为 说明书 2/13 页 5 CN 111709295 A 5 Adam优化算法。 0028 采用上述进一步方案的有益效果是, Ghost模块层生成特征图操作简单高效, 与传 统卷积层相比, 在同样精度下, 计算量明显减少。 Adam优化算法是在自适应梯度算法 AdaGrad和均方根传播RMSProp两种算法的基础上提出的, 其优点是简单高效, 梯度变换对 参数影响小, 适合梯度稀。

23、疏和很大噪声问题。 0029 一种基于SSD-MobileNet的实时手势检测和识别系统, 包括, 0030 数据处理单元, 用于接收原始egohands视频数据集, 所述原始egohands视频数据 集包括多帧原始数据集图像, 还用于对多帧原始数据集图像进行扩充处理, 建立扩充数据 集; 0031 SSD-MobileNet手部数据检测模型, 包括SSD网络及Mobilenet网络, 用于手势图像 提取, 使用扩充数据集进行训练及优化, 还用于对自建的复杂背景下的数字手势数据集中 的图像进行手势图像提取, 获取手势识别数据集, 还用于对待测试视频数据集中的图像进 行手势图像提取; 0032 。

24、改进的CNN的手势识别模型, 用于对手势图像进行手势识别, 使用手势识别数据集 进行训练及优化, 还用于从待测试视频数据集中提取的手势图像进行手势识别, 输出识别 结果。 0033 本发明的有益效果是, 在进行实时检测之前, 先建立SSD-MobileNet手部数据检测 模型及改进的CNN的手势识别模型, 训练及优化SSD-MobileNet手部数据检测模型及改进的 CNN的手势识别模型。 在实时检测时, 数据处理单元接收实时视频数据, 将实时视频数据中 的帧图像处理成一定大小, SSD-MobileNet手部数据检测模型对实时视频数据进行手势提 取, 按照周期提取手势图并分类别保存, 去除所。

25、有不完整和模糊的手势图片, 将处理好的手 势图按照一定大小进行缩放, 统一尺寸。 改进的CNN的手势识别模型识别手势图中的手势, 达到提高手势检测和识别的工作效率的效果。 0034 进一步, 所述数据处理单元对多帧原始数据集图像进行随机翻转和/或平移和/或 剪裁和/或亮度调整和/或对比度调整和/或加噪声和/或高斯模糊, 获得不同对比度的手势 数据, 建立扩充数据集。 0035 采用上述进一步方案的有益效果是, 数据处理单元对原始数据集中的图像进行随 机翻转、 平移、 剪裁、 亮度调整、 对比度调整、 加噪声、 高斯模糊操作中的一种或多种, 扩充多 次, 获得不同对比度的手势数据, 减少了原始数。

26、据获取的工作量。 0036 进一步, 所述数据处理处理单元还用于将扩充数据集分为训练集及测试集, 抽取 训练集中一部分验证集, 所述SSD-MobileNet手部数据检测模型使用扩充数据集进行训练 及优化具体包括以下步骤, 0037 所述S2中对SSD-MobileNet手部数据检测模型进行训练并优化具体包括, 0038 S31: 按照比例, 将扩充数据集分为训练集及测试集, 抽取训练集中一部分验证集, 执行S32; 0039 S32: 使用训练集训练SSD-MobileNet手部数据检测模型, 使用验证集调节SSD- MobileNet手部数据检测模型参数, 执行S33; 0040 S33:。

27、 使用测试集判断SSD-MobileNet手部数据检测模型是否完成优化, 若否, 执行 S32, 若是, 完成优化。 说明书 3/13 页 6 CN 111709295 A 6 0041 采用上述进一步方案的有益效果是, 使用训练集训练SSD-MobileNet手部数据检 测模型, 使用验证集调节SSD-MobileNet手部数据检测模型参数, 测试集判断SSD- MobileNet手部数据检测模型的优化程度, 有效降低了数据的偶然性。 0042 进一步, 所述改进的CNN的手势识别模型包括输入层、 三层Ghost模块层、 三层池化 层、 两层全连接层及输出层, 损失函数为categorica。

28、l_crossentropy损失函数, 优化函数为 Adam优化算法。 0043 采用上述进一步方案的有益效果是, Ghost模块层生成特征图操作简单高效, 与传 统卷积层相比, 在同样精度下, 计算量明显减少。 Adam优化算法是在自适应梯度算法 AdaGrad和均方根传播RMSProp两种算法的基础上提出的, 其优点是简单高效, 梯度变换对 参数影响小, 适合梯度稀疏和很大噪声问题。 0044 本发明中各个名词解释如下: 0045 0046 说明书 4/13 页 7 CN 111709295 A 7 附图说明 0047 图1为本发明的实施例1的结构示意图; 0048 图2为本发明用于展示扩。

29、充数据集的部分图像的示意图; 0049 图3为本发明用于展示SSD-MobileNet模型训练的map曲线图; 0050 图4为本发明用于展示SSD-MobileNet手部数据检测模型提取的部分的手势图像 的示意图; 0051 图5为本发明用于展示改进的CNN的手势识别模型的结构示意图; 0052 图6为本发明用于展示改进的CNN的手势识别模型训练和优化过程中accuracy变 化的示意图; 0053 图7为本发明用于展示改进的CNN的手势识别模型训练和优化过程中loss变化的 示意图; 0054 图8为本发明的实施例2的一种基于SSD-MobileNet的实时手势检测和识别方法的 流程示意图。

30、。 具体实施方式 0055 下面结合附图进一步详细描述本发明的技术方案, 但本发明的保护范围不局限于 以下。 0056 实施例1 0057 参照图1, 一种基于SSD-MobileNet的实时手势检测和识别系统, 包括, 0058 数据处理单元, 用于接收原始egohands视频数据集, 原始egohands视频数据集包 括多帧原始数据集图像, 还用于对多帧原始数据集图像进行扩充处理, 建立扩充数据集; 0059 SSD-MobileNet手部数据检测模型, 包括SSD网络及Mobilenet网络, 用于手势图像 提取, 使用扩充数据集进行训练及优化, 还用于对扩充数据集中的图像进行手势图像提。

31、取, 获取手势识别数据集, 还用于对待测试视频数据集中的图像进行手势图像提取; 0060 改进的CNN的手势识别模型, 用Ghost模块层代替传统卷积层, 用于对手势图像进 行手势识别, 使用手势识别数据集进行训练及优化, 还用于从待测试视频数据集中提取的 手势图像进行手势识别, 输出识别结果。 0061 下面依次对每个部分进行详细说明。 0062 本实施例中, 数据处理单元接收的原始egohands视频数据集包括48段两人互动视 频, 48段视频中的每个视频都有100个带标签的帧, 均为JPEG文件(720 x1280px), 总计4,800 个帧, 数据处理单元标记原始egohands视频。

32、数据集中所有带标签的帧。 值得说明的是, 为了 提高训练速度, 数据处理单元将原始egohands视频数据集中所有带标签的帧处理成300* 300px, 标签大小按比例缩小。 0063 数据处理单元包括imgaug数据增强库, 使用imgaug数据增强库中的Flipud, Fliplr, Multiply, AdditiveGaussianNoise, GaussianBlur等离线数据增强工具对原始 egohands视频数据集进行扩充。 0064 参照图2, 对带标签的帧进行随机翻转和/或平移和/或剪裁和/或亮度调整和/或 对比度调整和/或加噪声和/或高斯模糊, 扩充两次, 获得不同对比度的。

33、手势数据, 建立扩充 数据集, 扩充数据集包含9564张图片。 得到扩充数据集后, 以9: 1的比例将扩充数据集划分 说明书 5/13 页 8 CN 111709295 A 8 训练集和测试集。 其中训练集包括8608张图片, 测试集包括956张图片, 抽取训练集中一部 分验证集。 其中训练集用于训练模型, 验证集用于调节模型参数, 而测试集只用来衡量模型 的好坏, 有效降低了数据的偶然性。 0065 SSD-MobileNet手部数据检测模型, 包括SSD网络及Mobilenet网络。 其中, MobileNet网络模型的优势是使用深度可分离卷积将标准卷积核分解成深度卷积核和点卷 积核, 减。

34、少计算量。 0066 假设卷积核大小为DK*DK, 输入特征图的大小为DF*DF, 通道数为M, 输出特征图的大 小为DG*DG, 通道数为N, 则与标准卷积核的计算量的比值为: 0067 0068 Mobilenet网络引入宽度乘数 和分辨率乘数 后总的计算量为: 0069 DkDk M DF DF+ M N DF DF。 0070 宽度乘数 和分辨率乘数 也影响着SSD-MobileNet手部数据检测模型的准确度、 参数量以及参数的计算量。 0071 SSD网络的损失函数计算由定位损失和分类损失两个部分组成, 总的损失函数表 达式为: 0072 0073 其中, N为所有匹配到真实框的de。

35、fault box数目, Lconf为置信损失, Lloc为定位损 失。 0074 参照图3, SSD-MobileNet手部数据检测模型的训练过程如下, 0075 S1: 修改label_map.pbtxt文件内容, 检测类别为1, name为hand; 0076 S2: SSD-MobileNet手部数据检测模型配置文件选择ssd_mobilenet_v1_ coco.config文件, 修改检测类别数, 训练集和测试集的tfrecords地址以及config文件的 位置; 0077 S3: 开始训练, 学习率设置为0.004, 迭代步数设置为180000次, 使用tensorboard 。

36、进行监测, 得到训练过程图的map; 0078 S4: 将完成训练后的SSD-MobileNet手部数据检测模型导出, 生成frozen_ inference_graph.pb文件。 0079 参照图4, 使用训练后的SSD-MobileNet手部数据检测模型对原始egohands视频数 据集进行手势提取, 建立手势识别原始数据集。 手势识别原始数据集包含六种不同的手势, 每种手势包含十段左右15s20s的手势视频。 SSD-MobileNet手部数据检测模型对手势识 别数据集按照每5帧为一个周期提取手势图并分类别保存, 去除所有不完整和模糊的手势 图片, 将处理好的数据图按照60*60px大。

37、小进行缩放, 统一尺寸, 建立手势识别数据集。 手势 识别数据集将得到的手势数据分成六种类别, 标签分别为 “fist” 、“one” 、“two” 、“three” 、 “four” 、“five” , 每种手势的数据量在3000张左右, 取总数据集的85作为训练集, 训练集 包括15471张图片, 测试集包括2731张图片。 0080 参照图5, 改进的CNN的手势识别模型包括输入层、 三层Ghost模块层、 三层池化层、 说明书 6/13 页 9 CN 111709295 A 9 两层全连接层及输出层, 具体结构如下: 0081 输入层, 手势图片的输入大小缩放成60*60px, 通道数。

38、为3; 0082 Ghost模块层,使用32个3*3大小的卷积核对输入图像进行卷积和深度卷积操作, 填充方式是 same , 用0填充, 输出大小为60*60*32; 0083 池化层, 对得到的特征图进行核大小为2*2的最大池化操作, 输出大小为30*30* 32; 0084 Ghost模块层,使用64个3*3大小的卷积核对输入的特征图进行卷积和深度卷积操 作, 填充方式是 same , 用0填充, 输出大小为30*30*64; 0085 池化层, 对得到的特征图进行核大小为2*2的最大池化操作, 输出大小为15*15* 64; 0086 Ghost模块层,使用128个3*3大小的卷积核对输。

39、入的特征图进行卷积和深度卷积 操作, 填充方式是 same , 用0填充, 输出大小为15*15*128; 0087 池化层, 对得到的特征图进行核大小为2*2的最大池化操作, 输出大小为7*7*128; 0088 全连接层, 将7*7*128的特征图展开成6272维的向量, 节点个数设为64; 0089 全连接层, 输入的节点数为64, 输出节点数为64; 0090 输出层, 输入节点数为64, 输出节点数为6, 有六个标签。 0091 用Ghost模块层代替传统卷积层来提取图像特征, 生成中间特征图, 优化传统卷积 层在计算特征图存在的大量冗余, 减少计算成本。 Ghost模块将传统的卷积。

40、操作分成两步实 现, 首先用卷积生成通道数较少的特征图, 再用深度卷积生成特征图, 两组特征图进行拼接 得到最终输出特征图。 Ghost模块使用一个恒等映射和n(s-1)个线性运算, 其中n为卷积核 数量, s为幻影特征图数量。 每个线性运算的内核大小为d*d,在实验中选择内核大小为3*3 来实现。 Ghost模块层生成特征图操作简单高效, 和传统卷积层相比, 在同样精度下, 计算量 明显减少。 0092 改进的CNN的手势识别模型的一次训练所选取的样本数Batchsize设置为32, 学习 率lr设为0.001, 迭代次数epoch设为31, 损失函数选择categorical_crosse。

41、ntropy损失函 数, 其中优化算法选择Adam优化算法。 0093 Adam优化算法是在自适应梯度算法AdaGrad和均方根传播RMSProp两种算法的基 础上提出的, 其优点是简单高效, 梯度变换对参数影响小, 适合梯度稀疏和很大噪声问题。 优化算法使用的计算函数如下: 0094 VdW 1VdW+(1- 1)dW 0095 Vdb 1Vdb+(1- 1)db 0096 SdW 2SdW+(1- 2)dW2 0097 Sdb 2Sdb+(1- 2)db2 0098 0099 说明书 7/13 页 10 CN 111709295 A 10 0100 0101 0102 0103 0104 。

42、其中, t为迭代次数, 1是指数衰减率, 控制动量和当前梯度的权重分配, 通常将 1 设为0.9, 2则是控制梯度平方的影响, 通常将2设为0.999, 默认参数更新的学习率 为 0.001,Vdw和Vdb是损失函数迭代过程中用指数加权平均累积的梯度动量; W是权重, b是偏 置; dw和db是损失函数反向传播求得的梯度; Sdw和Sdb是损失函数迭代过程中累积的梯度平 方动量;和是修正指数加权平均梯度动量;和是修 正梯度平方动量。 使用Adam优化算法能够从梯度均值和平方两方面自适应调整计算更新步 长。 0105 参照图6、 7, 本实施例中, 改进的CNN的手势识别模型经过31个epoch。

43、训练后, 训练 和测试的准确率稳定在99左右, loss值降到0.04左右, 完成训练及优化。 0106 在实时检测时, 数据处理单元接收实时视频数据, 将实时视频数据中的帧图像处 理成300*300px, SSD-MobileNet手部数据检测模型对实时视频数据进行手势提取, 按照每5 帧为一个周期提取手势图并分类别保存, 去除所有不完整和模糊的手势图片, 将处理好的 手势图按照60*60px大小进行缩放, 统一尺寸。 改进的CNN的手势识别模型识别手势图中的 手势, 测试过程中的帧率符合实时检测和识别的要求, 符合实时检测和识别的要求, 且识别 效果良好。 针对复杂背景下的数字手势能够做到。

44、准确的识别在人机交互领域有着重要的意 义。 根据用户的使用习惯和操作自然便捷性, 可以给不同手势预先设定指令内容, 利用手势 动作对不同设备进行控制, 拓宽交互体验空间和范围。 0107 实施例2 0108 参照图8, 一种基于SSD-MobileNet的实时手势检测和识别方法, 包括以下步骤: 0109 S1: 获取原始egohands视频数据集, 原始egohands视频数据集包括多帧原始数据 集图像, 对多帧原始数据集图像进行扩充处理, 建立扩充数据集, 执行S2; 0110 S2: 建立SSD-MobileNet手部数据检测模型, SSD-MobileNet手部数据检测模型用 于提取手。

45、势图像, SSD-MobileNet手部数据检测模型包括SSD网络及Mobilenet网络, 对SSD- MobileNet手部数据检测模型进行训练并优化, 执行S3; 0111 S3: 使用SSD-MobileNet手部数据检测模型对自建的复杂背景下的数字手势数据 集中的图像进行手势图像提取, 获取手势识别数据集, 执行S4; 0112 S4: 建立改进的CNN的手势识别模型, 用Ghost模块层代替传统卷积层, 使用手势识 别数据集训练并优化改进的CNN的手势识别模型, 执行S5; 0113 S5: 获取待检测视频数据集, 使用SSD-MobileNet手部数据检测模型对待检测视频 说明书。

46、 8/13 页 11 CN 111709295 A 11 数据集中的图像进行手势图像提取, 使用改进的CNN的手势识别模型对手势图像进行手势 识别, 输出识别结果。 0114 下面依次对每个步骤进行详细说明。 0115 S1: 获取原始egohands视频数据集, 原始egohands视频数据集包括多帧原始数据 集图像, 对多帧原始数据集图像进行扩充处理, 建立扩充数据集, 执行S2。 0116 原始egohands视频数据集包括48段两人互动视频, 48段视频中的每个视频都有 100个带标签的帧, 均为JPEG文件(720 x1280px), 总计4,800个帧, 数据处理单元标记原始 eg。

47、ohands视频数据集中所有带标签的帧。 值得说明的是, 为了提高训练速度, 先将原始 egohands视频数据集中所有带标签的帧处理成300*300px, 标签大小按比例缩小。 0117 S1中对多帧原始数据集图像进行扩充处理具体包括, 0118 参照图2, 对多帧原始数据集图像进行随机翻转和/或平移和/或剪裁和/或亮度调 整和/或对比度调整和/或加噪声和/或高斯模糊, 扩充两次, 获得不同对比度的手势数据, 建立扩充数据集。 扩充数据集包含9564张图片, 得到扩充数据集后, 以9: 1的比例将扩充数 据集划分训练集和测试集。 其中训练集包括8608张图片, 测试集包括956张图片, 抽取。

48、训练 集中一部分验证集。 其中训练集用于训练模型, 验证集用于调节模型参数, 而测试集只用来 衡量模型的好坏, 有效降低了数据的偶然性。 0119 S2: 建立SSD-MobileNet手部数据检测模型, SSD-MobileNet手部数据检测模型用 于提取手势图像, SSD-MobileNet手部数据检测模型包括SSD网络及Mobilenet网络, 对SSD- MobileNet手部数据检测模型进行训练并优化, 执行S3。 0120 SSD-MobileNet手部数据检测模型, 包括SSD网络及Mobilenet网络。 其中, MobileNet网络模型的优势是使用深度可分离卷积将标准卷积核。

49、分解成深度卷积核和点卷 积核, 减少计算量。 0121 假设卷积核大小为DK*DK, 输入特征图的大小为DF*DF, 通道数为M, 输出特征图的大 小为DG*DG, 通道数为N, 则与标准卷积核的计算量的比值为: 0122 0123 Mobilenet网络引入宽度乘数 和分辨率乘数 后总的计算量为: 0124 DkDk M DF DF+ M N DF DF。 0125 宽度乘数 和分辨率乘数 也影响着SSD-MobileNet手部数据检测模型的准确度、 参数量以及参数的计算量。 0126 SSD网络的损失函数计算由定位损失和分类损失两个部分组成, 总的损失函数表 达式为: 0127 0128 。

50、其中, N为所有匹配到真实框的defaultbox数目, Lconf为置信损失, Lloc为定位损 失。 0129 参照图3, SSD-MobileNet手部数据检测模型的训练过程如下, 0130 S21: 修改label_map.pbtxt文件内容, 检测类别为1, name为hand; 说明书 9/13 页 12 CN 111709295 A 12 0131 S22: SSD-MobileNet手部数据检测模型配置文件选择ssd_mobilenet_v1_ coco.config文件, 修改检测类别数, 训练集和测试集的tfrecords地址以及config文件的 位置; 0132 S23。

展开阅读全文
内容关键字: 基于 SSD MobileNet 实时 手势 检测 识别 方法 系统
关于本文
本文标题:基于SSD-MobileNet的实时手势检测和识别方法及系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10342829.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1