基于时间偏移残差网络的唇语识别方法.pdf
《基于时间偏移残差网络的唇语识别方法.pdf》由会员分享,可在线阅读,更多相关《基于时间偏移残差网络的唇语识别方法.pdf(16页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010038845.5 (22)申请日 2020.01.14 (71)申请人 电子科技大学 地址 611731 四川省成都市高新区 (西区) 西源大道2006号 (72)发明人 吴晓华樊友平庞红令狐阳 (74)专利代理机构 成都正华专利代理事务所 (普通合伙) 51229 代理人 陈选中 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/62(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明。
2、名称 基于时间偏移残差网络的唇语识别方法 (57)摘要 本发明公开了一种基于时间偏移残差网络 的唇语识别方法, 首先提取图片序列中人物嘴唇 区域, 构建一个基于时间偏移模块的深度残差网 络模型, 自动地提取每个图片帧中嘴唇形状特 征; 然后使用LSTM将时间偏移模块的序列特征转 化为一个时间序列上的特征向量; 最后将特征向 量输入至一个含有注意力机制的语言序列生成 模型, 产生唇语识别结果。 本发明将视频图片中 的唇动序列转化为语言序列, 采用了特殊的残差 网络模块, 解决了唇语识别中计算复杂的问题, 具有准确度高和运行效率高的特点。 权利要求书3页 说明书8页 附图4页 CN 1112597。
3、85 A 2020.06.09 CN 111259785 A 1.基于时间偏移残差网络的唇语识别方法, 其特征在于, 包括训练数据预处理阶段、 神 经网络模型训练阶段和预测识别阶段; 所述训练数据预处理阶段包括以下步骤S1S3: S1、 选取包含嘴唇的原始图片并对其进行检测与裁剪, 得到嘴唇区域图片序列; S2、 对嘴唇区域图片序列进行数据增强; S3、 对数据增强后的图片序列进行归一化, 得到预处理后的训练数据; 所述神经网络模型训练阶段包括以下步骤S4S6: S4、 将预处理后的训练数据作为神经网络模型编码器的输入, 输出得到编码过后的特 征向量序列和编码器状态向量; S5、 将编码过后的。
4、特征向量序列和编码器状态向量作为神经网络模型解码器的输入, 当解码出结尾标志符时, 结束解码过程; S6、 基于反向传播算法, 采用导师驱动的方式最小化交叉熵损失训练整个神经网络模 型, 得到训练完成的神经网络模型; 所述预测识别阶段包括以下步骤S7S9: S7、 对待识别图片进行预处理, 并将预处理后的待识别图片序列作为训练完成的神经 网络模型编码器的输入, 输出编码过后的特征向量序列和编码器状态向量; S8、 将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型解码 器的输入, 当解码出结尾标志符时, 结束解码过程; S9、 拼接训练完成的神经网络模型解码器的所有输出, 得到。
5、唇语识别结果。 2.根据权利要求1所述的唇语识别方法, 其特征在于, 所述步骤S1包括以下分步骤: S11、 从训练数据集中选取部分包含嘴唇的原始图片, 标记嘴唇区域矩形框作为嘴唇检 测训练标签; S12、 基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练; S13、 使用训练完成的模型检测训练数据集中所有原始图片的嘴唇区域, 得到嘴唇区域 图片序列。 3.根据权利要求1所述的唇语识别方法, 其特征在于, 所述步骤S2具体为: 对嘴唇区域 图片序列进行随机平移、 旋转、 缩放、 水平翻转和随机改变明暗度, 得到数据增强后的图片 序列。 4.根据权利要求1所述的唇语识别方法, 其特征在于,。
6、 所述步骤S3具体为: 对数据增强 后的图片序列三个通道的像素值进行归一化, 将每一个像素值除以255, 映射到0到1的数值 范围, 得到预处理后的训练数据。 5.根据权利要求1所述的唇语识别方法, 其特征在于, 所述步骤S4中的神经网络模型编 码器包括基于TSM的2DResnet和BiLSTM; 所述步骤S4包括以下分步骤: S41、 在2DResnet的残差连接块中添加时间偏移模块TSM; S42、 通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特征, 输出特征向量序列; S43、 将2DResnet输出的特征向量序列输入到BiLSTM中提取长期图片的序列特征,。
7、 输出 得到编码过后的特征向量序列和编码器状态向量。 权利要求书 1/3 页 2 CN 111259785 A 2 6.根据权利要求1所述的唇语识别方法, 其特征在于, 所述步骤S5中的神经网络模型解 码器采用基于注意力的长短时记忆网络结构LSTM; 所述步骤S5包括以下分步骤: S51、 将编码器状态向量s作为神经网络模型解码器的初始输入状态s0, 并基于注意力计 算公式计算当前输入状态与编码过后的特征向量的相关度, 计算公式为: 其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度, eij表示未归一 化的第i个输入状态si与第j个编码过后的特征向量hj的相关度, eik。
8、表示未归一化的第i个 输入状态si与第k个编码过后的特征向量hk的相关度, T表示编码过后的特征向量序列长度, 且有: eijf(si-1,hj) 其中f()表示单层的全连接神经网络函数, si-1表示第i-1个输入状态, hj表示第j个编 码过后的特征向量; S52、 对所有编码过后的特征向量根据相关度进行加权平均, 得到加权平均特征向量, 计算公式为: 其中ci表示第i个加权平均特征向量; S53、 将加权平均特征向量ci与正确标签词的词向量拼接后得到第i个神经网络模型解 码器的输入xi, 并将其输入至神经网络模型解码器, 输出得到第i个词的预测类别yi和当前 第i个输入状态si; S54。
9、、 令计数值i加1, 重复步骤S53, 直到神经网络模型解码器输出标签类别为结尾标志 符时, 结束解码过程。 7.根据权利要求1所述的唇语识别方法, 其特征在于, 所述步骤S6包括以下分步骤: S61、 计算神经网络模型解码器所有位置交叉熵损失的平均值, 计算公式为: 其中loss表示神经网络模型解码器所有位置交叉熵损失的平均值, T0表示包含结尾标 记词的输出语句长度, yl表示第l个正确类别的one-hot向量, 表示所有类别的预测概率; S62、 基于反向传播算法, 计算神经网络模型所有参数的梯度; S63、 使用基于动量的随机梯度下降优化算法迭代更新神经网络模型的参数值来最小 化平均交。
10、叉熵损失, 直到算法收敛, 得到训练完成的神经网络模型。 8.根据权利要求1所述的唇语识别方法, 其特征在于, 所述步骤S7包括以下分步骤: S71、 选取部分待识别图片, 标记嘴唇区域矩形框作为嘴唇检测训练标签; S72、 基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练; S73、 使用训练完成的模型检测所有待识别图片的嘴唇区域, 得到嘴唇区域图片序列; S74、 对嘴唇区域图片序列三个通道的像素值进行归一化, 将每一个像素值除以255, 映 权利要求书 2/3 页 3 CN 111259785 A 3 射到0到1的数值范围, 得到预处理后的待识别图片序列; S75、 将预处理后的待。
11、识别图片序列作为训练完成的神经网络模型编码器的输入, 输出 编码过后的特征向量序列和编码器状态向量。 9.根据权利要求1所述的唇语识别方法, 其特征在于, 所述步骤S8包括以下分步骤: S81、 将编码器状态向量s作为神经网络模型解码器的初始输入状态s0, 并基于注意力计 算公式计算当前输入状态与编码过后的特征向量的相关度, 计算公式为: 其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度, eij表示未归一 化的第i个输入状态si与第j个编码过后的特征向量hj的相关度, eik表示未归一化的第i个 输入状态si与第k个编码过后的特征向量hk的相关度, T表示编码过后的特征。
12、向量序列长度, 且有: eijf(si-1,hj) 其中f()表示单层的全连接神经网络函数, si-1表示第i-1个输入状态, hj表示第j个编 码过后的特征向量; S82、 对所有编码过后的特征向量根据相关度进行加权平均, 得到加权平均特征向量, 计算公式为: 其中ci表示第i个加权平均特征向量; S83、 将加权平均特征向量ci与第i-1个词的预测类别yi-1拼接后得到第i个神经网络模 型解码器的输入xi, 并将其输入至神经网络模型解码器, 输出得到第i个词的预测类别yi和 当前第i个输入状态si; S84、 令计数值i加1, 重复步骤S83, 直到神经网络模型解码器输出标签类别为结尾标志。
13、 符时, 结束解码过程。 10.根据权利要求1所述的唇语识别方法, 其特征在于, 所述步骤S9包括以下分步骤: S91、 拼接训练完成的神经网络模型解码器的所有输出类别, 并去掉结尾标志符; S92、 将所有输出类别转化为对应的词或字, 得到唇语识别结果。 权利要求书 3/3 页 4 CN 111259785 A 4 基于时间偏移残差网络的唇语识别方法 技术领域 0001 本发明属于人工智能和深度学习技术领域, 具体涉及一种基于时间偏移残差网络 的唇语识别方法的设计。 背景技术 0002 随着深度学习和人工智能技术的发展, 以及高清视频监控的大规模应用, 在机器 视觉领域内出现了唇语识别技术。。
14、 唇语识别技术可应用于生物活体认证、 噪声环境下的语 音识别辅助以及安防领域的监控等场景中, 具有重要的社会现实意义与价值。 0003 因为嘴唇运动带来的信息也是说话内容一种重要表现形式, 所以观察人们说话时 嘴唇运动变化可以识别说话内容。 通过深度学习方法构建神经网络模型让机器学会阅读唇 语是一种新的技术。 目前使用的神经网络模型具有计算量复杂、 识别计算量大等问题。 而且 唇语识别技术需要大量的唇语视频数据, 但是目前标准的唇语数据一般取自于电视新闻节 目中的视频素材, 而且受嘴形、 唇色以及人们发音等影响, 即使人们说出相同的内容, 每个 人的唇动信息都不相同, 这导致了目前唇语识别在应。
15、用时出现了准确率不高的问题。 发明内容 0004 本发明的目的是为了解决现有的唇语识别技术的计算量大且准确率不高的问题, 提出了一种基于时间偏移残差网络的唇语识别方法, 能够高效而又准确地识别唇语。 0005 本发明的技术方案为: 基于时间偏移残差网络的唇语识别方法, 包括训练数据预 处理阶段、 神经网络模型训练阶段和预测识别阶段。 0006 训练数据预处理阶段包括以下步骤S1S3: 0007 S1、 选取包含嘴唇的原始图片并对其进行检测与裁剪, 得到嘴唇区域图片序列。 0008 S2、 对嘴唇区域图片序列进行数据增强。 0009 S3、 对数据增强后的图片序列进行归一化, 得到预处理后的训练。
16、数据。 0010 神经网络模型训练阶段包括以下步骤S4S6: 0011 S4、 将预处理后的训练数据作为神经网络模型编码器的输入, 输出得到编码过后 的特征向量序列和编码器状态向量。 0012 S5、 将编码过后的特征向量序列和编码器状态向量作为神经网络模型解码器的输 入, 当解码出结尾标志符时, 结束解码过程。 0013 S6、 基于反向传播算法, 采用导师驱动的方式最小化交叉熵损失训练整个神经网 络模型, 得到训练完成的神经网络模型。 0014 预测识别阶段包括以下步骤S7S9: 0015 S7、 对待识别图片进行预处理, 并将预处理后的待识别图片序列作为训练完成的 神经网络模型编码器的输。
17、入, 输出编码过后的特征向量序列和编码器状态向量。 0016 S8、 将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型 解码器的输入, 当解码出结尾标志符时, 结束解码过程。 说明书 1/8 页 5 CN 111259785 A 5 0017 S9、 拼接训练完成的神经网络模型解码器的所有输出, 得到唇语识别结果。 0018 进一步地, 步骤S1包括以下分步骤: 0019 S11、 从训练数据集中选取部分包含嘴唇的原始图片, 标记嘴唇区域矩形框作为嘴 唇检测训练标签。 0020 S12、 基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。 0021 S13、 使用训练完。
18、成的模型检测训练数据集中所有原始图片的嘴唇区域, 得到嘴唇 区域图片序列。 0022 进一步地, 步骤S2具体为: 对嘴唇区域图片序列进行随机平移、 旋转、 缩放、 水平翻 转和随机改变明暗度, 得到数据增强后的图片序列。 0023 进一步地, 步骤S3具体为: 对数据增强后的图片序列三个通道的像素值进行归一 化, 将每一个像素值除以255, 映射到0到1的数值范围, 得到预处理后的训练数据。 0024 进一步地, 步骤S4中的神经网络模型编码器包括基于TSM的2DResnet和BiLSTM。 0025 步骤S4包括以下分步骤: 0026 S41、 在2DResnet的残差连接块中添加时间偏移。
19、模块TSM。 0027 S42、 通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特 征, 输出特征向量序列。 0028 S43、 将2DResnet输出的特征向量序列输入到BiLSTM中提取长期图片的序列特征, 输出得到编码过后的特征向量序列和编码器状态向量。 0029 进一步地, 步骤S5中的神经网络模型解码器采用基于注意力的长短时记忆网络结 构LSTM。 0030 步骤S5包括以下分步骤: 0031 S51、 将编码器状态向量s作为神经网络模型解码器的初始输入状态s0, 并基于注 意力计算公式计算当前输入状态与编码过后的特征向量的相关度, 计算公式为: 0032。
20、 0033 其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度, eij表示未 归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度, eik表示未归一化的第 i个输入状态si与第k个编码过后的特征向量hk的相关度, T表示编码过后的特征向量序列长 度, 且有: 0034 eijf(si-1,hj) 0035 其中f()表示单层的全连接神经网络函数, si-1表示第i-1个输入状态, hj表示第 j个编码过后的特征向量。 0036 S52、 对所有编码过后的特征向量根据相关度进行加权平均, 得到加权平均特征向 量, 计算公式为: 0037 0038 其中ci表示。
21、第i个加权平均特征向量。 0039 S53、 将加权平均特征向量ci与正确标签词的词向量拼接后得到第i个神经网络模 型解码器的输入xi, 并将其输入至神经网络模型解码器, 输出得到第i个词的预测类别yi和 说明书 2/8 页 6 CN 111259785 A 6 当前第i个输入状态si。 0040 S54、 令计数值i加1, 重复步骤S53, 直到神经网络模型解码器输出标签类别为结尾 标志符时, 结束解码过程。 0041 进一步地, 步骤S6包括以下分步骤: 0042 S61、 计算神经网络模型解码器所有位置交叉熵损失的平均值, 计算公式为: 0043 0044 其中loss表示神经网络模型解。
22、码器所有位置交叉熵损失的平均值, T0表示包含结 尾标记词的输出语句长度, yl表示第l个正确类别的one-hot向量,表示所有类别的预测概 率。 0045 S62、 基于反向传播算法, 计算神经网络模型所有参数的梯度。 0046 S63、 使用基于动量的随机梯度下降优化算法迭代更新神经网络模型的参数值来 最小化平均交叉熵损失, 直到算法收敛, 得到训练完成的神经网络模型。 0047 进一步地, 步骤S7包括以下分步骤: 0048 S71、 选取部分待识别图片, 标记嘴唇区域矩形框作为嘴唇检测训练标签。 0049 S72、 基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。 0050 S。
23、73、 使用训练完成的模型检测所有待识别图片的嘴唇区域, 得到嘴唇区域图片序 列。 0051 S74、 对嘴唇区域图片序列三个通道的像素值进行归一化, 将每一个像素值除以 255, 映射到0到1的数值范围, 得到预处理后的待识别图片序列。 0052 S75、 将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入, 输出编码过后的特征向量序列和编码器状态向量。 0053 进一步地, 步骤S8包括以下分步骤: 0054 S81、 将编码器状态向量s作为神经网络模型解码器的初始输入状态s0, 并基于注 意力计算公式计算当前输入状态与编码过后的特征向量的相关度, 计算公式为: 0055 0。
24、056 其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度, eij表示未 归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度, eik表示未归一化的第 i个输入状态si与第k个编码过后的特征向量hk的相关度, T表示编码过后的特征向量序列长 度, 且有: 0057 eijf(si-1,hj) 0058 其中f()表示单层的全连接神经网络函数, si-1表示第i-1个输入状态, hj表示第 j个编码过后的特征向量。 0059 S82、 对所有编码过后的特征向量根据相关度进行加权平均, 得到加权平均特征向 量, 计算公式为: 0060 说明书 3/8 页 7 C。
25、N 111259785 A 7 0061 其中ci表示第i个加权平均特征向量。 0062 S83、 将加权平均特征向量ci与第i-1个词的预测类别yi-1拼接后得到第i个神经网 络模型解码器的输入xi, 并将其输入至神经网络模型解码器, 输出得到第i个词的预测类别 yi和当前第i个输入状态si。 0063 S84、 令计数值i加1, 重复步骤S83, 直到神经网络模型解码器输出标签类别为结尾 标志符时, 结束解码过程。 0064 进一步地, 步骤S9包括以下分步骤: 0065 S91、 拼接训练完成的神经网络模型解码器的所有输出类别, 并去掉结尾标志符。 0066 S92、 将所有输出类别转化。
26、为对应的词或字, 得到唇语识别结果。 0067 本发明的有益效果是: 本发明提供了一种基于时间偏移残差网络的唇语识别方 法, 基于2D残差网络, 可以准确提取序列图片的空间特征, 时间偏移模块TSM通过交换相邻 帧的部分通道特征图达到3D卷积提取短期图片的序列特征的能力, 既能保证2D残差网络的 高效性, 又能达到3D残差网络的准确性; 加上BiLSTM的结构能有效捕捉长期图片序列特征, 最终实现高效并且准确的唇语序列特征提取; 此外, 本发明通过基于注意力的LSTM解码器, 能够有效且准确地解码出唇语序列图片中的文字信息。 附图说明 0068 图1所示为本发明实施例提供的基于时间偏移残差网络。
27、的唇语识别方法流程图。 0069 图2所示为本发明实施例提供的整体的方案示意图。 0070 图3所示为本发明实施例提供的基于TSM的残差单元结构图。 0071 图4所示为本发明实施例提供的基于TSM的18层的残差网络结构图。 0072 图5所示为本发明实施例提供的基于注意力的LSTM解码器解码过程示意图。 具体实施方式 0073 现在将参考附图来详细描述本发明的示例性实施方式。 应当理解, 附图中示出和 描述的实施方式仅仅是示例性的, 意在阐释本发明的原理和精神, 而并非限制本发明的范 围。 0074 本发明实施例提供了一种基于时间偏移残差网络的唇语识别方法, 如图1所示, 包 括训练数据预处。
28、理阶段、 神经网络模型训练阶段和预测识别阶段。 本发明实施例中, 仿真实 验使用的唇语图片序列共9994个样本, 其中前8994条为训练样本, 后1000条为测试样本。 唇 语图片序列最长为24帧, 平均长度7至8帧, 每张为半脸包含嘴唇的图片。 输出唇语文字字典 大小431, 输出文字长度最长为4, 平均长度3至4, 本发明实施例的整体方案如图2所示。 0075 其中, 训练数据预处理阶段包括以下步骤S1S3: 0076 S1、 选取包含嘴唇的73567张原始图片并对其进行检测与裁剪, 得到嘴唇区域图片 序列。 0077 S2、 对嘴唇区域图片序列进行数据增强。 0078 S3、 对数据增强。
29、后的图片序列进行归一化, 得到预处理后的训练数据。 0079 步骤S1包括以下分步骤S11S13: 0080 S11、 从9994条训练数据集中随机选取1000条图片样本序列, 再从每一条图片样本 说明书 4/8 页 8 CN 111259785 A 8 序列中随机采样一张包含嘴唇的原始图片, 使用Dlib库中的Imglab对这1000张图片标记嘴 唇区域矩形框, 并作为嘴唇检测训练标签。 0081 S12、 基于HOG特征与SVM算法模型进行嘴唇区域检测模型训练。 0082 本发明实施例中, 将700张图片作为嘴唇区域检测模型的训练集, 剩下300张作为 嘴唇区域检测模型的测试集, 训练准确。
30、率0.99, 召回率0.96, 测试准确率0.98, 召回率0.97。 0083 S13、 使用训练完成的模型检测训练数据集中73567张原始图片的嘴唇区域, 得到 嘴唇区域图片序列, 单进程执行耗时35分钟。 0084 步骤S2具体为: 使用神经网络框架keras的图像预处理类ImageDataGenerator对 嘴唇区域图片序列进行实时增强, 对嘴唇区域图片序列进行随机平移0至15、 旋转0至20 度、 缩放0至0.2、 50概率水平翻转和随机改变明暗度0.2至1.0。 0085 步骤S3具体为: 对数据增强后的图片序列三个通道的像素值进行归一化, 将每一 个像素值除以255, 映射到0。
31、到1的数值范围, 得到预处理后的训练数据。 0086 神经网络模型训练阶段包括以下步骤S4S6: 0087 S4、 将预处理后的训练数据作为神经网络模型编码器的输入, 输出得到编码过后 的特征向量序列和编码器状态向量。 0088 S5、 将编码过后的特征向量序列和编码器状态向量作为神经网络模型解码器的输 入, 当解码出结尾标志符时, 结束解码过程。 0089 S6、 基于反向传播算法, 采用导师驱动的方式最小化交叉熵损失训练整个神经网 络模型, 得到训练完成的神经网络模型。 0090 本发明实施例中, 神经网络模型编码器包括基于时间偏移模块TSM(temporal- shift-module)。
32、的2DResnet和BiLSTM, 神经网络模型解码器采用基于注意力的长短时记忆 网络结构LSTM。 0091 步骤S4包括以下分步骤S41S43: 0092 S41、 在2DResnet的残差连接块中添加时间偏移模块TSM。 本发明实施例中, TSM通 过交换相邻帧的部分通道特征图达到3D卷积提取短期图片的序列特征的功能, 既能保证编 码器具有2D卷积神经网络的高效性, 又能达到3D卷积神经网络的准确度。 0093 S42、 通过基于TSM的2DResnet同时提取输入图片的空间特征和短期图片的序列特 征, 输出特征向量序列。 0094 S43、 将2DResnet输出的特征向量序列输入到B。
33、iLSTM中提取长期图片的序列特征, 输出得到编码过后的特征向量序列和编码器状态向量。 0095 本发明实施例中, 为了加快神经网络模型的训练时间, 将预处理后的图片序列统 一为6464大小的3通道彩色图片, 并将所有图片序列补0至24帧固定长度作为神经网络模 型编码器的输入。 如图3所示, 本发明实施例首先在残差单元中添加TSM来改进2D残差网络 单元结构, 其中TSM将特征图中1/4的通道与前后帧特征图的通道交换。 如图4所示, 神经网 络模型编码器中卷积部分采用基于TSM的18层2DResnet, 输出的特征向量维度为24512; 循环部分采用隐藏层单元个数为256、 层数为2的双向LS。
34、TM。 神经网络模型编码器最终输出 特征向量序列维度为24256, 状态s维度为2256。 0096 如图5所示, 步骤S5包括以下分步骤S51S54: 0097 S51、 将编码器状态向量s作为神经网络模型解码器的初始输入状态s0, 并基于注 说明书 5/8 页 9 CN 111259785 A 9 意力计算公式计算当前输入状态与编码过后的特征向量的相关度, 计算公式为: 0098 0099 其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度, eij表示未 归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度, eik表示未归一化的第 i个输入状态si与第k。
35、个编码过后的特征向量hk的相关度, T表示编码过后的特征向量序列长 度, 且有: 0100 eijf(si-1,hj) 0101 其中f()表示单层的全连接神经网络函数, si-1表示第i-1个输入状态, hj表示第 j个编码过后的特征向量。 0102 本发明实施例中, 编码器状态向量s的维度为2256, 相关度aij的维度为1T, T 24, 编码过后的特征向量hj的维度为1256。 0103 S52、 对所有编码过后的特征向量根据相关度进行加权平均, 得到加权平均特征向 量, 计算公式为: 0104 0105 其中ci表示第i个加权平均特征向量。 本发明实施例中, 加权平均特征向量ci的维。
36、 度为1256。 0106 S53、 将加权平均特征向量ci与正确标签词的词向量拼接后得到第i个神经网络模 型解码器的输入xi, 并将其输入至神经网络模型解码器, 输出得到第i个词的预测类别yi和 当前第i个输入状态si。 0107 S54、 令计数值i加1, 重复步骤S53, 直到神经网络模型解码器输出标签类别为结尾 标志符时, 结束解码过程。 0108 进一步地, 步骤S6包括以下分步骤S61S63: 0109 S61、 计算神经网络模型解码器所有位置交叉熵损失的平均值, 计算公式为: 0110 0111 其中loss表示神经网络模型解码器所有位置交叉熵损失的平均值, T0表示包含结 尾标。
37、记词的输出语句长度, yl表示第l个正确类别的one-hot向量, 维度为1431, 表示所 有类别的预测概率, 维度为1431。 0112 S62、 基于反向传播算法, 计算神经网络模型所有参数的梯度。 0113 S63、 使用动量为0.9、 学习率为0.01的随机梯度下降优化算法迭代更新神经网络 模型的参数值来最小化平均交叉熵损失, 当验证损失不下降的时候, 学习率减小10倍。 本发 明实施例中, batch_size32的情况下, 在150轮收敛, 训练精度0.99, 测试精度0.74。 0114 预测识别阶段包括以下步骤S7S9: 0115 S7、 对待识别图片进行预处理, 并将预处理。
38、后的待识别图片序列作为训练完成的 神经网络模型编码器的输入, 输出编码过后的特征向量序列和编码器状态向量。 0116 S8、 将编码过后的特征向量序列和编码器状态向量作为训练完成的神经网络模型 说明书 6/8 页 10 CN 111259785 A 10 解码器的输入, 当解码出结尾标志符时, 结束解码过程。 0117 S9、 拼接训练完成的神经网络模型解码器的所有输出, 得到唇语识别结果。 0118 步骤S7包括以下分步骤S71S75: 0119 S71、 选取部分待识别图片, 标记嘴唇区域矩形框作为嘴唇检测训练标签。 0120 S72、 基于HOG特征与SVM算法模型进行嘴唇区域检测模型训。
39、练。 0121 S73、 使用训练完成的模型检测所有待识别图片的嘴唇区域, 得到嘴唇区域图片序 列。 0122 S74、 对嘴唇区域图片序列三个通道的像素值进行归一化, 将每一个像素值除以 255, 映射到0到1的数值范围, 得到预处理后的待识别图片序列。 0123 S75、 将预处理后的待识别图片序列作为训练完成的神经网络模型编码器的输入, 输出编码过后的特征向量序列(维度为1256)和编码器状态向量(维度为2256)。 0124 本发明实施例中, 对待识别图片进行预处理时只需要对其进行裁剪与归一化处 理, 不需要对其进行数据增强。 0125 步骤S8包括以下分步骤S81S84: 0126 。
40、S81、 将编码器状态向量s作为神经网络模型解码器的初始输入状态s0, 并基于注 意力计算公式计算当前输入状态与编码过后的特征向量的相关度, 计算公式为: 0127 0128 其中aij表示第i个输入状态si与第j个编码过后的特征向量hj的相关度, eij表示未 归一化的第i个输入状态si与第j个编码过后的特征向量hj的相关度, eik表示未归一化的第 i个输入状态si与第k个编码过后的特征向量hk的相关度, T表示编码过后的特征向量序列长 度, 且有: 0129 eijf(si-1,hj) 0130 其中f()表示单层的全连接神经网络函数, si-1表示第i-1个输入状态, hj表示第 j个。
41、编码过后的特征向量。 0131 S82、 对所有编码过后的特征向量根据相关度进行加权平均, 得到加权平均特征向 量, 计算公式为: 0132 0133 其中ci表示第i个加权平均特征向量。 0134 S83、 将加权平均特征向量ci与第i-1个词的预测类别yi-1拼接后得到第i个神经网 络模型解码器的输入xi, 并将其输入至神经网络模型解码器, 输出得到第i个词的预测类别 yi和当前第i个输入状态si。 0135 S84、 令计数值i加1, 重复步骤S83, 直到神经网络模型解码器输出标签类别为结尾 标志符时, 结束解码过程。 0136 本发明实施例中, 步骤S8与步骤S5的具体步骤基本相同,。
42、 唯一区别是步骤S5中 LSTM解码器的输入词是正确的标签词, 而步骤S8中是上一个LSTM解码器的预测结果词。 0137 步骤S9包括以下分步骤S91S92: 0138 S91、 拼接训练完成的神经网络模型解码器的所有输出类别, 并去掉结尾标志符。 说明书 7/8 页 11 CN 111259785 A 11 0139 S92、 将所有输出类别转化为对应的词或字, 得到唇语识别结果。 0140 下面以两个具体实验例对本发明提供的基于时间偏移残差网络的唇语识别方法 的估计正确率和运行速度做进一步描述。 0141 (1)估计正确率。 0142 本具体实验例中, 当预测的所有字正确的时候预测结果才。
43、算正确, 数据集的语句 在封闭集合中, 一共有313个语句类别。 编码器采用18层3DResnet和BiLSTM的时候训练150 轮收敛, 测试准确率0.73。 18层基于TSM的2DResnet和BiLSTM的时候训练150轮收敛, 测试准 确率0.74。 可见本发明在2DResnet情况下能达到和3DResnet一样的性能, 对比结果如表1所 示: 0143 表1测试结果表 0144 编码器网络结构训练轮数测试精度 TSM+2DResnet+BiLSTM1500.74 3DResnet+BiLSTM1500.73 0145 (2)运行速度。 0146 将本发明方法与基于3DResnet+B。
44、iLSTM为编码器的方法的运行速度的进行比较。 本发明方法的程序均是由Python框架keras编写, 测试机器为Intel(R)i7处理器, 主频为 2.4GHz, 内存为32GB, GPU为GTX1080ti, 显存12G, 对比结果如表2所示: 0147 表2训练和预测时间(单位: 秒) 0148 方法平均训练时间/轮平均预测时间/轮 TSM+2DResnet+BiLSTM434 3DResnet+BiLSTM627 0149 可以看到, 相比于3DResnet+BiLSTM, 本发明方法训练时间较明显缩短, 且预测时 间也有明显优势, 平均每个样本预测时间为0.004秒, 满足实时性的。
45、要求。 0150 本领域的普通技术人员将会意识到, 这里所述的实施例是为了帮助读者理解本发 明的原理, 应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。 本领域的 普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各 种具体变形和组合, 这些变形和组合仍然在本发明的保护范围内。 说明书 8/8 页 12 CN 111259785 A 12 图1 说明书附图 1/4 页 13 CN 111259785 A 13 图2 说明书附图 2/4 页 14 CN 111259785 A 14 图3 图4 说明书附图 3/4 页 15 CN 111259785 A 15 图5 说明书附图 4/4 页 16 CN 111259785 A 16 。
- 内容关键字: 基于 时间 偏移 网络 识别 方法
农用无人机喷施效率现场检测装置.pdf
双线全自动冷轧管机生产线.pdf
汽车双色透光按钮.pdf
便于残渣分离的活性氧化锌制备装置.pdf
五金件CNC加工车床.pdf
拖拉机翻转连接架.pdf
物流箱投送物流架.pdf
对虾无节幼体流水养殖装置.pdf
烧结网管状过滤元件对接拼焊结构.pdf
车辆顶舱盖机构及车辆.pdf
节能型有机废气高效吸附脱附装置.pdf
新型储能电源.pdf
方便运输的可折叠储物罐.pdf
镜头易拆卸安装的玩具显微镜.pdf
预拌砂浆筛砂机.pdf
用于农药残留检测的样品破碎装置.pdf
方便维修的地坪研磨机齿轮箱.pdf
协作机器人侧装升降机构.pdf
TBM隧道施工注浆装置.pdf
便携式毫米波接力机.pdf
中频炉金属硅粉快速下料装置.pdf
即时传输及显示方法、装置、设备及存储介质.pdf
佩戴牢固的蓝牙耳机.pdf
基于3D激光雷达的移动机器人位姿跟踪方法及装置.pdf
基于模型协作的数据加权学习方法.pdf
蓝牙耳机信号传输测试装置.pdf
异常报价监控方法、系统、计算机及存储介质.pdf
混凝土布料任务动态控制方法及系统.pdf
转载溜槽及包括其的带式输送机系统.pdf
基于大数据的计算手术后目标血红蛋白的方法及系统.pdf
中频炉换炉开关.pdf
患者数据可视化管理系统及方法.pdf
挂壁式光分路器箱及其使用方法.pdf
一种氧化铝载体的制备方法.pdf
带有门的反向器.pdf
一种液体抛光单晶硅片的方法.pdf
信息处理装置、印刷系统及印刷方法.pdf
电力电子可编程逻辑控制装置的PID控制系统.pdf
通信方法和通信系统.pdf
有机化合物和纳米铜粒子的复合物、有机化合物和纳米氧化铜(I)粒子的复合物以及它们的制造方法.pdf
三辊全浮芯棒连轧管机及其轧制工艺.pdf
发光二极管恒流驱动器.pdf
一种可精确定位基板的工件台.pdf
一种利用空气循环回收内燃机废气余热能的系统.pdf
一种1,1二氟乙烷的制备方法.pdf
水力发电装置.pdf
一种齿轮转盘.pdf
感应加热线圈、加工构件的制造装置及制造方法.pdf
一种径流式空分纯化器.pdf
一种节能灯生产用机械手臂.pdf
磁热材料结构.pdf