基于CNN的语音深度哈希学习方法及系统.pdf

上传人:bo****18 文档编号:10211346 上传时间:2021-06-11 格式:PDF 页数:16 大小:790.66KB
收藏 版权申诉 举报 下载
基于CNN的语音深度哈希学习方法及系统.pdf_第1页
第1页 / 共16页
基于CNN的语音深度哈希学习方法及系统.pdf_第2页
第2页 / 共16页
基于CNN的语音深度哈希学习方法及系统.pdf_第3页
第3页 / 共16页
文档描述:

《基于CNN的语音深度哈希学习方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于CNN的语音深度哈希学习方法及系统.pdf(16页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010895014.X (22)申请日 2020.08.31 (71)申请人 兰州理工大学 地址 730050 甘肃省兰州市七里河区兰工 坪路287号 (72)发明人 张秋余赵雪娇胡颖杰张其文 白建赵振宇 (74)专利代理机构 北京高沃律师事务所 11569 代理人 杨媛媛 (51)Int.Cl. G06F 16/683(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于CNN的语音深度哈希学习方法及系 。

2、统 (57)摘要 本发明涉及一种基于CNN的语音深度哈希学 习方法及系统。 该方法包括: 对原始语音文件进 行预处理, 得到预处理后的原始语音文件; 提取 所述预处理后的原始语音文件的语谱图特征; 将 所述语谱图特征输入至改进后的卷积神经网络 模型进行训练和深度哈希特征学习, 得到原始语 音文件的深度语义特征; 利用学习到的哈希函数 对所述的深度语义特征进行深度哈希序列构造, 得到代表所述原始语音文件的深度哈希二值码; 根据所述深度哈希二值码进行语音检索。 本发明 能够解决现有基于内容的语音检索系统在特征 提取过程中手工特征存在的局限性、 特征表义性 差等问题, 可进一步提高检索精度和检索效率。

3、。 权利要求书2页 说明书11页 附图2页 CN 112035700 A 2020.12.04 CN 112035700 A 1.一种基于CNN的语音深度哈希学习方法, 其特征在于, 包括: 对原始语音文件进行预处理, 得到预处理后的原始语音文件; 提取所述预处理后的原始语音文件的语谱图特征; 将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征学习, 得到原始语音文件的深度语义特征; 利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造, 得到代表所述 原始语音文件的深度哈希二值码; 根据所述深度哈希二值码进行语音检索。 2.根据权利要求1所述的基于CNN的语音深度哈。

4、希学习方法, 其特征在于, 所述对原始 语音文件进行预处理, 得到预处理后的原始语音文件, 具体包括: 对原始语音文件进行重采样格式转换、 幅值归一化、 分帧和加窗处理操作, 得到预处理 后的原始语音文件。 3.根据权利要求1所述的基于CNN的语音深度哈希学习方法, 其特征在于, 所述提取所 述预处理后的原始语音文件的语谱图特征, 具体包括: 将所述预处理后的原始语音文件进行快速傅里叶变换, 得到频域信息; 将所述频域信息按时间序列进行拼接, 生成语谱图特征。 4.根据权利要求1所述的基于CNN的语音深度哈希学习方法, 其特征在于, 所述改进后 的卷积神经网络模型包括4个卷积层、 4个池化层、。

5、 2个批量归一化层和3个全连接层, 第一卷 积层包含32个卷积滤波器, 核大小为33, 数据输入为3通道的224224大小的语谱图; 所 述第一卷积层后设置第一个池化层, 所述第一池化层滤波器大小为22, 采用默认步长1; 所述第一池化层后设置第二卷积层, 所述第二卷积层包含64个卷积滤波器, 核大小为33; 所述第二卷积层后设置第二池化层, 所述第二池化层滤波器大小为22; 所述第二池化层 后加入第一批量归一化层; 所述第一批量归一化层后设置第三卷积层, 所述第三卷积层包 含128个卷积滤波器, 核大小为33, 所述第三卷积层后面设置第三池化层, 所述第三池化 层与所述第二池化层相同; 所述。

6、第三池化层后设置第四卷积层, 所述第四卷积层后设置第 四池化层, 所述第四卷积层与所述第三卷积层相同, 所述第四池化层和所述第三池化层相 同, 所述第四个池化层后加入第二批量归一化层; 所述第二批量归一化层后连接一个FC全 连接层, 所述FC全连接层用于将提取的特征扁平; 所述FC层之后连接哈希层, 所述哈希层的 节点数为目标哈希码的长度, 所述哈希层用于得到语音数据的深度哈希二值码; 在所述哈 希层之后, 设置一个节点数为语音样本类别数的输出层。 5.一种基于CNN的语音深度哈希学习系统, 其特征在于, 包括: 原始语音文件预处理模块, 用于对所述原始语音文件进行预处理, 得到预处理后的原 。

7、始语音文件; 语谱图特征提取模块, 用于提取所述预处理后的原始语音文件的语谱图特征; 深度语义特征提取模块, 用于将所述语谱图特征输入至改进后的卷积神经网络模型进 行训练和深度哈希特征学习, 得到原始语音文件的深度语义特征; 深度哈希序列构造模块, 用于利用学习到的哈希函数对所述的深度语义特征进行深度 哈希序列构造, 得到代表所述原始语音文件的深度哈希二值码; 语音检索模块, 用于根据所述深度哈希二值码进行语音检索。 权利要求书 1/2 页 2 CN 112035700 A 2 6.根据权利要求5所述的基于CNN的语音深度哈希学习系统, 其特征在于, 所述原始语 音文件预处理模块, 具体包括:。

8、 原始语音文件预处理单元, 用于对所述原始语音文件进行重采样格式转换、 幅值归一 化、 分帧和加窗处理操作, 得到预处理后的原始语音文件。 7.根据权利要求5所述的基于CNN的语音深度哈希学习系统, 其特征在于, 所述语谱图 特征提取模块, 具体包括: 变换单元, 用于将所述预处理后的原始语音文件进行快速傅里叶变换, 得到频域信息; 拼接单元, 用于将所述频域信息按时间序列进行拼接, 生成语谱图特征。 8.根据权利要求5所述的基于CNN的语音深度哈希学习系统, 其特征在于, 所述改进后 的卷积神经网络模型包括4个卷积层、 4个池化层、 2个批量归一化层和3个全连接层, 第一卷 积层包含32个卷。

9、积滤波器, 核大小为33, 数据输入为3通道的224224大小的语谱图; 所 述第一卷积层后设置第一个池化层, 所述第一池化层滤波器大小为22, 采用默认步长1; 所述第一池化层后设置第二卷积层, 所述第二卷积层包含64个卷积滤波器, 核大小为33; 所述第二卷积层后设置第二池化层, 所述第二池化层滤波器大小为22; 所述第二池化层 后加入第一批量归一化层; 所述第一批量归一化层后设置第三卷积层, 所述第三卷积层包 含128个卷积滤波器, 核大小为33, 所述第三卷积层后面设置第三池化层, 所述第三池化 层与所述第二池化层相同; 所述第三池化层后设置第四卷积层, 所述第四卷积层后设置第 四池化。

10、层, 所述第四卷积层与所述第三卷积层相同, 所述第四池化层和所述第三池化层相 同, 所述第四个池化层后加入第二批量归一化层; 所述第二批量归一化层后连接一个FC全 连接层, 所述FC全连接层用于将提取的特征扁平; 所述FC层之后连接哈希层, 所述哈希层的 节点数为目标哈希码的长度, 所述哈希层用于得到语音数据的深度哈希二值码; 在所述哈 希层之后, 设置一个节点数为语音样本类别数的输出层。 权利要求书 2/2 页 3 CN 112035700 A 3 一种基于CNN的语音深度哈希学习方法及系统 技术领域 0001 本发明涉及基于深度学习的语音检索技术领域, 特别是涉及一种基于CNN的语音 深度。

11、哈希学习方法及系统。 背景技术 0002 随着互联网数字音频数量的爆炸式增长, 使得在语音/音频大数据中进行高速检 索成为亟待解决的难题。 因此, 如何快速地从海量数据中检索到所需的内容, 一直是语音检 索研究领域的热点问题。 其中, 语音因其特殊的表义功能而被广泛关注, 在会议录音、 法庭 证据等应用中都体现出语义内容的重要性与敏感性。 因此, 语音特征提取的好坏、 特征表达 的性能将直接影响到后续的检索效果。 0003 目前, 现有基于内容的语音检索方法多数是通过提取手工特征来构造语音感知哈 希序列, 然而手工特征不仅计算量大还具有主观性, 并且无法准确描述出语音中所蕴含的 丰富语义信息及。

12、内容感知信息, 导致语音检索系统检索精度及效率较低。 发明内容 0004 本发明的目的是提供一种基于CNN的语音深度哈希学习方法及系统, 能够充分表 达语音数据的高级语义信息, 并解决传统基于感知哈希的语音检索系统在特征提取过程中 存在的手工特征缺陷及查询精度和效率低等问题。 0005 为实现上述目的, 本发明提供了如下方案: 0006 一种基于CNN的语音深度哈希学习方法, 包括: 0007 对原始语音文件进行预处理, 得到预处理后的原始语音文件; 0008 提取所述预处理后的原始语音文件的语谱图特征; 0009 将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度哈希特征 学习, 。

13、得到原始语音文件的深度语义特征; 0010 利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造, 得到代表 所述原始语音文件的深度哈希二值码; 0011 根据所述深度哈希二值码进行语音检索。 0012 可选地, 所述对原始语音文件进行预处理, 得到预处理后的原始语音文件, 具体包 括: 0013 对原始语音文件进行重采样格式转换、 幅值归一化、 分帧和加窗处理操作, 得到预 处理后的原始语音文件。 0014 可选地, 所述提取所述预处理后的原始语音文件的语谱图特征, 具体包括: 0015 将所述预处理后的原始语音文件进行快速傅里叶变换, 得到频域信息; 0016 将所述频域信息按时间。

14、序列进行拼接, 生成语谱图特征。 0017 可选地, 所述改进后的卷积神经网络模型包括4个卷积层、 4个池化层、 2个批量归 一化层和3个全连接层, 第一卷积层包含32个卷积滤波器, 核大小为33, 数据输入为3通道 说明书 1/11 页 4 CN 112035700 A 4 的224224大小的语谱图; 所述第一卷积层后设置第一个池化层, 所述第一池化层滤波器 大小为22, 采用默认步长1; 所述第一池化层后设置第二卷积层, 所述第二卷积层包含64 个卷积滤波器, 核大小为33; 所述第二卷积层后设置第二池化层, 所述第二池化层滤波器 大小为22; 所述第二池化层后加入第一批量归一化层; 所。

15、述第一批量归一化层后设置第 三卷积层, 所述第三卷积层包含128个卷积滤波器, 核大小为33, 所述第三卷积层后面设 置第三池化层, 所述第三池化层与所述第二池化层相同; 所述第三池化层后设置第四卷积 层, 所述第四卷积层后设置第四池化层, 所述第四卷积层与所述第三卷积层相同, 所述第四 池化层和所述第三池化层相同, 所述第四个池化层后加入第二批量归一化层; 所述第二批 量归一化层后连接一个FC全连接层, 所述FC全连接层用于将提取的特征扁平; 所述FC层之 后连接哈希层, 所述哈希层的节点数为目标哈希码的长度, 所述哈希层用于得到语音数据 的深度哈希二值码; 在所述哈希层之后, 设置一个节点。

16、数为语音样本类别数的输出层。 0018 一种基于CNN的语音深度哈希学习系统, 包括: 0019 原始语音文件预处理模块, 用于对原始语音文件进行预处理, 得到预处理后的原 始语音文件; 0020 语谱图特征提取模块, 用于提取所述预处理后的原始语音文件的语谱图特征; 0021 深度语义特征提取模块, 用于将所述语谱图特征输入至改进后的卷积神经网络模 型进行训练和深度哈希特征学习, 得到原始语音文件的深度语义特征; 0022 深度哈希序列构造模块, 用于利用学习到的哈希函数对所述的深度语义特征进行 深度哈希序列构造, 得到代表所述原始语音文件的深度哈希二值码; 0023 语音检索模块, 用于根。

17、据所述深度哈希二值码进行语音检索。 0024 可选地, 所述原始语音文件预处理模块, 具体包括: 0025 原始语音文件预处理单元, 用于对所述原始语音文件进行重采样格式转换、 幅值 归一化、 分帧和加窗处理操作, 得到预处理后的原始语音文件。 0026 可选地, 所述语谱图特征提取模块, 具体包括: 0027 变换单元, 用于将所述预处理后的原始语音文件进行快速傅里叶变换, 得到频域 信息; 0028 拼接单元, 用于将所述频域信息按时间序列进行拼接, 生成语谱图特征。 0029 可选地, 所述改进后的卷积神经网络模型包括4个卷积层、 4个池化层、 2个批量归 一化层和3个全连接层, 第一卷。

18、积层包含32个卷积滤波器, 核大小为33, 数据输入为3通道 的224224大小的语谱图; 所述第一卷积层后设置第一个池化层, 所述第一池化层滤波器 大小为22, 采用默认步长1; 所述第一池化层后设置第二卷积层, 所述第二卷积层包含64 个卷积滤波器, 核大小为33; 所述第二卷积层后设置第二池化层, 所述第二池化层滤波器 大小为22; 所述第二池化层后加入第一批量归一化层; 所述第一批量归一化层后设置第 三卷积层, 所述第三卷积层包含128个卷积滤波器, 核大小为33, 所述第三卷积层后面设 置第三池化层, 所述第三池化层与所述第二池化层相同; 所述第三池化层后设置第四卷积 层, 所述第四。

19、卷积层后设置第四池化层, 所述第四卷积层与所述第三卷积层相同, 所述第四 池化层和所述第三池化层相同, 所述第四个池化层后加入第二批量归一化层; 所述第二批 量归一化层后连接一个FC全连接层, 所述FC全连接层用于将提取的特征扁平; 所述FC层之 后连接哈希层, 所述哈希层的节点数为目标哈希码的长度, 所述哈希层用于得到语音数据 说明书 2/11 页 5 CN 112035700 A 5 的深度哈希二值码; 在所述哈希层之后, 设置一个节点数为语音样本类别数的输出层。 0030 根据本发明提供的具体实施例, 本发明公开了以下技术效果: 0031 本发明在构造深度哈希过程中, 基于卷积神经网络结。

20、构设计了一种适用于语音数 据哈希编码的深度神经网络模型。 该模型采用二次特征提取方法以语音数据的语谱图特征 作为网络输入, 来同时进行高级语义特征提取和哈希函数学习, 以便得到富含语义信息的 高质量深度哈希二值码; 同时, 为了加快网络模型的收敛速度, 降低模型的过拟合风险, 在 模型训练中加入批量归一化算法, 使训练的模型有更好的鲁棒性。 通过引入深度哈希方法 可有助于得到区分性、 鲁棒性更强的深度哈希二值码, 可进一步提高语音检索系统的查询 精度及效率, 有效的解决传统基于感知哈希的语音检索系统在特征提取过程中存在的手工 特征缺陷及查询精度和效率低等问题。 附图说明 0032 为了更清楚地。

21、说明本发明实施例或现有技术中的技术方案, 下面将对实施例中所 需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施 例, 对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图 获得其他的附图。 0033 图1为本发明基于CNN的语音深度哈希学习方法流程图; 0034 图2为基于改进后的卷积神经网络模型的深度哈希构造原理图; 0035 图3为本发明不同节点下CNN网络模型的测试准确率曲线图; 0036 图4为本发明BER正态概率分布图; 0037 图5为本发明BER频数统计直方图。 具体实施方式 0038 下面将结合本发明实施例中的附图,。

22、 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0039 本发明的目的是提供一种基于CNN的语音深度哈希学习方法及系统, 能够解决传 统基于感知哈希的语音检索系统在特征提取过程中存在的手工特征缺陷及查询精度和效 率低等问题。 0040 为使本发明的上述目的、 特征和优点能够更加明显易懂, 下面结合附图和具体实 施方式对本发明作进一步详细的说明。 0041 现在 “深度学习” 及 “深度哈希” 。

23、技术的兴起可以解决这一问题。 卷积神经网络 (CNN)因其强大的特征自学习能力和表示能力而被广泛关注, 它可以挖掘多媒体数据深层 次的语义特征表示, 近年来基于CNN结构的深度哈希方法在图像检索/分类、 说话人识别等 领域被广泛应用, 将CNN作为特征提取器对语音数据进行深层特征提取可更加适合描述语 义信息, 再结合深度哈希方法将特征映射成哈希编码, 使得整个系统结构有着精度高和速 度快的优势。 0042 因此, 本发明为了解决传统特征提取方法的手工特征只能表示出低级的感知特 说明书 3/11 页 6 CN 112035700 A 6 征, 无法充分表达语音数据的高级语义信息的问题, 利用CN。

24、N网络结构作为语音数据的特征 提取器, 并结合深度哈希算法来学习语音数据的紧凑二进制哈希码, 设计了一种端到端的 深度哈希学习框架。 该框架因其强大的特征学习能力可用来提取语音的深层语义特征, 以 实现云环境下基于内容的语音检索。 如图1所示, 一种基于CNN的语音深度哈希学习方法包 括: 0043 步骤101: 对原始语音文件进行预处理, 得到预处理后的原始语音文件, 具体包括: 0044 对所述原始语音文件进行重采样格式转换、 幅值归一化、 分帧和加窗处理操作, 得 到预处理后的原始语音文件。 0045 重采样格式转换: 打开原始语音文件X(n), 将获得的字符串格式的语音参数转换 为in。

25、t格式。 0046 幅值归一化: 将语音信号的wave幅值进行归一化处理; 计算公式如式(1)所示: 0047 0048其中,表示归一化处理后的语音信号, x(n)表示未经过归一化处理的语音信 号。 0049 分帧和加窗: 对语音信号进行分帧, 一般取帧长为20-30ms, 并设置窗函数 (window)及帧叠点数(noverlap)。 窗函数采用汉宁窗, 帧叠点数设置为每帧点数的1/3; 汉 宁窗函数如式(2)所示: 0050 0051 加窗处理计算公式如式(3)所示: 0052 0053 其中, w(n)表示汉宁窗函数, M表示汉宁窗长度, xi(n)表示通过添加窗口函数划分 之后获得的i。

26、帧语音信号, L表示移动的帧长度, N表示总的帧长。 0054 步骤102: 提取所述预处理后的原始语音文件的语谱图特征, 具体包括: 0055 将所述预处理后的原始语音文件进行快速傅里叶变换, 得到频域信息。 0056 将所述频域信息按时间序列进行拼接, 生成语谱图特征。 0057 快速傅里叶变换: 对分帧和加窗后的语音信号进行快速傅里叶变换, 将时域信息 转换为频域信息; 计算公式如式(4)所示: 0058 0059 其中Xi(n)表示快速傅里叶变换后的语音数据, k表示点序号。 0060 生成语谱图特征。 将快速傅里叶变换处理后的频域信息按时间序列进行拼接形成 语谱图特征S(n)。 00。

27、61 步骤103: 将所述语谱图特征输入至改进后的卷积神经网络模型进行训练和深度 哈希特征学习, 得到原始语音文件的深度语义特征。 0062 步骤104: 利用学习到的哈希函数对所述的深度语义特征进行深度哈希序列构造, 得到代表所述原始语音文件的深度哈希二值码。 说明书 4/11 页 7 CN 112035700 A 7 0063 图2为基于改进后的卷积神经网络模型的深度哈希构造原理图。 卷积神经网络 (CNN)具有强大的特征学习能力, 可以通过卷积层和池化层来学习深度特征。 本发明利用 CNN的优势设计了一种可以高效提取语音高级语义特征的CNN模型。 0064 如图2所示, 所述改进后的卷积。

28、神经网络模型包括4个卷积层、 4个池化层、 2个批量 归一化层和3个全连接层, 第一卷积层包含32个卷积滤波器, 核大小为33, 数据输入为3通 道的224224大小的语谱图; 所述第一卷积层后设置第一个池化层, 所述第一池化层滤波 器大小为22, 采用默认步长1; 所述第一池化层后设置第二卷积层, 所述第二卷积层包含 64个卷积滤波器, 核大小为33; 所述第二卷积层后设置第二池化层, 所述第二池化层滤波 器大小为22; 所述第二池化层后加入第一批量归一化层, 以尽量提高网络拟合的速度; 所 述第一批量归一化层后设置第三卷积层, 所述第三卷积层包含128个卷积滤波器, 核大小为 33, 所述。

29、第三卷积层后面设置第三池化层, 所述第三池化层与所述第二池化层相同; 所述 第三池化层后设置第四卷积层, 所述第四卷积层后设置第四池化层, 所述第四卷积层与所 述第三卷积层相同, 所述第四池化层和所述第三池化层相同, 所述第四个池化层后加入第 二批量归一化层; 所述第二批量归一化层后连接一个FC全连接层, 所述FC全连接层用于将 提取的特征扁平; 所述FC层之后连接哈希层, 所述哈希层的节点数为目标哈希码的长度, 所 述哈希层用于得到语音数据的深度哈希二值码; 在所述哈希层之后, 设置一个节点数为语 音样本类别数的输出层, 采用softmax函数, 加入这层是因为模型训练时哈希层神经元的活 动。

30、会受后面输出层的调节, 而输出层有着丰富的类别语义信息, 所以有助于哈希层获取丰 富的语义特征表示。 该模型参数的具体设置如表1所示: 0065 表1深度哈希编码模型参数设置表 0066 0067 说明书 5/11 页 8 CN 112035700 A 8 0068 为了防止产生过拟合现象, 在全连接层中应用Dropout, 设置丢弃率为0.2, 即在模 型训练时随机丢弃20的神经元节点不参与模型训练。 该模型中的每个卷积层和全连接层 中的非线性激活函数都采用了Tanh函数。 另外, 在模型学习率设置方面, 学习率太高会导致 模型无法收敛, 学习率太低则导致模型收敛特别慢或者无法学习, 根据已。

31、有的工程人员的 经验选择及测试实验, 将模型的学习率设置为0.01。 同时, 在模型迭代优化的后期, 逐步减 小学习率的值, 会有助于算法的收敛, 更容易接近最优解。 因此, 根据实验测试设置学习率 衰减为110 - 6 , 对学习率进行不断更新。 损失函数采用二进制交叉熵(binary_ crossentropy), 优化器算法为随机梯度下降法(stochastic gradient descent, SGD)。 最 后, 设置训练批次(epoch)为40, 批量大小(batch-size)为64进行模型训练, 以得到适用于 语音数据的深度哈希编码模型。 0069 设给定样本数量为N的训练集。

32、Xx1,x2,xNRdN, 其中, xiRd表示训练集X 中的第i个样本。 哈希学习的目的是学习一个非线性函数h(), 使其能够将原始多维空间 中的数据转换成K比特的二值码表示(即: 0,1KN), 并且保证在原始空间中相似 的数据转换之后的二值码仍然相似, 不相似的数据转换之后二值码差异较大。 对于本发明 的深度哈希构造方法, 可以将上述转换过程分解为: f(X)h(u(X)0,1KN。 其中, u(X) 表示使用设计的CNN模型提取语音数据深度语义特征的过程; h()表示将提取的语义特征 通过学习的哈希函数转换成二值码的过程。 u(X)的数学表达式如式(5)所示: 0070 0071其中,。

33、 Wa表示特征学习中卷积层和池化层的权重,表示卷积、 池化层的权重矩 阵与输入数据的点乘操作, Wb表示哈希层的权重, T表示权重矩阵的转置操作, Vb表示哈希层 的偏置。 0072 本发明采用符号函数sign()来获取语音数据的二进制表示, 具体地, 将样本xi 映射成为K比特的二值码的计算过程为: 0073 0074 其中, Imean表示提取的语义特征向量的均值。 0075 结合式(5)的定义, 可将式(6)整合为: 0076 bisign( (xi)-Imean) (7) 0077 设u(xi)-Imean, 则式(7)即可表示为: 0078 0079 利用式(8)即可得到语谱图输入样。

34、本的深度哈希二值码表示, 也即完成了语音数 据的深度哈希序列的构造。 0080 在步骤102的基础上以语谱图特征S1,S2,Sn作为训练好的网络模型的输入, 通过式(5)-式(8)进行深度语义特征提取, 并通过学习到的哈希函数对所述的深度语义特 征进行深度哈希序列构造, 得到代表每个原始语音文件唯一的深度哈希二值码b1,b2, bn。 0081 步骤105: 根据所述深度哈希二值码进行语音检索。 0082 从实际应用来讲, 利用本发明学习到语音的深度哈希二值码后, 后续应用可以利 说明书 6/11 页 9 CN 112035700 A 9 用得到的深度哈希二值码来建立与原始语音的一一映射关系,。

35、 并建立云端所有语音的哈希 索引表。 查询语音时, 用同样的方法来构造查询语音的深度哈希二值码, 并与云端哈希索引 表中的深度哈希二值码利用归一化汉明距离算法进行匹配, 若匹配成功, 则代表检索到了 目标语音, 否则未检索到目标语音。 0083 对应于本发明的基于CNN的语音深度哈希学习方法, 本发明还提供一种基于CNN的 语音深度哈希学习系统, 该系统包括: 0084 原始语音文件预处理模块, 用于对原始语音文件进行预处理, 得到预处理后的原 始语音文件。 0085 语谱图特征提取模块, 用于提取所述预处理后的原始语音文件的语谱图特征。 0086 深度语义特征提取模块, 用于将所述语谱图特征。

36、输入至改进后的卷积神经网络模 型进行训练和深度哈希特征学习, 得到原始语音文件的深度语义特征。 0087 深度哈希序列构造模块, 用于利用学习到的哈希函数对所述的深度语义特征进行 深度哈希序列构造, 得到代表所述原始语音文件的深度哈希二值码。 0088 语音检索模块, 用于根据所述深度哈希二值码进行语音检索。 0089 所述原始语音文件预处理模块, 具体包括: 0090 原始语音文件预处理单元, 用于对所述原始语音文件进行重采样格式转换、 幅值 归一化、 分帧和加窗处理操作, 得到预处理后的原始语音文件。 0091 所述语谱图特征提取模块, 具体包括: 0092 变换单元, 用于将所述预处理后。

37、的原始语音文件进行快速傅里叶变换, 得到频域 信息。 0093 拼接单元, 用于将所述频域信息按时间序列进行拼接, 生成语谱图特征。 0094 所述改进后的卷积神经网络模型包括4个卷积层、 4个池化层、 2个批量归一化层和 3个全连接层, 第一卷积层包含32个卷积滤波器, 核大小为33, 数据输入为3通道的224 224大小的语谱图; 所述第一卷积层后设置第一个池化层, 所述第一池化层滤波器大小为2 2, 采用默认步长1; 所述第一池化层后设置第二卷积层, 所述第二卷积层包含64个卷积滤 波器, 核大小为33; 所述第二卷积层后设置第二池化层, 所述第二池化层滤波器大小为2 2; 所述第二池化。

38、层后加入第一批量归一化层; 所述第一批量归一化层后设置第三卷积 层, 所述第三卷积层包含128个卷积滤波器, 核大小为33, 所述第三卷积层后面设置第三 池化层, 所述第三池化层与所述第二池化层相同; 所述第三池化层后设置第四卷积层, 所述 第四卷积层后设置第四池化层, 所述第四卷积层与所述第三卷积层相同, 所述第四池化层 和所述第三池化层相同, 所述第四个池化层后加入第二批量归一化层; 所述第二批量归一 化层后连接一个FC全连接层, 所述FC全连接层用于将提取的特征扁平; 所述FC层之后连接 哈希层, 所述哈希层的节点数为目标哈希码的长度, 所述哈希层用于得到语音数据的深度 哈希二值码; 在。

39、所述哈希层之后, 设置一个节点数为语音样本类别数的输出层。 0095 实施例1: 0096 本实施例采用清华大学语言与语言技术中心(CSLT)发布的汉语语音数据库- THCHS-3中的语音来评估所提出的方法, 语音采样频率为16kHz, 采样大小为16bits, 语音内 容为1000句不同内容的新闻片段, 数据库中共计13388个语音片段, 每个语音片段大约10s, 总长约30小时。 在本发明的实验中, 选取了由17人说的语音内容不同的10段语音, 并进行包 说明书 7/11 页 10 CN 112035700 A 10 括音量调节、 添加噪声、 重量化、 重采样、 MP3等多种语音内容保持操。

40、作, 得到共计3060条语 音进行训练, 以期在增加数据量的同时, 提高系统鲁棒性。 在实验分析阶段, 随机在THCHS- 30语音库中选取1000条语音进行评估。 0097 实验硬件平台为: Intel(R)Celeron(R)CPU N2940, 1.83GHz, 内存8GB。 软件环境 为: Windows 10, MATLAB R2016a、 JetBrains PyCharm Community Edition 2019.2.4 x64。 0098 CNN网络模型性能分析: 0099 在语音检索、 语音识别系统中, 语音数据的特征提取和深度哈希编码的生成过程 有着至关重要的作用, 它。

41、为后续高效的应用奠定了基础。 本发明利用深度学习强大的特征 自学习能力, 结合基本的卷积神经网络(CNN)结构, 设计了一种端到端的深度哈希编码模 型, 用来学习语音数据的深度哈希特征。 在网络模型中, 哈希层节点数的设置决定了语音数 据哈希编码的长度, 即代表着模型对输入语音数据的特征表示能力。 为了得到最优性能的 网络模型, 本发明对所设计模型中哈希层节点数的设置进行了实验, 分别以哈希层节点数 为64/128/256/384/512进行实验, 并对它们的测试准确率进行评估。 图3为不同节点下CNN 网络模型的测试准确率曲线。 0100 从图3可知, 当哈希层节点数为512时, 模型的测试。

42、准确率最高, 但是当批次达到30 以后, 准确率几乎和384节点下的准确率一致, 这说明384的节点就可以满足输入语音数据 的二进制表示。 而过长的哈希码会导致系统检索效率的降低, 过短的哈希码又会影响数据 的特征表示, 导致哈希码之间区分性的降低。 从模型准确率来分析, 本发明认为384节点的 模型结构表现良好, 可以用来生成紧凑的语义特征和高质量哈希编码。 因此, 本发明设计的 CNN网络模型拓扑结构有着良好的表现。 在哈希层不同的节点设置中, 模型都取得了很好的 测试准确率, 这说明网络对输入数据的拟合程度良好, 没有产生过拟合和欠拟合现象, 在语 音数据上表现优异。 从图3可以看出, 。

43、随着哈希层节点数的增加, 模型的测试准确率也在随 之上升, 并且无限逼近于1, 不难理解, 这是因为节点数越多, 模型的非线性性也就越强, 越 能更大程度地拟合输入数据, 更易取得较高的准确率。 因此, 本发明所设计的基于CNN结构 的深度哈希编码模型性能良好, 在语音数据上可以取得较好的准确率, 有助于语音数据的 语义特征学习和深度哈希编码操作。 0101 平均精度均值性能分析: 0102 为了进一步确定最优模型的节点设置, 本发明使用平均精度均值(mAP)来进一步 衡量在不同的哈希编码长度下CNN网络模型的性能表现。 实验采用不同节点设置的模型对 各种内容保持操作后的语音计算AP值, AP。

44、值即为精度均值, 然后再计算其平均精度均值 (mAP)。 计算公式如式(9)和(10)所示: 0103 0104 0105 其中, n表示数据库中的语音总个数, Q表示查询的总个数, rel(k)表示位置k上的 语音是否与查询语音相关, 相关为1, 不相关为0。 说明书 8/11 页 11 CN 112035700 A 11 0106 表2为不同哈希编码长度下, 模型所得到的mAP值。 0107 表2模型平均精度均值(mAP) 0108 0109 由表2可知, mAP值随着哈希编码长度的增加而增加, 这是因为较长的哈希编码可 以对输入的语音数据进行更充分的语义特征表示。 当哈希编码长度为384。

45、/512时, 得到的 mAP值已达到0.95以上, 且384节点下的mAP值与512节点下的值相差不大, 这说明CNN网络模 型在384/512节点下, 网络已基本达到最优性能, 对输入语音数据具有较好的查询性能。 结 合上面的CNN网络模型性能实验分析, 并权衡以后语音检索、 语音识别系统的运行效率, 本 发明最终设置网络模型的哈希层节点数为384, 以获得384位的深度哈希二值码, 来进行后 续的相关实验。 0110 深度哈希二值码的区分性和鲁棒性性能分析: 0111 1.区分性分析: 0112 本发明通过计算不同内容的语音片段之间的归一化汉明距离(也称比特误码率 (Bit Error R。

46、ate, BER)来衡量所构造的语音哈希序列的相似程度。 BER计算公式如式(11) 所示: 0113 0114其中, 和分别表示语音文件x1和x2的深度哈希序列(也即深度哈希二值码), N 表示深度哈希序列的长度。 0115 理想状况下, 不同内容语音片段间的BER值会呈现正态分布。 实验随机选取THCHS- 30语音库中1000条不同内容的语音进行评估分析。 通过对1000条语音片段的深度哈希二值 码进行两两匹配, 共得到1000999/2499500个BER数据, 匹配结果的BER正态概率分布图 和BER频数统计直方图分别如图4和图5所示: 0116 从图4和图5可以看出, 不同内容语音。

47、片段BER值的概率分布基本与标准的正态分 布曲线重叠, 说明提出的深度哈希构造方法生成的深度哈希序列近似服从正态分布, 有着 良好的随机性与抗碰撞性。 本发明实验得到的BER统计结果遵循均值 0.4787, 标准差 0.0324, 范围在0.3203-0.6276的正态分布。 也就是说, 测试语音两两间的不同程度最小为 0.3203, 完全可以满足检索需要。 0117 另外, 不同阈值 下的误识率FAR(False Accept Rate)值也可以进一步体现算法 的区分性。 对于两条语音片段, 计算它们之间的BER值, 若小于设定的阈值, 则判定它们为相 同内容的语音, 否则, 则判定为不同内。

48、容的语音; 而误识率就是表示把不同内容的语音当成 相同内容语音的比例。 通常, 设置的阈值 越大, FAR值也就越大, 说明区分性越低; 相反, FAR 值越小, 说明区分性越好。 0118 为了验证在不同阈值 下算法的区分性, 定义了误识率FAR计算公式, 如式(12)所 示: 说明书 9/11 页 12 CN 112035700 A 12 0119 0120 其中, 为哈希序列匹配阈值, x为比特误码率BER值, 为BER均值, 为BER标准差。 0121 表3为本发明的深度哈希二值码在不同阈值下的FAR值对比。 0122 表3本发明的深度哈希二值码在不同阈值下FAR值的对比 0123 本。

49、发明 0.028.4010-46 0.044.5310-42 0.061.6710-38 0.084.2310-35 0.107.3210-32 0.128.6710-29 0.147.0410-26 0.163.9210-23 0124 由表3可知, 当阈值 0.16时, 本发明的误识率FAR为3.9210-23, 代表每1023个语 音片段中错误判断的数量只有3.9个, 说明本发明具备良好的区分性和抗碰撞性, 对语音数 据具有较好的区分能力。 0125 2.鲁棒性分析: 0126 鲁棒性是指将原始语音经过重量化、 重采样、 MP3压缩等内容保持操作处理后, 得 到的语音生成的深度哈希序列仍。

50、然与原始语音生成的哈希序列一致, 不影响其后续的进一 步的应用。 为测试本发明的鲁棒性, 将随机选取的1000条不同内容的语音进行如表4所示的 内容保持操作, 经过操作处理后, 得到共计4000个语音文件。 计算得到各种内容保持操作后 的平均BER值如表4所示: 0127 表4不同内容保持操作下的BER均值比较 0128 操作手段本发明 幅值减少/-3dB0.0032 幅值增加/+3dB0.0101 MP3压缩0.0047 重采样/8-16kbps0.0092 0129 由表4可知, 本发明在不同内容保持操作下具有较低的BER均值。 因此, 本发明具有 良好的鲁棒性, 可以满足后续的语音检索、。

展开阅读全文
内容关键字: 基于 CNN 语音 深度 学习方法 系统
关于本文
本文标题:基于CNN的语音深度哈希学习方法及系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10211346.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1