声纹识别的特征参数提取系统及方法.pdf
《声纹识别的特征参数提取系统及方法.pdf》由会员分享,可在线阅读,更多相关《声纹识别的特征参数提取系统及方法.pdf(9页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010323463.7 (22)申请日 2020.04.22 (71)申请人 长春理工大学 地址 130000 吉林省长春市卫星路7089号 (72)发明人 韩成张超杨帆李岩芳 胡汉平杨华民蒋振刚李华 权巍耿雪娜徐春风 (74)专利代理机构 合肥顺超知识产权代理事务 所(特殊普通合伙) 34120 代理人 陈慕张芳 (51)Int.Cl. G10L 17/02(2013.01) G10L 25/18(2013.01) G10L 25/45(2013.01) (54)发明名称。
2、 一种声纹识别的特征参数提取系统及方法 (57)摘要 本发明公开了语音识别技术领域的一种声 纹识别的特征参数提取系统及方法, 该系统包括 有同步控制器、 麦克风阵列和计算机, 本发明中 采样频率取大于语音信号的最高频率的两倍, 保 住了采集信号的完整性, 通过对采样的语音信号 进行预加重处理, 有效的提高了语音信号的高频 信息, 通过对Mel频率谱进行对数能量处理, 能够 有效减少噪声以及频率谱估计误差造成的干扰, 通过对Mel频率谱中的对数能量进行离散余弦变 换, 可以使得得到的语音特征向量之间具有独立 性, 同时也能够减少语音特征参数的维度, 本发 明能够使得提取的声纹特征信息更加稳定可靠。
3、, 使得识别正确率得到提高。 权利要求书2页 说明书5页 附图1页 CN 111816186 A 2020.10.23 CN 111816186 A 1.一种声纹识别的特征参数提取系统, 其特征在于: 该系统包括有同步控制器1、 麦克 风阵列2和计算机3, 所述同步控制器1通过电缆与计算机3进行连接, 所述麦克风阵列2通过 电缆与计算机3进行连接。 2.根据权利要求1所述的一种声纹识别的特征参数提取系统, 其特征在于: 所述同步控 制器1的型号为百灵达BCD3000。 3.一种声纹识别的特征参数提取方法, 其特征在于, 包含以下步骤: S1、 利用同步控制器同时控制A个麦克风构成的麦克风阵列进。
4、行多路信号的采集, 得到 A个声纹信号, 分别为声纹信号V1, V2, VA; S2、 针对声纹信号Vn, 其中1nA, 其经过采样后的声纹信号在第t个采样点时刻的信 号为Vn(t), 为了提升采样信号的数据的有效性, 根据公式: Vn (t)Vn(t)-0.96*Vn(t-1) t2; Vn (t)Vn(t) t1; 对声纹信号进行预处理, 得到处理后的声纹信号用Vn (t)表示; S3、 由于采集到的声纹信号是非平稳分布, 但是声纹信号其在短时间p内, 其语音特征 信息具有平稳性, 语音信号的大小L一般远高于短时间p, 以短时间p的语音段对采集的语音 信号进行分段处理, 得到mL/P个语音。
5、帧, 称这m个语音帧为分析处理帧, 为了防止吉布斯 效应以及保持语音信号处理的连续性, 需保持各个分析处理帧之间具有重叠部分, 其中重 叠部分一般取值为短时间p的1/2或者1/3, 定义下式的窗口函数win(t)对语音信号进行平 滑的移动处理, 其中N表示窗口的长度, 对预加重处理后的信号Vn (t)进行加窗处理以后得 到Vn (t)Vn (t)*win(t), 其中: S4、 A个声纹信号进行加窗处理以后进行线性叠加处理, 也即是对第n个采样声纹信号 进行Vn” (t)(Vn” (t)2/SUM; 其中SUM(V1” (t)2+(V2” (t)2+(VA (t)2, 再对处理的 声纹信号Vn。
6、” (t)进行叠加处理, 也即是F(t)b1*V1” (t)+b2*V2” (t)+bA*VA” (t); S5、 对声纹信号线性叠加后的时域信号F(t)利用公式: 进行快速傅立叶变换, 得到语音信号的频谱Y(k); S6、 对语音信号频谱Y(k)进行频谱转换到Mel域上的频谱, 也即是利用Mel滤波器对其 进行转换处理, 设Mel滤波器具有M个三角带通滤波器, 其对应的中心频率为h(m), m1, 2, M, 其值为: h(m)(N/S)*Q-1(Q(hl)+m*(Q(hh)-Q(hl)/(M+1); 而Q-1(x)700*(e(x -1125)-1), 其中S为采样频率, Q(hl)和Q(。
7、hh)分别为Mel滤波器组内的最低频率和最高频率, 通 过中心频率为h(m), 定义每个M个三角带通滤波器的传递函数FBm(k), 当h(m)kh(m+1) 时, FBm(k)(h(m+1)-k)/(h(m+1)-h(m); 当h(m-1)kh(m)时, FBm(k)(k-h(m-1)/ (h(m)-h(m-1); 当h(m-1)k或者kh(m-1)时, FBm(k)0; 权利要求书 1/2 页 2 CN 111816186 A 2 S7、 为了减少噪声以及频率谱估计误差造成的干扰, 对Mel频率谱进行对数能量处理, 也即是用进行处理; S 8 、 通 过 对 M e l 频 率 谱 中 的 。
8、对 数 能 量 S (m) 进 行 离 散 余 弦 变 换 , 其 中 采 用 对其进行变换, 得到的Mel频率 谱系数, 可以使得得到的语音特征向量之间具有独立性, 同时也能够减少语音特征参数的 维度, 使得识别正确率得到提高; S9、 对Mel频率谱系数进行J阶差分处理, 也即是当iT-J 时, giD(i)-D(i)+1; 当iJ或者iT-J时,其中 的取值 为1 J, T表示倒谱系数维数, 通过对Mel频率谱系数进行J阶差分处理以后即可得到语 音特征信息参数。 4.根据权利要求3所述的一种声纹识别的特征参数提取方法, 其特征在于; S1中, 为了 保持采集的信号的完整性, 采样频率取大。
9、于语音信号的最高频率的两倍, 本发明采用逐帧 采样等间隔抽样方式, 其中采样频率为8kHz, 量化幅度为8bit。 权利要求书 2/2 页 3 CN 111816186 A 3 一种声纹识别的特征参数提取系统及方法 技术领域 0001 本发明涉及语音识别技术领域, 具体为一种声纹识别的特征参数提取系统及方 法。 背景技术 0002 随着信息技术的快速发展, 个人身份信息的安全性越来越重要, 为了有效的验证 个人身份信息, 人类的生物特征信息包括声纹特征信息、 指纹特征信息、 人脸特征信息、 虹 膜特征信息等认证技术得到了快速发展, 然而其中的声纹特征信息凭借着简单、 便捷、 准确 等特点, 作。
10、为人脸自然身份属性之一, 其在身份识别、 信息安全等领域受到越来越多的关 注。 声纹识别技术是通过对声音特征信息进行提取并结合特征模式相似性匹配的一项技 术, 其中声纹特征信息提取, 即是提取出声音信号频率中能够唯一展现出该声音的个性特 征参数, 因此在进行声纹识别过程中, 有效的提取声纹特征信息, 直接决定着声纹识别的精 度性、 时效性。 0003 “声纹” 这个概念首次被Bell实验室提出, 使得声音识别技术得到了初步发展, 紧 接着S.Pruzansky等人提出了将模式匹配结合概率统计对声音进行特种分析识别, 实现对 声音的辨别; 随着声纹识别技术的发展, 作为声音的个性化特征参数的提取。
11、技术得到了快 速发展, 如基于人耳听觉特性的梅尔倒谱参数的提出使得声纹识别技术迈入了新的篇章。 然而国内关于声纹识别技术研究的起点较缓慢, 目前中国的各大高校也逐渐的扩展声纹识 别技术领域。 0004 由于声纹识别过程中, 声音信号频率本身具有随机性, 如声音的快慢、 声音的音调 高低、 共振峰的变化等因素, 使得声音的极易受到外界噪声的干扰, 而且当声音信号在传播 过程中, 极易受到信道的干扰, 使得声音信号的频率谱发生变化, 从而导致提取的声纹特征 信息出现不稳定性。 0005 基于此, 本发明提出了一种声纹识别的特征参数提取系统及方法。 发明内容 0006 本发明的目的在于提供一种声纹识。
12、别的特征参数提取系统及方法, 以解决上述背 景技术中的问题。 0007 为实现上述目的, 本发明提供如下技术方案: 一种声纹识别的特征参数提取系统, 该系统包括有同步控制器、 麦克风阵列和计算机, 所述同步控制器通过电缆与计算机进行 连接, 所述麦克风阵列通过电缆与计算机进行连接。 0008 优选的, 同步控制器的型号为百灵达BCD3000。 0009 一种声纹识别的特征参数提取方法, 包含以下步骤: 0010 S1、 利用同步控制器同时控制A个麦克风构成的麦克风阵列进行多路信号的采集, 得到A个声纹信号, 分别为声纹信号V1, V2, VA; 0011 S2、 针对声纹信号Vn, 其中1nA。
13、, 其经过采样后的声纹信号在第t 个采样点时 说明书 1/5 页 4 CN 111816186 A 4 刻的信号为Vn(t), 为了提升采样信号的数据的有效性, 根据公式: Vn (t)Vn(t)-0.96*Vn (t-1) t2; 0012 Vn (t)Vn(t) t1; 0013 对声纹信号进行预处理, 得到处理后的声纹信号用Vn (t)表示; 0014 S3、 由于采集到的声纹信号是非平稳分布, 但是声纹信号其在短时间p 内, 其语音 特征信息具有平稳性, 语音信号的大小L一般远高于短时间p, 以短时间p的语音段对采集的 语音信号进行分段处理, 得到mL/P个语音帧, 称这m个语音帧为分。
14、析处理帧, 为了防止吉 布斯效应以及保持语音信号处理的连续性, 需保持各个分析处理帧之间具有重叠部分, 其 中重叠部分一般取值为短时间p的1/2或者1/3, 定义下式的窗口函数win(t)对语音信号进 行平滑的移动处理, 其中N表示窗口的长度, 对预加重处理后的信号Vn (t) 进行加窗处理 以后得到Vn (t)Vn (t)*win(t), 其中: 0015 0016 S4、 A个声纹信号进行加窗处理以后进行线性叠加处理, 也即是对第n 个采样声纹 信号进行Vn” (t)(Vn” (t)2/SUM; 其中SUM(V1” (t)2+(V2” (t)2+(VA (t)2, 再对 处理的声纹信号Vn。
15、” (t) 进行叠加处理, 也即是F(t)b1*V1” (t)+b2*V2” (t)+ bA* VA” (t); 0017 S5、 对声纹信号线性叠加后的时域信号F(t)利用公式: 0018 0019 进行快速傅立叶变换, 得到语音信号的频谱Y(k); 0020 S6、 对语音信号频谱Y(k)进行频谱转换到Mel域上的频谱, 也即是利用Mel滤波器 对其进行转换处理, 设Mel滤波器具有M个三角带通滤波器, 其对应的中心频率为h(m), m 1, 2, M, 其值为: h(m)(N/S) *Q-1(Q(hl)+m*(Q(hh)-Q(hl)/(M+1); 而Q-1(x)700*(e (x-112。
16、5)-1), 其中S 为采样频率, Q(hl)和Q(hh)分别为Mel滤波器组内的最低频率和最高频 率, 通过中心频率为h(m), 定义每个M个三角带通滤波器的传递函数FBm(k), 当h(m)kh (m+1)时, FBm(k)(h(m+1)-k)/(h(m+1)-h(m); 当h(m-1)kh(m)时, FBm(k)(k-h(m- 1)/(h(m)-h(m-1); 当h(m-1)k或者kh(m-1)时, FBm(k)0; 0021 S7、 为了减少噪声以及频率谱估计误差造成的干扰, 对Mel频率谱进行对数能量处 理, 也即是用进行处理; 0022 S8、 通过对Mel频率谱中的对数能量S(m。
17、) 进行离散余弦变换 , 其中采用 对其进行变换, 得到的 Mel频率 谱系数, 可以使得得到的语音特征向量之间具有独立性, 同时也能够减少语音特征参数的 维度, 使得识别正确率得到提高; 0023 S9、 对Mel频率谱系数进行J阶差分处理, 也即是当i 说明书 2/5 页 5 CN 111816186 A 5 T-J时, giD(i)-D(i)+1; 当iJ或者iT-J时,其中 的取值为1 J, T表示倒谱系数维数, 通过对Mel频率谱系数进行J阶差分处理以后即可 得到语音特征信息参数。 0024 优选的, S1中, 为了保持采集的信号的完整性, 采样频率取大于语音信号的最高频 率的两倍,。
18、 本发明采用逐帧采样等间隔抽样方式, 其中采样频率为8kHz, 量化幅度为8bit。 0025 与现有技术相比, 本发明的有益效果是: 本发明中采样频率取大于语音信号的最 高频率的两倍, 保住了采集信号的完整性, 通过对采样的语音信号进行预加重处理, 有效的 提高了语音信号的高频信息, 通过对Mel频率谱进行对数能量处理, 能够有效减少噪声以及 频率谱估计误差造成的干扰, 通过对Mel频率谱中的对数能量进行离散余弦变换, 可以使得 得到的语音特征向量之间具有独立性, 同时也能够减少语音特征参数的维度, 本发明能够 使得提取的声纹特征信息更加稳定可靠, 使得识别正确率得到提高。 附图说明 002。
19、6 为了更清楚地说明本发明实施例的技术方案, 下面将对实施例描述所需要使用的 附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对于本领 域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附 图。 0027 图1为纹识别的特征参数提取框架图; 0028 图2为声纹识别的特征参数提取所需设备结构图。 具体实施方式 0029 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造。
20、性劳动前提下所获得的所有其它 实施例, 都属于本发明保护的范围。 0030 本发明提供一种技术方案: 本发明提供如下技术方案一种声纹识别的特征参数提 取系统, 该系统包括有同步控制器1、 麦克风阵列2和计算机3, 同步控制器1通过电缆与计算 机3进行连接, 麦克风阵列2通过电缆与计算机3 进行连接。 0031 进一步的, 同步控制器1的型号为百灵达BCD3000。 0032 一种声纹识别的特征参数提取方法, 包含以下步骤: 0033 步骤1、 利用同步控制器同时控制A个麦克风构成的麦克风阵列进行多路信号的采 集, 为了保持采集的信号的完整性, 采样频率取大于语音信号的最高频率的两倍, 本发明采。
21、 用逐帧采样等间隔抽样方式, 其中采样频率为 8kHz, 量化幅度为8bit, 得到A个声纹信号, 分别为声纹信号V1, V2, VA; 0034 步骤2、 针对声纹信号Vn, 其中1nA, 其经过采样后的声纹信号在第t个采样点 时刻的信号为Vn(t), 为了提升采样信号的数据的有效性, 根据公式: Vn (t)Vn(t)-0.96* Vn(t-1) t2; 0035 Vn (t)Vn(t) t1; 说明书 3/5 页 6 CN 111816186 A 6 0036 对声纹信号进行预处理, 得到处理后的声纹信号用Vn (t)表示; 0037 步骤3、 由于采集到的声纹信号是非平稳分布, 但是声。
22、纹信号其在短时间 p内, 其 语音特征信息具有平稳性, 语音信号的大小L一般远高于短时间p, 本发明取p为20ms, 以短 时间p的语音段对采集的语音信号进行分段处理, 得到mL/P个语音帧, 称这m个语音帧为 分析处理帧, 为了防止吉布斯效应以及保持语音信号处理的连续性, 需保持各个分析处理 帧之间具有重叠部分, 其中重叠部分一般取值为短时间p的1/2或者1/3, 本发明中的采用的 重叠部分为10。 定义下式的窗口函数win(t)对语音信号进行平滑的移动处理, 其中N表示窗 口的长度, 本发明取值为20。 对预加重处理后的信号Vn (t) 进行加窗处理以后得到Vn (t)Vn (t)*win。
23、(t), 其中: 0038 0039 步骤4、 A个声纹信号进行加窗处理以后进行线性叠加处理, 也即是对第 n个采样 声纹信号进行Vn” (t)(Vn” (t)2/SUM; 其中SUM(V1” (t)2+(V2” (t)2+(VA (t)2, 再对处理的声纹信号Vn” (t) 进行叠加处理, 也即是F(t)b1*V1” (t)+b2*V2” (t) +bA* VA” (t); 0040 步骤5、 对声纹信号线性叠加后的时域信号F(t)利用公式: 0041 0042 进行快速傅立叶变换, 得到语音信号的频谱Y(k); 0043 步骤6、 对语音信号频谱Y(k)进行频谱转换到Mel域上的频谱, 也。
24、即是利用Mel滤波 器对其进行转换处理, 设Mel滤波器具有M个三角带通滤波器(本发明取M为15), 其对应的中 心频率为h(m), m1, 2, .M, 其值为: h(m)(N/S)*Q-1(Q(hl)+m*(Q(hh)-Q(hl)/(M+1); 而Q-1(x)700* (e(x-1125)-1), 其中S为采样频率(S8kHz), Q(hl)和Q(hh)分别为Mel滤波器 组内的最低频率和最高频率, 通过中心频率为h(m), 定义每个M个三角带通滤波器的传递函 数FBm(k), 当h(m)kh(m+1)时, FBm(k) (h(m+1)-k)/(h(m+1)-h(m); 当h(m-1)k 。
25、h(m)时, FBm(k) (k-h(m-1)/(h(m)-h(m-1); 当h(m-1)k或者kh(m-1)时, FBm(k)0; 0044 步骤7、 为了减少噪声以及频率谱估计误差造成的干扰, 对Mel频率谱进行对数能 量处理, 也即是用进行处理; 0045 步骤8、 通过对Mel频率谱中的对数能量S(m)进行离散余弦变换, 其中采用 对其进行变换, 得到的Mel频率谱 系数, 可以使得得到的语音特征向量之间具有独立性, 同时也能够减少语音特征参数的维 度, 使得识别正确率得到提高; 0046 步骤9、 对Mel频率谱系数进行J阶差分处理(本发明取J4), 也即是当i T-J时 , g i。
26、 D (i) - D (i) +1 ; 当 iJ 或 者i T-J时 , 说明书 4/5 页 7 CN 111816186 A 7 其中 的取值为1 J, T 表示倒谱系数维数(本发 明取值为24维), 通过对Mel频率谱系数进行J阶差分处理以后即可得到语音特征信息参数。 0047 在本说明书的描述中, 参考术语 “一个实施例” 、“示例” 、“具体示例” 等的描述意指 结合该实施例或示例描述的具体特征、 结构、 材料或者特点包含于本发明的至少一个实施 例或示例中。 在本说明书中, 对上述术语的示意性表述不一定指的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或者特点可以在任何的一个或多个实施例或示例中以合 适的方式结合。 0048 以上公开的本发明优选实施例只是用于帮助阐述本发明。 优选实施例并没有详尽 叙述所有的细节, 也不限制该发明仅为所述的具体实施方式。 显然, 根据本说明书的内容, 可作很多的修改和变化。 本说明书选取并具体描述这些实施例, 是为了更好地解释本发明 的原理和实际应用, 从而使所属技术领域技术人员能很好地理解和利用本发明。 本发明仅 受权利要求书及其全部范围和等效物的限制。 说明书 5/5 页 8 CN 111816186 A 8 图1 图2 说明书附图 1/1 页 9 CN 111816186 A 9 。
- 内容关键字: 声纹 识别 特征 参数 提取 系统 方法
多功能信号采集控制器.pdf
用于汽车曲轴加工用表面打磨装置.pdf
金属锂锭包装装置.pdf
漏电检测设备.pdf
用于管件与端盖焊接的夹具.pdf
电池检测防爆机构.pdf
塑料造粒机用输送装置.pdf
可调路灯.pdf
用于保护电池及储存运输安全的熔断片.pdf
用于不锈钢开平机的可调限位装置.pdf
摆动脉冲出水结构及出水装置.pdf
车载充电器.pdf
隧道内部照明装置.pdf
抗冲击耐腐蚀风机叶片.pdf
装盒机入盒机构及装盒机.pdf
轨道集装箱门式起重机的运行机构.pdf
电极植入设备.pdf
阀门加工用尺寸检测装置.pdf
汽车地桩锁的防撞装置.pdf
污水处理用生态浮床.pdf
汽车散热器管路折弯工装.pdf
玻璃幕墙拼接装置.pdf
钢筋衍架楼承板防漏浆结构及楼承板.pdf
充电桩用防撞阻拦杆.pdf
电视音频测试装置.pdf
定位装夹设备及加工系统.pdf
基于BIM和AI大模型的工程进度管理方法及系统.pdf
基于4D毫米波雷达的目标航迹起始方法.pdf
基于多层级虚拟电厂的能量协调控制分配方法及系统.pdf
钻孔灌注桩清孔装置及其施工方法.pdf
建筑施工安全智能监控系统及方法.pdf
接插件到位检测方法、装置、设备及其介质.pdf