音频比对方法、装置和设备.pdf
《音频比对方法、装置和设备.pdf》由会员分享,可在线阅读,更多相关《音频比对方法、装置和设备.pdf(24页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910376542.1 (22)申请日 2019.05.07 (71)申请人 国家广播电视总局中央广播电视发 射二台 地址 100045 北京市西城区北京市4510信 箱 申请人 北京国广电科技有限公司 (72)发明人 王健周凯王小稳付润豪 赵爱国 (74)专利代理机构 北京细软智谷知识产权代理 有限责任公司 11471 代理人 牛晴 (51)Int.Cl. G10L 25/51(2013.01) G10L 25/24(2013.01) G10L 25/18(2013.01。
2、) G10L 25/27(2013.01) (54)发明名称 音频比对方法、 装置和设备 (57)摘要 本发明涉及一种音频比对方法、 装置和设 备, 包括: 接收需要比对的至少两路音频信号; 对 每路音频信号进行预处理, 使每路音频信号均包 含M个音频帧; 基于每路音频信号中每个音频帧 对应的特征信息, 确定每路音频信号的特征序 列; 根据特征序列, 计算相关函数序列; 根据相关 函数序列, 确定任意两路音频信号之间的延迟时 间; 若延迟时间小于参考延迟时间, 根据相关函 数序列计算任意两路音频信号的相关系数; 若相 关系数大于预设系数, 则确定至少两路音频信号 为相同的信号。 本方案提取需要。
3、比对的音频信号 的多个特征, 综合多个特征进行多维度比对, 因 此即使在噪声较大、 干扰较大的场合也能获得较 高的正确率, 实用性高。 权利要求书3页 说明书15页 附图5页 CN 110085259 A 2019.08.02 CN 110085259 A 1.一种音频比对方法, 其特征在于, 包括: 接收需要比对的至少两路音频信号; 对每路所述音频信号进行预处理, 使每路所述音频信号均包含M个音频帧; 所述M为正 整数; 基于每路所述音频信号中每个所述音频帧对应的特征信息, 确定每路所述音频信号的 特征序列; 根据所述特征序列, 计算相关函数序列; 根据所述相关函数序列, 确定任意两路所述音。
4、频信号之间的延迟时间; 比较所述延迟时间与参考延迟时间的大小; 若所述延迟时间小于所述参考延迟时间, 根据所述相关函数序列计算任意两路所述音 频信号的相关系数; 若所述相关系数大于预设系数, 则确定至少两路所述音频信号为相同的信号。 2.根据权利要求1所述音频比对方法, 其特征在于, 所述对每路所述音频信号进行预处 理, 使每路所述音频信号均包含M个音频帧, 包括: 分别重采样并取长度为N的采样序列; 所述N为正整数; 对每路所述采样序列进行预加重和归一化处理, 得到目标采样序列; 对每路所述目标采样序列进行音频帧划分, 使每路所述目标采样序列包含M个音频帧。 3.根据权利要求1所述音频比对方。
5、法, 其特征在于, 所述根据所述特征序列, 计算相关 函数序列, 包括: 分别对每路所述特征序列进行离散傅里叶变换, 得到第一中间序列和第二中间序列; 获取所述第一中间序列的复数共轭, 将所述复数共轭与所述第二中间序列逐元素相乘 得到第三中间序列; 对所述第三中间序列进行逆离散傅里叶变换, 得到中间相关函数序列; 将所述中间相关函数序列的第一部分与第二部分重新拼接, 得到所述相关函数序列。 4.根据权利要求3所述音频比对方法, 其特征在于, 所述基于每路所述音频信号中每个 所述音频帧对应的特征信息, 确定每路所述音频信号的特征序列, 包括: 获取每路所述音频信号中每个所述音频帧对应的谱质心序列。
6、; 获取每路所述音频信号中每个所述音频帧对应的时域序列; 获取每路所述音频信号中每个所述音频帧对应的过零率序列; 和 获取每路所述音频信号中每个所述音频帧对应的梅尔倒谱系数MFCC序列。 5.根据权利要求4所述音频比对方法, 其特征在于, 所述获取每路所述音频信号中每个 所述音频帧对应的谱质心序列, 包括: 分别对每路所述音频信号中每个所述音频帧进行傅里叶变换, 得到初始谱质心; 将所述初始谱质心归一化处理, 获取谱质心, 每路所述音频信号中每个所述音频帧的 所述谱质心组成每路所述谱质心序列; 获取每路所述音频信号中每个所述音频帧对应的过零率序列, 包括: 提取每路所述音频信号中每个所述音频帧。
7、的包络序列; 获取所述包络序列的过零率, 每路所述音频信号中每个所述音频帧的所述过零率组成 每路所述过零率序列; 权利要求书 1/3 页 2 CN 110085259 A 2 所述获取每路所述音频信号中每个所述音频帧对应的MFCC序列, 包括: 对每路所述音频信号中每个所述音频帧进行快速傅立叶变换, 获取所述音频帧的频率 谱; 根据所述频率谱, 计算所述音频帧的幅度谱和离散功率谱; 将所述离散功率谱通过预设的梅尔Mel滤波器; 根据所述幅度谱求得所述Mel滤波器的输出; 将所述输出取对数, 将所述对数作离散余弦变换, 得到每路所述音频信号中每个所述 音频帧对应的MFCC, 每路所述音频信号中每。
8、个所述音频帧的所述MFCC组成每路所述MFCC序 列。 6.根据权利要求4所述音频比对方法, 其特征在于, 所述相关函数序列包括谱质心相关 函数序列、 时域相关函数序列、 过零率相关函数序列和MFCC相关函数序列; 所述根据所述相关函数序列, 确定任意两路所述音频信号之间的延迟时间, 包括: 获取所述谱质心相关函数序列的第一最大位置和第一中点位置, 求得所述第一最大位 置和所述第一中点位置的第一差值, 将所述第一差值乘以所述音频信号的采样频率, 获得 第一延迟时间; 获取所述过零率相关函数序列的第二最大位置和第二中点位置, 求得所述第二最大位 置和所述第二中点位置的第二差值, 将所述第二差值乘。
9、以所述采样频率, 获得第二延迟时 间; 获取所述MFCC相关函数序列的第三最大位置和第三中点位置, 求得所述第三最大位置 和所述第三中点位置的第三差值, 将所述第三差值乘以所述采样频率, 获得第三延迟时间; 计算所述第一延迟时间、 所述第二延迟时间和所述第三延迟时间的平均值, 将所述平 均值作为所述延迟时间。 7.根据权利要求1所述音频比对方法, 其特征在于, 还包括: 若所述延迟时间大于或等于所述参考延迟时间, 则将所述延迟时间剪切, 重新对齐所 述音频信号, 以便再次对至少两路所述音频信号进行比对。 8.根据权利要求1所述音频比对方法, 其特征在于, 根据所述相关函数序列计算任意两 路所述。
10、音频信号的相关系数, 包括: 获取所述谱质心相关函数序列的最大值, 作为谱质心相关系数, 获取所述时域相关函 数序列的最大值, 作为时域相关系数, 获取所述过零率相关函数序列的最大值, 作为过零率 相关系数, 获取所述MFCC相关函数序列的最大值, 作为MFCC相关系数; 将所述谱质心相关系数、 所述时域相关系数、 所述过零率相关系数和所述MFCC相关系 数的加权求和值作为所述相关系数。 9.一种音频比对装置, 其特征在于, 包括: 接收模块、 预处理模块、 计算模块、 比较模块 和确定模块; 所述接收模块, 用于接收需要比对的至少两路音频信号; 所述预处理模块, 用于对每路所述音频信号进行预。
11、处理, 使每路所述音频信号均包含M 个音频帧; 所述M为正整数; 所述确定模块, 用于基于每路所述音频信号中每个所述音频帧对应的特征信息, 确定 每路所述音频信号的特征序列; 权利要求书 2/3 页 3 CN 110085259 A 3 所述计算模块, 用于根据所述特征序列, 计算相关函数序列; 所述确定模块, 还用于根据所述相关函数序列, 确定任意两路所述音频信号之间的延 迟时间; 所述比较模块, 用于比较所述延迟时间与参考延迟时间的大小; 所述计算模块, 还用于若所述延迟时间小于所述参考延迟时间, 根据所述相关函数序 列计算任意两路所述音频信号的相关系数; 所述确定模块, 还用于若所述相关。
12、系数大于预设系数, 则确定至少两路所述音频信号 为相同的信号。 10.一种音频比对设备, 其特征在于, 所述设备包括: 处理器以及与所述处理器相连的 存储器; 所述存储器用于存储计算机程序, 所述计算机程序至少用于执行权利要求1-8任一所 述的音频比对方法; 所述处理器用于调用并执行所述计算机程序。 权利要求书 3/3 页 4 CN 110085259 A 4 音频比对方法、 装置和设备 技术领域 0001 本发明涉及信号处理技术领域, 具体涉及一种音频比对方法、 装置和设备。 背景技术 0002 当前, 音频广播已成为最为普及的大众宣传和娱乐媒体。 广播电台的节目播出及 媒体资源管理等都涉及。
13、到音频比对方面的需求, 即对两个音频进行比较, 判断二者是否相 同或相似。 0003 现有技术中的音频比对方法, 都是基于梅尔倒频谱系数(MelFrequency Cepstrum Coefficient, MFCC)序列这一特征, 通过MFCC算法提取音频特征参数, 再根据音频特征参数 的欧氏距离来判定音频的相似性, 但是这种方式仅仅适用于音频质量较高的情况, 如果音 频质量不高, 存在噪声, 使用场合有一定的干扰, 则会有较高的误报率。 发明内容 0004 有鉴于此, 本发明的目的在于提供一种音频比对方法、 装置和设备, 以克服目前如 果音频质量不高, 存在噪声, 使用场合有一定的干扰, 。
14、则会有较高的误报率的问题。 0005 为实现以上目的, 本发明采用如下技术方案: 0006 一种音频比对方法, 包括: 0007 接收需要比对的至少两路音频信号; 0008 对每路所述音频信号进行预处理, 使每路所述音频信号均包含M个音频帧; 所述M 为正整数; 0009 基于每路所述音频信号中每个所述音频帧对应的特征信息, 确定每路所述音频信 号的特征序列; 0010 根据所述特征序列, 计算相关函数序列; 0011 根据所述相关函数序列, 确定任意两路所述音频信号之间的延迟时间; 0012 比较所述延迟时间与参考延迟时间的大小; 0013 若所述延迟时间小于所述参考延迟时间, 根据所述相关。
15、函数序列计算任意两路所 述音频信号的相关系数; 0014 若所述相关系数大于预设系数, 则确定至少两路所述音频信号为相同的信号。 0015 进一步地, 以上所述音频比对方法, 所述对每路所述音频信号进行预处理, 使每路 所述音频信号均包含M个音频帧, 包括: 0016 分别重采样并取长度为N的采样序列; 所述N为正整数; 0017 对每路所述采样序列进行预加重和归一化处理, 得到目标采样序列; 0018 对每路所述目标采样序列进行音频帧划分, 使每路所述目标采样序列包含M个音 频帧。 0019 进一步地, 以上所述音频比对方法, 所述根据所述特征序列, 计算相关函数序列, 包括: 说明书 1/。
16、15 页 5 CN 110085259 A 5 0020 分别对每路所述特征序列进行离散傅里叶变换, 得到第一中间序列和第二中间序 列; 0021 获取所述第一中间序列的复数共轭, 将所述复数共轭与所述第二中间序列逐元素 相乘得到第三中间序列; 0022 对所述第三中间序列进行逆离散傅里叶变换, 得到中间相关函数序列; 0023 将所述中间相关函数序列的第一部分与第二部分重新拼接, 得到所述相关函数序 列。 0024 进一步地, 以上所述音频比对方法, 所述基于每路所述音频信号中每个所述音频 帧对应的特征信息, 确定每路所述音频信号的特征序列, 包括: 0025 获取每路所述音频信号中每个所述。
17、音频帧对应的谱质心序列; 0026 获取每路所述音频信号中每个所述音频帧对应的时域序列; 0027 获取每路所述音频信号中每个所述音频帧对应的过零率序列; 和 0028 获取每路所述音频信号中每个所述音频帧对应的梅尔倒谱系数MFCC序列。 0029 进一步地, 以上所述音频比对方法, 所述获取每路所述音频信号中每个所述音频 帧对应的谱质心序列, 包括: 0030 分别对每路所述音频信号中每个所述音频帧进行傅里叶变换, 得到初始谱质心; 0031 将所述初始谱质心归一化处理, 获取谱质心, 每路所述音频信号中每个所述音频 帧的所述谱质心组成每路所述谱质心序列; 0032 获取每路所述音频信号中每。
18、个所述音频帧对应的过零率序列, 包括: 0033 提取每路所述音频信号中每个所述音频帧的包络序列; 0034 获取所述包络序列的过零率, 每路所述音频信号中每个所述音频帧的所述过零率 组成每路所述过零率序列; 0035 所述获取每路所述音频信号中每个所述音频帧对应的MFCC序列, 包括: 0036 对每路所述音频信号中每个所述音频帧进行快速傅立叶变换, 获取所述音频帧的 频率谱; 0037 根据所述频率谱, 计算所述音频帧的幅度谱和离散功率谱; 0038 将所述离散功率谱通过预设的梅尔Mel滤波器; 0039 根据所述幅度谱求得所述Mel滤波器的输出; 0040 将所述输出取对数, 将所述对数。
19、作离散余弦变换, 得到每路所述音频信号中每个 所述音频帧对应的MFCC, 每路所述音频信号中每个所述音频帧的所述MFCC组成每路所述 MFCC序列。 0041 进一步地, 以上所述音频比对方法, 所述相关函数序列包括谱质心相关函数序列、 时域相关函数序列、 过零率相关函数序列和MFCC相关函数序列; 0042 所述根据所述相关函数序列, 确定任意两路所述音频信号之间的延迟时间, 包括: 0043 获取所述谱质心相关函数序列的第一最大位置和第一中点位置, 求得所述第一最 大位置和所述第一中点位置的第一差值, 将所述第一差值乘以所述音频信号的采样频率, 获得第一延迟时间; 0044 获取所述过零率。
20、相关函数序列的第二最大位置和第二中点位置, 求得所述第二最 大位置和所述第二中点位置的第二差值, 将所述第二差值乘以所述采样频率, 获得第二延 说明书 2/15 页 6 CN 110085259 A 6 迟时间; 0045 获取所述MFCC相关函数序列的第三最大位置和第三中点位置, 求得所述第三最大 位置和所述第三中点位置的第三差值, 将所述第三差值乘以所述采样频率, 获得第三延迟 时间; 0046 计算所述第一延迟时间、 所述第二延迟时间和所述第三延迟时间的平均值, 将所 述平均值作为所述延迟时间。 0047 进一步地, 以上所述音频比对方法, 还包括: 0048 若所述延迟时间大于或等于所。
21、述参考延迟时间, 则将所述延迟时间剪切, 重新对 齐所述音频信号, 以便再次对至少两路所述音频信号进行比对。 0049 进一步地, 以上所述音频比对方法, 根据所述相关函数序列计算任意两路所述音 频信号的相关系数, 包括: 0050 获取所述谱质心相关函数序列的最大值, 作为谱质心相关系数, 获取所述时域相 关函数序列的最大值, 作为时域相关系数, 获取所述过零率相关函数序列的最大值, 作为过 零率相关系数, 获取所述MFCC相关函数序列的最大值, 作为MFCC相关系数; 0051 将所述谱质心相关系数、 所述时域相关系数、 所述过零率相关系数和所述MFCC相 关系数的加权求和值作为所述相关系。
22、数。 0052 本发明还提供了一种音频比对装置, 包括: 接收模块、 预处理模块、 计算模块、 比较 模块和确定模块; 0053 所述接收模块, 用于接收需要比对的至少两路音频信号; 0054 所述预处理模块, 用于对每路所述音频信号进行预处理, 使每路所述音频信号均 包含M个音频帧; 所述M为正整数; 0055 所述确定模块, 用于基于每路所述音频信号中每个所述音频帧对应的特征信息, 确定每路所述音频信号的特征序列; 0056 所述计算模块, 用于根据所述特征序列, 计算相关函数序列; 0057 所述确定模块, 还用于根据所述相关函数序列, 确定任意两路所述音频信号之间 的延迟时间; 005。
23、8 所述比较模块, 用于比较所述延迟时间与参考延迟时间的大小; 0059 所述计算模块, 还用于若所述延迟时间小于所述参考延迟时间, 根据所述相关函 数序列计算任意两路所述音频信号的相关系数; 0060 所述确定模块, 还用于若所述相关系数大于预设系数, 则确定至少两路所述音频 信号为相同的信号。 0061 本发明还提供了一种音频比对设备, 所述设备包括: 处理器以及与所述处理器相 连的存储器; 0062 所述存储器用于存储计算机程序, 所述计算机程序至少用于以上任一所述的音频 比对方法; 0063 所述处理器用于调用并执行所述计算机程序。 0064 本发明的音频比对方法、 装置和设备, 包括。
24、接收需要比对的至少两路音频信号; 对 每路音频信号进行预处理, 使每路音频信号均包含M个音频帧; M为正整数; 基于每路音频信 号中每个音频帧对应的特征信息, 确定每路音频信号的特征序列; 根据特征序列, 计算相关 说明书 3/15 页 7 CN 110085259 A 7 函数序列; 根据相关函数序列, 确定任意两路音频信号之间的延迟时间; 比较延迟时间与参 考延迟时间的大小; 若延迟时间小于参考延迟时间, 根据相关函数序列计算任意两路音频 信号的相关系数; 若相关系数大于预设系数, 则确定至少两路音频信号为相同的信号。 本方 案提取需要比对的音频信号的多个特征, 综合多个特征进行多维度比对。
25、, 因此即使在噪声 较大、 干扰较大的场合也能获得较高的正确率, 实用性高。 附图说明 0065 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0066 图1是本发明的音频比对方法实施例一的流程图; 0067 图2是本发明的音频比对方法实施例二的流程图; 0068 图3是采集自不同设备的相同的两路音频时域波形图; 0069 图4是图3两路音频的过零率序列对比图; 00。
26、70 图5是图3两路音频的MFCC序列对比图; 0071 图6是图3两路音频的谱质心序列对比图; 0072 图7是图3两路音频的延迟时间图; 0073 图8是图3两路音频逐段比对的相关系数分布图; 0074 图9是本发明的音频比对装置实施例一的结构示意图; 0075 图10是本发明的音频比对装置实施例二的结构示意图; 0076 图11是本发明的音频比对设备实施例的结构示意图。 具体实施方式 0077 为使本发明的目的、 技术方案和优点更加清楚, 下面将对本发明的技术方案进行 详细的描述。 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基 于本发明中的实施例, 本领域普。
27、通技术人员在没有做出创造性劳动的前提下所得到的所有 其它实施方式, 都属于本发明所保护的范围。 0078 图1是本发明的音频比对方法实施例一的流程图。 如图1所示, 本实施例的音频比 对方法具体可以包括如下步骤: 0079 S101、 接收需要比对的至少两路音频信号; 0080 首先, 需要接收需要比对的至少两路音频信号, 具体地, 本实施例优选比对两路音 频信号。 0081 S102、 对每路音频信号进行预处理, 使每路音频信号均包含M个音频帧; 0082 对需要比对的每路音频信号进行预处理, 使得每路音频信号均包含M个音频帧; 本 实施例中, M优选为正整数。 0083 S103、 基于每。
28、路音频信号中每个音频帧对应的特征信息, 确定每路音频信号的特 征序列; 0084 不同的音频信号, 其特征信息, 包括过零率、 时域序列、 谱质心以及梅尔倒频谱系 说明书 4/15 页 8 CN 110085259 A 8 数(Mel-Frequency Cepstral Coefficients, MFCC)等均不同。 0085 本实施例中, 获取每路音频信号中每个音频帧对应的特征信息, 基于该特征信息, 确定每路音频信号的特征序列。 0086 S104、 根据特征序列, 计算相关函数序列; 0087 根据每路音频信号的特征序列, 计算需要比对的音频信号的相关函数序列, 本实 施例优选计算谱。
29、质心相关函数序列、 时域相关函数序列、 过零率相关函数序列和MFCC相关 函数序列。 0088 S105、 根据相关函数序列, 确定任意两路音频信号之间的延迟时间; 0089 根据谱质心相关函数序列、 时域相关函数序列、 过零率相关函数序列和MFCC相关 函数序列, 确定需要比对的任意两路音频信号之间的延迟时间。 0090 S106、 比较延迟时间与参考延迟时间的大小; 0091 比较延迟时间和参考延迟时间的大小, 如果延迟时间小于参考延迟时间, 则执行 S107; 0092 S107、 根据相关函数序列计算任意两路音频信号的相关系数; 0093 如果求得的延迟时间小于参考延迟时间, 说明需要。
30、比对的任意两路音频信号之间 不存在延迟或者延迟可以忽略不计, 然后根据谱质心相关函数序列、 时域相关函数序列、 过 零率相关函数序列和MFCC相关函数序列计算这两路音频信号的相关系数。 0094 S108、 若相关系数大于预设系数, 则确定至少两路音频信号为相同的信号。 0095 将相关系数与预设系数进行比对, 如果相关系数大于预设系数, 说明这两路比对 的音频信号是相同的; 0096 如果相关系数等于或者小于预设系数, 则说明这两路音频信号是不同的。 0097 本实施例的的音频比对方法, 包括接收需要比对的至少两路音频信号; 对每路音 频信号进行预处理, 使每路音频信号均包含M个音频帧; 基。
31、于每路音频信号中每个音频帧对 应的特征信息, 确定每路音频信号的特征序列; 根据特征序列, 计算相关函数序列; 根据相 关函数序列, 确定任意两路音频信号之间的延迟时间; 比较延迟时间与参考延迟时间的大 小; 若延迟时间小于参考延迟时间, 根据相关函数序列计算任意两路音频信号的相关系数; 若相关系数大于预设系数, 则确定至少两路音频信号为相同的信号。 本实施例提取需要比 对的音频信号的多个特征, 综合多个特征进行多维度比对, 因此即使在噪声较大、 干扰较大 的场合也能获得较高的正确率, 实用性高。 0098 图2是本发明的音频比对方法实施例二的流程图。 如图2所示, 本实施例的音频比 对方法具。
32、体可以包括如下步骤: 0099 S201、 接收需要比对的至少两路音频信号; 0100 该步骤的执行过程与图1所示的S101的执行过程相同, 此处不再赘述。 0101 S202、 分别重采样并取长度为N的采样序列; 0102 对需要比对的每路音频信号进行单声道处理, 重采样取长度为N的音频序列作为 采样序列, 其中, N为正整数。 本实施例优选比对两路音频信号, 采样序列可以分别为s1(n) 和s2(n)。 本实施例只是对本方案进行解释和说明, 并不限制需要比对的音频信号的路数。 0103 S203、 对每路采样序列进行预加重和归一化处理, 得到目标采样序列; 0104 对每路采样序列分别进行。
33、预加重和归一化处理, 进而得到与每路采样序列对应的 说明书 5/15 页 9 CN 110085259 A 9 目标采样序列。 0105 本实施例中, 对采样序列s1(n)和s2(n)进行预加重, 目的是对音频信号的高频部分 加重, 增加音频信号的高频分辨率, 通过有限长单位冲激响应(Finite Impulse Response, FIR)滤波器来实现, 具体地, 本实施例优选一阶高通FIR数字滤波器, 传递函数如下: 0106 H(z)1-az-1 0107 其中, a为预加重系数, 取值接近1。 0108 按照下式对预加重后的采样序列进行归一化: 0109 s(n)s(n)/215 01。
34、10 其中, s(n)代表预加重和归一化处理后的目标采样序列。 0111 S204、 对每路目标采样序列进行音频帧划分, 使每路目标采样序列包含M个音频 帧; 0112 对每路目标采样序列进行音频帧划分, 由于音频信号是一个连续的非平稳时变信 号, 不能采用常规的平稳非时变信号的方法分析, 需要将目标采样序列加窗分解为短时平 稳的帧信号, 为了最大限度的保留原始信号的信息, 本实施例的分帧的过程中采取重叠帧 的方式, 重叠率为50。 通过滑动窗函数与信号卷积加权分帧, 具体公式如下: 0113 s(n)s(n)*(l) 0114 其中, s(n)是目标采样序列, (l)是滑动卷积的窗函数, s。
35、w(n)是加窗分帧后的目 标采样序列。 0115 窗函数选择长度为L的汉明窗, 公式如下: 0116 0117 其中窗长L为分帧后的帧长, 取值为2的幂数方。 汉明窗可以有效地克服频谱泄露, 因为汉明窗的能量分布主要集中在频谱主瓣区域, 并且频谱衰减过渡带较宽, 旁瓣衰减更 大更缓和, 最后得到音频帧和每一路目标采样序列都会有个M音频帧。 0118 S205、 分别对每路音频信号中每个音频帧进行傅里叶变换, 得到初始谱质心; 0119 分别对每路音频信号中每个音频帧进行快速傅里叶变换转换到频域, 并且按照下 式计算频谱的初始谱质心: 0120 0121 其中C为初始谱质心, P(f)为频谱的能。
36、量, l和h分别为频谱的下限频率和上限频 率。 初始谱质心是频率成分的重心, 是音频信号的频率分布和能量分布的重要信息, 可以作 为一种可靠的音频特征。 0122 S206、 将初始谱质心归一化处理, 获取谱质心, 每路音频信号中每个音频帧的谱质 心组成每路谱质心序列; 0123 为了不使谱质心的值受到音频帧的选择影响, 将初始谱质心归一化处理, 获得谱 质心。 归一化处理的公式为: 0124 NCC-(h+l)/2(h+l) 0125 NC为归一化的谱质心, 将每路音频信号中每个音频帧的谱质心分别组成一个谱质 心序列, 该谱质心序列描述了采样序列的频率与能量的分布规律。 说明书 6/15 页。
37、 10 CN 110085259 A 10 0126 S207、 获取每路音频信号中每个音频帧对应的时域序列; 0127 获取每路音频信号中每个音频帧对应的时域序列。 0128 S208、 提取每路音频信号中每个音频帧的包络序列; 0129 过零率是音频信号时域分析中一种简单特征, 指信号通过零值的次数。 提取每路 音频信号中每个音频帧过零率前先要提取对应的包络, 分别对每路音频信号中每个音频帧 提取包络, 取音频帧序列的绝对值, 并将其通过切比雪夫滤波器。 具体地, 本实施例优选切 比雪夫I型低通滤波器。 切比雪夫滤波器在通带上频率响应幅度等波纹波动, 其频率与幅度 的关系如下: 0130 。
38、0131其中, | |1,是切比雪夫滤波器的截止频率0的放大 率, 参数设置为: 通带截止频率为20Hz, 阻带开始频率为50Hz, 通带最大衰减为3dB, 阻带最 小衰减为30dB。 0132 S209、 获取包络序列的过零率, 每路音频信号中每个音频帧的过零率组成每路过 零率序列; 0133 通过雪夫I型低通滤波器后再减去直流分量便得到音频帧的包络序列和, 每路信 号将分别得到M个包络序列, 然后按照下式来获得两个音频帧包络的过零率: 0134 0135 0136其中, Leff是包络序列和的长度,和为包络序列和 在Leff长度下的过零率, sgn为符号函数, 如下所示: 0137 013。
39、8 每路音频信号均有M个音频帧, 就会有M个音频帧包络序列, 因此求过零率会得到 两路音频信号的过零率序列Z1和Z2, 长度为M。 0139 S210、 对每路音频信号中每个音频帧进行快速傅立叶变换, 获取音频帧的频率谱; 0140 MFCC是利用人耳对音调感受呈非线性关系的特性来提高识别的准确率和稳定性 的, 先将线性频谱映射到基于听觉感知的梅尔Mel非线性频谱中, 然后转换到倒谱上。 0141首先计算音频帧的频率谱, 对音频帧进行快速傅里叶变换, 将时域数据和 转换成频域数据和 说明书 7/15 页 11 CN 110085259 A 11 0142 0143 其中, j为虚数单位, L为。
40、音频帧的长度, y(n)即为频谱。 0144 S211、 根据频率谱, 计算音频帧的幅度谱和离散功率谱; 0145 取频率谱y(n)的模, 得到幅度谱|y(n)|; 0146 取频率谱y(n)的模的平方得到离散功率谱|y(n)|2。 0147 S212、 将离散功率谱通过预设的Mel滤波器; 0148 按照下式求得音频帧的最大频率: 0149 0150其中, fs为音频信号的采样频率。 并求得最大的Mel频率为 0151 按照下式求得频带带宽: 0152 0153 Mel也是三角滤波器的宽度。 由此得到K个三角滤波器的中心频率f(i)。 0154 将得到的离散功率谱|y(n)|2通过设定好三角。
41、滤波器组, 该滤波器组在Mel频率 轴上是一组跨度相同的对称三角形, 滤波器的个数为K, 滤波器组在线性频率轴上的特性函 数如下式: 0155 0156 其中, f(i)为滤波器组的中心频率。 设o(l), c(l)和h(l)为第l个三角形滤波器的 下限、 中心、 和上限频率, 则相邻三角形滤波器之间的下限、 中心、 上限频率关系如下: 0157 c(l)h(l-1)o(l+1) 0158 S213、 根据幅度谱求得Mel滤波器的输出; 0159 根据音频帧的幅度谱|y(n)|求每个三角滤波器的输出: 0160 0161 0162 S214、 将三角滤波器的输出取对数, 将该对数作离散余弦变换。
42、, 得到每路音频信号 中每个音频帧对应的MFCC, 每路音频信号中每个音频帧的所述MFCC组成每路MFCC序列; 0163 对所有的滤波器输出作对数, 并将该对数作离散余弦变换(Discrete Cosine Transform, DCT)得到一组系数, 去掉直流分量后即可得到每帧MFCC, 具体计算公式如下: 说明书 8/15 页 12 CN 110085259 A 12 0164 0165 n为每帧需要提取的MFCC特征参数个数, 本实施例优选取12。 每个音频信号总共被 分成M个音频帧, 本实施例优选的两路音频总共会获得MFCC参数序列如下: 0166 0167 0168其中, 为第一路。
43、音频帧的MFCC, 为第二路音频帧的MFCC, C1和C2为两路的MFCC 参数序列, 长度为M*12。 0169 具体地, 本实施例并不限制S205-S206、 S207、 S208-S209与S210-S214之间的执行 顺序。 0170 S215、 分别与对每路特征序列进行离散傅里叶变换, 得到第一中间序列和第二中 间序列; 0171 求得谱质心序列、 时域序列、 过零率序列和MFCC序列等特征序列后, 可以根据特征 序列, 计算相关函数序列。 本实施例中, 需要计算谱质心序列相关函数、 时域序列相关函数、 过零率序列相关函数和MFCC序列相关函数。 0172 本实施例中, 可以分别对谱。
44、质心序列、 时域序列、 过零率序列和MFCC序列等特征序 列进行离散傅里叶变换, 得到第一中间序列和第二中间序列; 0173 对于谱质心序列, 按照下式, 分别对需要比对的两谱质心序列进行离散傅里叶变 换得到第一中间序列XA和第二中间序列XB: 0174 0175 其中, s(n)是音频信号序列, X是离散傅里叶变换后的音频序列。 0176 时域序列、 过零率序列和MFCC序列的计算方式与谱质心序列的计算方式相同, 此 处不再赘述。 0177 S216、 获取第一中间序列的复数共轭, 将复数共轭与第二中间序列逐元素相乘得 到第三中间序列; 0178 得到第一中间序列和第二中间序列之后, 获取第。
45、一中间序列的复数共轭, 将复数 共轭与第二中间序列逐元素相乘得到第三中间序列。 0179 具体地, 对于谱质心序列, 计算方式为: 0180 XCXAXB* 0181 其中, *表示取复数共轭, XC为第三中间序列。 0182 时域序列、 过零率序列和MFCC序列的计算方式与谱质心序列的计算方式相同, 此 处不再赘述。 0183 S217、 对第三中间序列进行逆离散傅里叶变换, 得到中间相关函数序列; 0184 得到第三中间序列后, 对第三中间序列进行逆离散傅里叶变换, 得到中间相关函 数序列: 0185 具体地, 对于谱质心序列, 计算方式为: 0186 对第三中间序列XC进行逆离散傅里叶变。
46、换: 说明书 9/15 页 13 CN 110085259 A 13 0187 0188 x(n)为谱质心中间相关函数序列。 0189 时域序列、 过零率序列和MFCC序列的计算方式与谱质心序列的计算方式相同, 此 处不再赘述。 0190 S218、 将中间相关函数序列的第一部分与第二部分重新拼接, 得到相关函数序列; 0191 得到中间相关函数序列之后, 将中间相关函数序列的第一部分与第二部分重新拼 接, 得到相关函数序列。 具体地, 优选相关函数序列的第一部分为相关函数序列的前半部 分, 相关函数序列的第二部分为相关函数序列的后半部分。 本实施例中, 对中间相关函数序 列重新进行排序, 取。
47、出后半部分与前半部分重新拼接, 得到相关函数序列, 相关函数序列可 以表征两个谱质心序列的相似情况。 0192 具体地, 对于谱质心序列, 得到谱质心中间相关函数序列之后, 对谱质心中间相关 函数序列重新进行排序, 取出后半部分与前半部分重新拼接, 得到谱质心相关函数序列; 0193 再按照下式, 对谱质心相关函数序列进行归一化处理: 0194 0195 其中,等号左侧的x1是谱质心相关函数序列, 等号右侧的x1和x2是两路音频信号, 归一化后的相关函数取值范围为01。 0196 时域序列、 过零率序列和MFCC序列的计算方式与谱质心序列的计算方式相同, 此 处不再赘述, 最终得到时域相关函数。
48、序列x2、 过零率相关函数序列x3和MFCC相关函数序列 x4。 0197 S219、 获取谱质心相关函数序列的第一最大位置和第一中点位置, 求得第一最大 位置和第一中点位置的第一差值, 将第一差值乘以音频信号的采样频率, 获得第一延迟时 间; 0198 求得谱质心相关函数序列后, 获取谱质心相关函数序列的第一最大位置和第一中 点位置, 将第一最大位置和第一中点位置做差, 求得第一差值, 将第一差值乘以音频信号的 采样频率, 获得第一延迟时间, 计算式如下: 0199 td1fs*(Nmax-Nmin|) 0200 其中td1为延迟时间, fs为音频信号的采样频率, Nmax和Nmin分别为相。
49、关函数第一最 大位置和第一中间位置, 如果两个序列没有延迟, 那么相关函数第一最大位置就在相关函 数的中点, 如果存在延迟, 那么第一最大位置会发生偏移。 0201 S220、 获取过零率相关函数序列的第二最大位置和第二中点位置, 求得第二最大 位置和第二中点位置的第二差值, 将第二差值乘以采样频率, 获得第二延迟时间; 0202 第二延迟时间td2的计算方式与第一延迟时间td1的计算方式相同, 此处不做赘述。 0203 S221、 获取MFCC相关函数序列的第三最大位置和第三中点位置, 求得第三最大位 置和第三中点位置的第三差值, 将第三差值乘以采样频率, 获得第三延迟时间; 0204 第三。
50、延迟时间td3的计算方式与第一延迟时间td1的计算方式相同, 此处不做赘述。 0205 S222、 计算第一延迟时间、 第二延迟时间和第三延迟时间的平均值, 将该平均值作 说明书 10/15 页 14 CN 110085259 A 14 为延迟时间; 0206 获取第一延迟时间td1、 第二延迟时间td2和第三延迟时间td3后, 计算第一延迟时间 td1、 第二延迟时间td2和第三延迟时间td3的平均值: 0207 0208 其中, tdelay即为两路音频信号的延迟时间。 0209 具体地, 本实施例并不限定S219、 S220、 S221和S222之间的执行顺序。 0210 S223、 比。
- 内容关键字: 音频 方法 装置 设备
台灯.pdf
用于针织纱筒的寻纱吸纱机构.pdf
流延机色母添加装置.pdf
隔砖装置.pdf
拼装式棚盖和棚顶.pdf
在线留孔推砖装置.pdf
染色机印染染料连续定量化料配送系统.pdf
往复式珠片排片机.pdf
应用于波码分注井的轮注配水器.pdf
建筑工程用筛沙装置.pdf
低压维持电磁阀.pdf
应用于化工生产的液态物料计量检测装置.pdf
车辆尾部自行车携带挂架.pdf
连续化液氨中和水处理系统.pdf
网络通信设备散热装置.pdf
混凝土原料输送装置.pdf
透过玻璃对涂层的热辐射进行测量的装置.pdf
电缆切割装置.pdf
两步法绿色糠醛生产装置.pdf
地坪研磨机齿轮箱体.pdf
桥梁巡检无人船浮筒组件.pdf
具有充电温度监测功能的车辆充电桩.pdf
建筑结构减震装置.pdf
道路桥梁养护检测设备运输用防护机构.pdf
义齿加工用检测装置.pdf
具有防倾倒结构的面积测量仪.pdf
薄壁形钛合金铸件补焊防变形装置.pdf
直流脉冲氩弧焊机.pdf
车身部件质量模型的生成式数据增强方法、系统及设备.pdf
消融针快速拆装夹持结构及其穿刺装置.pdf
减小通态损耗的零开关损耗非隔离逆变电路及调制方法.pdf
深海钢管桩脱离回收装置及施工方法.pdf
一种具有抗癌作用的含冬凌草总萜的乳剂.pdf
一种奶圆的制作方法.pdf
一种仙人掌果果酱及其制备方法.pdf
基于锶化合物的抗炎组合物.pdf
外用中药袋.pdf
一种思茅松人工授粉方法.pdf
使用免疫调节性化合物用于治疗和控制癌症和其它疾病的方法及组合物.pdf
抑制脂肪霜的食品组合物及方法.pdf
水产品保鲜剂.pdf
一种用于治疗痛风的保健品及其制备方法.pdf
治疗或预防心脑血管疾病的药物制剂.pdf
一种面向闭锁式立体育秧平台的智能化气流调控系统.pdf
一种营养水饺馅料.pdf
治疗痔疮的中药.pdf
一种便携式育苗装置.pdf
一种治疗脉管炎的毛冬青提取物及其制剂.pdf
一种治疗急慢性肺炎的药物组合物及其制备方法和用途.pdf
一种下料均匀的农业施肥设备.pdf
以铁皮石斛汁液为载体制备一种桑黄生物饮品.pdf