音频分类模型的训练方法、音频的分类方法及装置.pdf

上传人:g**** 文档编号:10074899 上传时间:2021-06-03 格式:PDF 页数:15 大小:686.27KB
收藏 版权申诉 举报 下载
音频分类模型的训练方法、音频的分类方法及装置.pdf_第1页
第1页 / 共15页
音频分类模型的训练方法、音频的分类方法及装置.pdf_第2页
第2页 / 共15页
音频分类模型的训练方法、音频的分类方法及装置.pdf_第3页
第3页 / 共15页
文档描述:

《音频分类模型的训练方法、音频的分类方法及装置.pdf》由会员分享,可在线阅读,更多相关《音频分类模型的训练方法、音频的分类方法及装置.pdf(15页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010673260.0 (22)申请日 2020.07.14 (71)申请人 普联技术有限公司 地址 518000 广东省深圳市南山区深南路 科技园工业厂房24栋南段1层、 3-5层、 28栋北段1-4层 (72)发明人 何维祯 (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 黄诗彬郝传鑫 (51)Int.Cl. G10L 25/30(2013.01) G10L 25/27(2013.01) G10L 25/48(2013.01) (54)发明名称。

2、 一种音频分类模型的训练方法、 音频的分类 方法及装置 (57)摘要 本发明公开了一种音频分类模型的训练方 法, 包括: 根据预设的高斯概率模型对预先采集 的音频样本集中的音频数据进行计算, 得到音频 的训练集; 将所述音频的训练集中的音频数据进 行傅里叶变换得到对应的频谱; 将所述频谱输入 至预设的GRU神经网络中进行后向传播训练, 直 至损失收敛, 以得到训练完成的音频分类模型。 本发明实施例还公开了一种音频的分类方法及 装置, 能有效解决现有技术由于环境噪音的影响 经常出现误检的问题。 权利要求书2页 说明书8页 附图4页 CN 111916107 A 2020.11.10 CN 111。

3、916107 A 1.一种音频分类模型的训练方法, 其特征在于, 包括: 根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算, 得到音频 的训练集; 其中, 所述音频的训练集包括: 去噪后的音频数据; 将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱; 将所述频谱输入至预设的GRU神经网络中进行后向传播训练, 直至损失收敛, 以得到训 练完成的音频分类模型。 2.如权利要求1所述的音频分类模型的训练方法, 其特征在于, 所述根据预设的高斯概 率模型对预先采集的音频样本集中的音频数据进行计算, 得到音频的训练集, 具体包括: 计算每一帧所述音频样本集中的音频数据的音频特征。

4、; 根据所述高斯概率模型分别对每一音频特征进行拟合, 以得到对应的背景噪声的幅度 谱; 将所述每一帧所述音频样本集中的音频数据的幅度谱与对应的背景噪声的幅度谱做 差得到第一音频幅度谱, 并保存至所述音频的训练集。 3.如权利要求2所述的音频分类模型的训练方法, 其特征在于, 所述音频特征包括: 基频以及短时能量; 则对应地, 所述根据所述高斯概率模型分别对每一音频特征进行拟合, 以得到对应的 背景噪声的幅度谱, 具体包括: 根据所述高斯概率模型分别对基频以及短时能量进行拟合, 分别得到所述基频对应的 第一高斯分布曲线及所述短时能量对应的第二高斯分布曲线; 通过所述第一高斯分布曲线得到基频的范围。

5、, 所述第二高斯分布曲线得到短时能量的 范围; 根据所述基频的范围以及所述短时能量的范围拟合出对应的背景噪声的幅度谱。 4.如权利要求1所述的音频分类模型的训练方法, 其特征在于, 在所述根据预设的高斯 概率模型对预先采集的音频样本集中的音频数据进行计算, 得到音频的训练之前, 还包括: 对采集的原音频数据进行预处理得到所述音频样本集。 5.如权利要求1所述的音频分类模型的训练方法, 其特征在于, 在根据预设的高斯概率 模型对预先采集的音频样本集中的音频数据进行计算, 得到音频的训练集之后, 在所述将 所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱之前, 还包括: 对所述音频的训练集。

6、中的音频数据依次进行分帧处理、 加窗处理及重叠处理。 6.一种音频的分类方法, 其特征在于, 包括: 获取待处理的音频数据, 并计算所述待处理的音频数据对应的幅度谱; 将所述待处理的音频数据输入至训练完成的音频分类模型, 计算得到对应的音频分类 结果; 其中, 所述训练完成的音频分类模型包括: 根据预设的高斯概率模型对预先采集的音 频样本集中的音频数据进行计算, 得到音频的训练集; 将所述音频的训练集输入至预设的 GRU神经网络中进行后向传播训练, 直至损失收敛, 以得到训练完成的音频分类模型。 7.如权利要求6所述的音频的分类方法, 其特征在于, 所述将所述待处理的音频数据输 入至训练完成的。

7、音频分类模型, 计算得到对应的音频分类结果, 具体包括: 计算待处理的音频数据的音频特征; 根据所述高斯概率模型分别对每一音频特征进行拟合, 以得到对应的背景噪声的幅度 权利要求书 1/2 页 2 CN 111916107 A 2 谱; 将所述待处理的音频数据对应的幅度谱与所述背景噪声的幅度谱做差, 得到第一音频 幅度谱; 根据所述第一音频幅度谱输入至预设的GRU神经网络中, 计算得到对应的音频分类结 果。 8.如权利要求6所述的音频的分类方法, 其特征在于, 在将所述待处理的音频数据输入 至训练完成的音频分类模型, 计算得到对应的音频分类结果, 之后还包括: 响应于接收到音频分类的提示指令,。

8、 则根据所述音频分类结果发出对应的提示信息。 9.一种音频分类模型的训练装置, 其特征在于, 包括: 去噪模块, 用于根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行 计算, 得到音频的训练集; 其中, 所述音频的训练集包括: 去噪后的音频数据; 计算模块, 用于将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱; 训练模块, 用于将所述频谱输入至预设的GRU神经网络中进行后向传播训练, 直至损失 收敛, 以得到训练完成的音频分类模型。 10.一种音频的分类装置, 其特征在于, 包括: 获取模块, 用于获取待处理的音频数据, 并计算所述待处理的音频数据对应的幅度谱; 分类模。

9、块, 用于将所述待处理的音频数据输入至训练完成的音频分类模型, 计算得到 对应的音频分类结果; 其中, 所述训练完成的音频分类模型包括: 根据预设的高斯概率模型 对预先采集的音频样本集中的音频数据进行计算, 得到音频的训练集; 将所述音频的训练 集输入至预设的GRU神经网络中进行后向传播训练, 直至损失收敛, 以得到训练完成的音频 分类模型。 权利要求书 2/2 页 3 CN 111916107 A 3 一种音频分类模型的训练方法、 音频的分类方法及装置 技术领域 0001 本发明涉及音频分类技术领域, 尤其涉及一种音频分类模型的训练方法、 音频的 分类方法及装置。 背景技术 0002 随着智。

10、能家庭设备的普及, 现代家庭中对家庭安全和生活方便舒适度的要求越来 越高, 而智能家庭设备上关于音频的分类与识别功能会大大提高家庭的安全度与生活方便 性, 例如家用摄像头的婴儿哭声检测, 老人摔倒声音报警, 语音识别, 人机交互等功能。 因 此, 各种音频的分类检测技术正在成为智能家居(IoT)中的关键性技术。 0003 常见的音频分类方法主要时模板匹配法和基于特征提取的机器学习方法, 模板匹 配法是基于概率的语言模型模拟音频分布的方法型。 但实际条件中, 声音受到各种因素的 影响, 包括环境, 语速, 口语化等, 使得实际分布并不能很好的符合高斯分布, 因此采用该种 方法的准确率难以有保障。。

11、 而基于特征提取的机器学习方法, 非常依赖训练集的好坏。 但实 际应用中, 很难包含如此多的音频种类, 因此该种方法的适用性并不是很广泛。 且上述两种 方法受环境噪音的影响都非常大, 由于环境噪音的影响经常出现误检问题。 发明内容 0004 本发明实施例提供一种音频分类模型的训练方法、 音频的分类方法及装置, 能有 效解决现有技术由于环境噪音的影响经常出现误检的问题。 0005 本发明一实施例提供一种音频分类模型的训练方法, 包括: 0006 根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算, 得到 音频的训练集; 其中, 所述音频的训练集包括: 去噪后的音频数据; 0007 。

12、将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱; 0008 将所述频谱输入至预设的GRU神经网络中进行后向传播训练, 直至损失收敛, 以得 到训练完成的音频分类模型。 0009 作为上述方案的改进, 所述根据预设的高斯概率模型对预先采集的音频样本集中 的音频数据进行计算, 得到音频的训练集, 具体包括: 0010 计算每一帧所述音频样本集中的音频数据的音频特征; 0011 根据所述高斯概率模型分别对每一音频特征进行拟合, 以得到对应的背景噪声的 幅度谱; 0012 将所述每一帧所述音频样本集中的音频数据的幅度谱与对应的背景噪声的幅度 谱做差得到第一音频幅度谱, 并保存至所述音频的训。

13、练集。 0013 作为上述方案的改进, 所述音频特征包括: 基频以及短时能量; 0014 则对应地, 所述根据所述高斯概率模型分别对每一音频特征进行拟合, 以得到对 应的背景噪声的幅度谱, 具体包括: 0015 根据所述高斯概率模型分别对基频以及短时能量进行拟合, 分别得到所述基频对 说明书 1/8 页 4 CN 111916107 A 4 应的第一高斯分布曲线及所述短时能量对应的第二高斯分布曲线; 0016 通过所述第一高斯分布曲线得到基频的范围, 所述第二高斯分布曲线得到短时能 量的范围; 0017 根据所述基频的范围以及所述短时能量的范围拟合出对应的背景噪声的幅度谱。 0018 作为上述。

14、方案的改进, 在所述根据预设的高斯概率模型对预先采集的音频样本集 中的音频数据进行计算, 得到音频的训练之前, 还包括: 0019 对采集的原音频数据进行预处理得到所述音频样本集。 0020 作为上述方案的改进, 在根据预设的高斯概率模型对预先采集的音频样本集中的 音频数据进行计算, 得到音频的训练集之后, 在所述将所述音频的训练集中的音频数据进 行傅里叶变换得到对应的频谱之前, 还包括: 0021 对所述音频的训练集中的音频数据依次进行分帧处理、 加窗处理及重叠处理。 0022 本发明另一实施例提供了一种音频的分类方法, 包括: 0023 获取待处理的音频数据, 并计算所述待处理的音频数据对。

15、应的幅度谱; 0024 将所述待处理的音频数据输入至训练完成的音频分类模型, 计算得到对应的音频 分类结果; 其中, 所述训练完成的音频分类模型包括: 根据预设的高斯概率模型对预先采集 的音频样本集中的音频数据进行计算, 得到音频的训练集; 将所述音频的训练集输入至预 设的GRU神经网络中进行后向传播训练, 直至损失收敛, 以得到训练完成的音频分类模型。 0025 作为上述方案的改进, 所述将所述待处理的音频数据输入至训练完成的音频分类 模型, 计算得到对应的音频分类结果, 具体包括: 0026 计算待处理的音频数据的音频特征; 0027 根据所述高斯概率模型分别对每一音频特征进行拟合, 以得。

16、到对应的背景噪声的 幅度谱; 0028 将所述待处理的音频数据对应的幅度谱与所述背景噪声的幅度谱做差, 得到第一 音频幅度谱; 0029 根据所述第一音频幅度谱输入至预设的GRU神经网络中, 计算得到对应的音频分 类结果。 0030 作为上述方案的改进, 在将所述待处理的音频数据输入至训练完成的音频分类模 型, 计算得到对应的音频分类结果, 之后还包括: 0031 响应于接收到音频分类的提示指令, 则根据所述音频分类结果发出对应的提示信 息。 0032 本发明另一实施例提供了一种音频分类模型的训练装置, 包括: 0033 去噪模块, 用于根据预设的高斯概率模型对预先采集的音频样本集中的音频数据。

17、 进行计算, 得到音频的训练集; 其中, 所述音频的训练集包括: 去噪后的音频数据; 0034 计算模块, 用于将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频 谱; 0035 训练模块, 用于将所述频谱输入至预设的GRU神经网络中进行后向传播训练, 直至 损失收敛, 以得到训练完成的音频分类模型。 0036 本发明另一实施例提供了一种音频的分类装置, 包括: 0037 获取模块, 用于获取待处理的音频数据, 并计算所述待处理的音频数据对应的幅 说明书 2/8 页 5 CN 111916107 A 5 度谱; 0038 分类模块, 用于将所述待处理的音频数据输入至训练完成的音频分类模型。

18、, 计算 得到对应的音频分类结果; 其中, 所述训练完成的音频分类模型包括: 根据预设的高斯概率 模型对预先采集的音频样本集中的音频数据进行计算, 得到音频的训练集; 将所述音频的 训练集输入至预设的GRU神经网络中进行后向传播训练, 直至损失收敛, 以得到训练完成的 音频分类模型。 0039 与现有技术相比, 本发明实施例公开的音频分类模型的训练方法、 音频的分类方 法及装置, 通过先根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计 算, 以对音频样本集中的音频数据进行去噪处理, 从而得到音频的训练集, 再将音频的训练 集中的音频数据进行傅里叶变换得到对应的频谱, 并输入至预设。

19、的GRU神经网络中进行后 向传播训练, 直至损失收敛, 以得到训练完成的音频分类模型。 这样, 由于先对预先采集的 音频样本集中的音频数据进行去噪处理, 降低了环境噪声对音频数据的影响, 使得训练集 中的音频数据更加准确, 从而音频分类模型的分类结果更加准确, 进而可以更好的识别音 频的种类。 附图说明 0040 图1是本发明一实施例提供的一种音频分类模型的训练方法的流程示意图; 0041 图2是本发明一实施例提供的GRU神经网络的示意图; 0042 图3是本发明一实施例提供的一种音频分类模型的训练方法中的步骤S10的流程 示意图; 0043 图4是本发明一实施例提供的一种音频的分类方法的流程。

20、示意图; 0044 图5是本发明一实施例提供的一种音频的分类方法中的步骤S20 的流程示意图; 0045 图6是本发明一实施例提供的一种音频分类模型的训练装置的结构示意图; 0046 图7是本发明一实施例提供的一种音频的分类装置的结构示意图。 具体实施方式 0047 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0048 参见图1, 是本发明一实施例提供的一种。

21、音频分类模型的训练方法的流程示意图。 0049 本发明一实施例提供一种音频分类模型的训练方法, 包括: 0050 S10,根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算, 得到音频的训练集; 其中, 所述音频的训练集包括: 去噪后的音频数据。 0051 需要说明的是, 目前的环境中, 噪声的来源有很多, 是很多不同来源的噪音复合 体, 其经过大量的统计之后, 分布趋近于高斯分布, 因此采用高斯概率模型进行去噪。 0052 在本实施例中, 若采集的当前环境中的音频为M分钟, 将这M分钟声音分为N秒一 段, 重叠为1/4N秒, 以形成预先采集的音频样本集。 可以理解的是, 采集的。

22、原始音频均按此 方式进行处理。 说明书 3/8 页 6 CN 111916107 A 6 0053 具体地, 通过高斯概率模型对音频数据的音频特征进行拟合, 从而得到背景噪声 的高斯分布曲线, 从而得到去噪后的音频数据。 0054 S20,将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱。 0055 在本实施例中, 使用scipy和numpy等方式均可实现快速傅里叶变换, 从而得到音 频数据对应的频谱, 从而可以输入至GRU神经网络进行训练, 进而得到音频分类模型, 更好 对音频数据进行分类。 0056 S30,将所述频谱输入至预设的GRU神经网络中进行后向传播训练, 直至损失收敛,。

23、 以得到训练完成的音频分类模型。 0057 需要说明的是, 参见图2, GRU神经网络包括两个门: 更新门和重置门(图中的zt和 rt分别表示更新门和重置门)。 更新门用于控制前一时刻的状态信息被带入到当前状态中 的程度, 更新门的值越大说明前一时刻的状态信息带入越多。 重置门控制前一状态有多少 信息被写入到当前的候选集htht上, 重置门越小, 前一状态的信息被写入的越少。 0058 具体地, 将频谱输入至预设的GRU神经网络中采用后向传播进行训练, 对各个参数 进行求偏导, 更新参数矩阵, 一直迭代直到损失收敛。 在本实施例中, 以损失函数最小为目 标进行学习最后得到模型, 进行保存。 0。

24、059 综上所述, 通过先根据预设的高斯概率模型对预先采集的音频样本集中的音频数 据进行计算, 以对音频样本集中的音频数据进行去噪处理, 从而得到音频的训练集, 再将音 频的训练集中的音频数据进行傅里叶变换得到对应的频谱, 并输入至预设的GRU神经网络 中进行后向传播训练, 直至损失收敛, 以得到训练完成的音频分类模型。 这样, 由于先对预 先采集的音频样本集中的音频数据进行去噪处理, 降低了环境噪声对音频数据的影响, 使 得训练集中的音频数据更加准确, 从而音频分类模型的分类结果更加准确, 进而可以更好 的识别音频的种类。 而且训练好的音频分类模型鲁棒性、 泛化性较好, 对音频数据集依赖程 。

25、度低, 可以在较小规模的数据集上训练出较好的音频分类结果。 0060 作为上述方案的改进, 所述根据预设的高斯概率模型对预先采集的音频样本集中 的音频数据进行计算, 得到音频的训练集, 步骤S10具体包括: 0061 S100, 计算每一帧所述音频样本集中的音频数据的音频特征。 0062 参见图3, 其中, 音频特征包括: 基频以及短时能量, 还可以包括: 短时功率、 短时过 零率等。 0063 S101, 根据所述高斯概率模型分别对每一音频特征进行拟合, 以得到对应的背景 噪声的幅度谱。 0064 具体地, 计算得到音频特征后, 对每个音频特征进行拟合, 得到对应的高斯分布, 并根据其高斯分。

26、布得到对应的背景噪声的幅度谱。 0065 S102, 将所述每一帧所述音频样本集中的音频数据的幅度谱与对应的背景噪声的 幅度谱做差得到第一音频幅度谱, 并保存至所述音频的训练集。 0066 具体地, 音频数据进行傅里叶变换之后转换为频谱, 而频谱包括相位谱和幅度谱。 将原始的幅度谱与背景噪声的幅度谱做差即可得到第一音频数据, 即去噪后的音频数据, 避免了训练集中的音频数据中存在噪声的干扰。 0067 在本实施例中, 所述音频特征包括: 基频以及短时能量。 0068 则对应地, 所述根据所述高斯概率模型分别对每一音频特征进行拟合, 以得到对 说明书 4/8 页 7 CN 111916107 A 。

27、7 应的背景噪声的幅度谱, S101, 具体包括: 0069 S1010, 根据所述高斯概率模型分别对基频以及短时能量进行拟合, 分别得到所述 基频对应的第一高斯分布曲线及所述短时能量对应的第二高斯分布曲线。 0070 S1011, 通过所述第一高斯分布曲线得到基频的范围, 所述第二高斯分布曲线得到 短时能量的范围。 0071 S1012, 根据所述基频的范围以及所述短时能量的范围拟合出对应的背景噪声的 幅度谱。 0072 在本实施例中, 计算每一帧音频的基频和短时能量, 分别存入基频特征的数据队 列及短时能量特征的数据队列, 用高斯概率模型分别拟合基频和短时能量, 分别得到基频 的平均值、 。

28、基频的范围、 短时能量的平均值、 短时能量范围。 根据基频范围和短时能量范围 拟合出背景噪声幅度谱。 0073 作为上述方案的改进, 在所述根据预设的高斯概率模型对预先采集的音频样本集 中的音频数据进行计算, 得到音频的训练之前, 还包括: 0074 S9, 对采集的原音频数据进行预处理得到所述音频样本集。 0075 具体地, 将原音频数进行分帧加窗处理, 同时相邻两段音频保留预设时间的交叠, 防止频谱能量泄露, 同时保障频谱的连续性。 可以理解的是, 预设时间可以根据用户需要进 行设定, 在此不作限定。 0076 在本实施例中, 对每段信号分为20ms为一帧的音频段, 相邻两段音频保留5ms。

29、交 叠。 0077 作为上述方案的改进, 在根据预设的高斯概率模型对预先采集的音频样本集中的 音频数据进行计算, 得到音频的训练集之后, 在所述将所述音频的训练集中的音频数据进 行傅里叶变换得到对应的频谱之前, 还包括: 0078 对所述音频的训练集中的音频数据依次进行分帧处理、 加窗处理及重叠处理。 0079 在本实施例中, 将训练集中的音频数据分为若干类, 每一类收集40-60个5s的音 频, 再依次进行分帧处理、 加窗处理及重叠处理。 0080 参见图4, 是本发明一实施例提供的一种音频的分类方法的流程示意图。 0081 本发明一实施例提供了一种音频的分类方法, 包括: 0082 S10。

30、 , 获取待处理的音频数据, 并计算所述待处理的音频数据对应的幅度谱。 0083 具体地, 通过对待处理的音频数据进行傅里叶变换, 得到对应的频谱, 从而得到幅 度谱。 0084 S20 , 将所述待处理的音频数据输入至训练完成的音频分类模型, 计算得到对应 的音频分类结果; 其中, 所述训练完成的音频分类模型包括: 根据预设的高斯概率模型对预 先采集的音频样本集中的音频数据进行计算, 得到音频的训练集; 将所述音频的训练集输 入至预设的GRU神经网络中进行后向传播训练, 直至损失收敛, 以得到训练完成的音频分类 模型。 0085 需要说明的是, 音频分类可以为婴儿啼哭声、 人机交互声音等。 。

31、上述音频的分类方 法可以集成于电子设备的处理器中, 也可以作为外部芯片与电子设备相连接, 处理器以有 线或者无线的方式连接有采集环境声音的声音采集器, 例如麦克风等, 以对环境的声音进 行采集, 并将环境中的声音上传至处理器, 以使处理器对音频数据进行处理, 从而对音频数 说明书 5/8 页 8 CN 111916107 A 8 据进行分类。 0086 其中, 电子设备可以是桌上型计算机、 笔记本、 掌上电脑、 手机及云端服务器等计 算设备。 所述电子设备可包括, 但不仅限于, 处理器、 存储器。 例如电子设备还可以包括输入 输出设备、 网络接入设备、 总线等。 0087 本发明实施例公开了一。

32、种音频的分类方法, 通过训练完成的音频分类模型对待处 理的音频数据进行去噪分类, 降低了环境噪声对音频数据的影响, 由于训练好的音频分类 模型鲁棒性、 泛化性较好, 对音频数据集依赖程度低, 使得音频分类模型的分类结果更加准 确, 进而可以更好的识别音频的种类。 0088 参见图5, 作为上述方案的改进, 所述将所述待处理的音频数据输入至训练完成的 音频分类模型, 计算得到对应的音频分类结果, 步骤S20 , 具体包括: 0089 S200 , 计算待处理的音频数据的音频特征。 其中, 音频特征包括: 基频以及短时能 量。 0090 S201 , 根据所述高斯概率模型分别对每一音频特征进行拟合。

33、, 以得到对应的背景 噪声的幅度谱。 0091 S202 , 将所述待处理的音频数据对应的幅度谱与所述背景噪声的幅度谱做差, 得 到第一音频幅度谱。 0092 S203 , 根据所述第一音频幅度谱输入至预设的GRU神经网络中, 计算得到对应的 音频分类结果。 0093 在本实施例中, 对基频范围以及短时能量范围进行拟合得到背景噪声的幅度谱, 再与待处理的音频数据对应的幅度值做差得到去噪后的幅度值, 降低了噪声对分类结果的 干扰。 0094 作为上述方案的改进, 在将所述待处理的音频数据输入至训练完成的音频分类模 型, 计算得到对应的音频分类结果, 之后还包括: 0095 S30 , 响应于接收。

34、到音频分类的提示指令, 则根据所述音频分类结果发出对应的 提示信息。 0096 在本实施例中, 预先对音频的分类结果进行标记, 即不同的分类结果可以适配不 同的提示, 或者仅对标记的分类结果进行提示。 例如, 音频的分类结果为婴儿的啼哭声, 那 么此时发出提示指令, 可以通过蜂鸣器进行警报, 也可以通过短信息、 邮件或APP对用户进 行提示。 用户还可以根据需要对分类结果进行警报分级, 例如婴儿啼哭、 老人摔倒为一级, 其他为二级, 根据级别的不同设置不同的提示, 在此不作限定。 0097 参见图6, 是本发明一实施例提供的一种音频分类模型的训练装置的结构示意图。 0098 本发明一实施例提供。

35、了一种音频分类模型的训练装置, 包括: 0099 去噪模块10, 用于根据预设的高斯概率模型对预先采集的音频样本集中的音频数 据进行计算, 得到音频的训练集; 其中, 所述音频的训练集包括: 去噪后的音频数据。 0100 计算模块20, 用于将所述音频的训练集中的音频数据进行傅里叶变换得到对应的 频谱。 0101 训练模块30, 用于将所述频谱输入至预设的GRU神经网络中进行后向传播训练, 直 至损失收敛, 以得到训练完成的音频分类模型。 0102 本发明实施例提供了一种音频分类模型的训练装置, 通过先根据预设的高斯概率 说明书 6/8 页 9 CN 111916107 A 9 模型对预先采集。

36、的音频样本集中的音频数据进行计算, 以对音频样本集中的音频数据进行 去噪处理, 从而得到音频的训练集, 再将音频的训练集中的音频数据进行傅里叶变换得到 对应的频谱, 并输入至预设的GRU神经网络中进行后向传播训练, 直至损失收敛, 以得到训 练完成的音频分类模型。 这样, 由于先对预先采集的音频样本集中的音频数据进行去噪处 理, 降低了环境噪声对音频数据的影响, 使得训练集中的音频数据更加准确, 从而音频分类 模型的分类结果更加准确, 进而可以更好的识别音频的种类。 而且训练好的音频分类模型 鲁棒性、 泛化性较好, 对音频数据集依赖程度低, 可以在较小规模的数据集上训练出较好的 音频分类结果。。

37、 0103 作为上述方案的改进, 所述去噪模块10, 具体包括: 0104 计算音频特征模块, 用于计算每一帧所述音频样本集中的音频数据的音频特征。 0105 第一拟合模块, 用于根据所述高斯概率模型分别对每一音频特征进行拟合, 以得 到对应的背景噪声的幅度谱。 0106 第一处理模块, 用于将所述每一帧所述音频样本集中的音频数据的幅度谱与对应 的背景噪声的幅度谱做差得到第一音频幅度谱, 并保存至所述音频的训练集。 0107 为上述方案的改进, 所述装置, 还包括: 0108 预处理模块, 用于对采集的原音频数据进行预处理得到所述音频样本集。 0109 参见图7, 是本发明一实施例提供的一种音。

38、频的分类装置的结构示意图。 0110 本发明一实施例提供了一种音频的分类装置, 包括: 0111 获取模块10 , 用于获取待处理的音频数据, 并计算所述待处理的音频数据对应的 幅度谱。 0112 分类模块20 , 用于将所述待处理的音频数据输入至训练完成的音频分类模型, 计 算得到对应的音频分类结果; 其中, 所述训练完成的音频分类模型包括: 根据预设的高斯概 率模型对预先采集的音频样本集中的音频数据进行计算, 得到音频的训练集; 将所述音频 的训练集输入至预设的GRU神经网络中进行后向传播训练, 直至损失收敛, 以得到训练完成 的音频分类模型。 0113 本发明实施例公开了一种音频的分类装。

39、置, 通过训练完成的音频分类模型对待处 理的音频数据进行去噪分类, 降低了环境噪声对音频数据的影响, 由于训练好的音频分类 模型鲁棒性、 泛化性较好, 对音频数据集依赖程度低, 使得音频分类模型的分类结果更加准 确, 进而可以更好的识别音频的种类。 0114 其中, 所述音频的分类装置装置集成的模块/单元如果以软件功能单元的形式实 现并作为独立的产品销售或使用时, 可以存储在一个计算机可读取存储介质中。 基于这样 的理解, 本发明实现上述实施例方法中的全部或部分流程, 也可以通过计算机程序来指令 相关的硬件来完成, 所述的计算机程序可存储于一计算机可读存储介质中, 该计算机程序 在被处理器执行。

40、时, 可实现上述各个方法实施例的步骤。 其中, 所述计算机程序包括计算机 程序代码, 所述计算机程序代码可以为源代码形式、 对象代码形式、 可执行文件或某些中间 形式等。 所述计算机可读介质可以包括: 能够携带所述计算机程序代码的任何实体或装置、 记录介质、 U盘、 移动硬盘、 磁碟、 光盘、 计算机存储器、 只读存储器(ROM, Read-Only Memory)、 随机存取存储器(RAM, Random Access Memory)、 电载波信号、 电信信号以及软件 分发介质等。 说明书 7/8 页 10 CN 111916107 A 10 0115 需说明的是, 以上所描述的装置实施例仅。

41、仅是示意性的, 其中所述作为分离部件 说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以 不是物理单元, 即可以位于一个地方, 或者也可以分布到多个网络单元上。 可以根据实际的 需要选择其中的部分或者全部模块来实现本实施例方案的目的。 另外, 本发明提供的装置 实施例附图中, 模块之间的连接关系表示它们之间具有通信连接, 具体可以实现为一条或 多条通信总线或信号线。 本领域普通技术人员在不付出创造性劳动的情况下, 即可以理解 并实施。 0116 以上所述是本发明的优选实施方式, 应当指出, 对于本技术领域的普通技术人员 来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和润饰, 这些改进和润饰也视为 本发明的保护范围。 说明书 8/8 页 11 CN 111916107 A 11 图1 图2 说明书附图 1/4 页 12 CN 111916107 A 12 图3 图4 说明书附图 2/4 页 13 CN 111916107 A 13 图5 图6 说明书附图 3/4 页 14 CN 111916107 A 14 图7 说明书附图 4/4 页 15 CN 111916107 A 15 。

展开阅读全文
内容关键字: 音频 分类 模型 训练 方法 装置
关于本文
本文标题:音频分类模型的训练方法、音频的分类方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10074899.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1