基于改进自注意力机制与跨频带特征的音频音源分离方法.pdf

上传人：柴****2 文档编号：9299012 上传时间：2021-05-12 格式：PDF 页数：15 大小：845.13KB

收藏版权申诉举报下载

第1页 / 共15页

第2页 / 共15页

第3页 / 共15页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《基于改进自注意力机制与跨频带特征的音频音源分离方法.pdf》由会员分享，可在线阅读，更多相关《基于改进自注意力机制与跨频带特征的音频音源分离方法.pdf（15页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010048185.9 (22)申请日 2020.01.16 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人李泽超唐金辉黄毅 (74)专利代理机构南京理工大学专利中心 32203 代理人马鲁晋 (51)Int.Cl. G10L 21/028(2013.01) G10L 21/0272(2013.01) G10L 25/27(2013.01) G06N 3/08(2006.01) G06N 3/04(2006.01)。

2、 (54)发明名称基于改进自注意力机制与跨频带特征的音频音源分离方法 (57)摘要本发明公开了一种基于改进自注意力机制与跨频带特征的音频音源分离方法，包括以下步骤：训练集数据准备，包括混合音频数据以及混合音频数据中待分离的目标音源音频数据；将音频数据均转换为音频的时频谱，记为全频带时频谱；构建若干个满足跨频带特征约束的划分策略；基于每个划分策略分别对全频带时频谱的频带进行划分，获得该划分策略对应的若干子频带；基于每个划分策略构建深度神经网络；训练深度神经网络和最小方差滤波器；利用训练后的深度神经网络和最小方差滤波器处理待进行音源分离的混合音频，。

3、输出预测的目标音频信号。本发明方法具有很好的性能和进度，泛化性好，更适用于音频音源分离任务，且分离出的目标音源音频质量更好。权利要求书3页说明书8页附图3页 CN 111261186 A 2020.06.09 CN 111261186 A 1.一种基于改进自注意力机制与跨频带特征的音频音源分离方法，其特征在于，包括以下步骤：步骤1，训练集数据准备，所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据；步骤2，将训练集中的音频数据均转换为音频的时频谱，记为全频带时频谱；步骤3，构建若干个满足跨频带特征约束的划分策略；步骤4，基于每。

4、个所述划分策略分别对全频带时频谱的频带进行划分，获得该划分策略对应的若干子频带；步骤5，基于每个所述划分策略构建深度神经网络；步骤6，训练所述深度神经网络；步骤7，训练最小方差滤波器；步骤8，利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号。 2.根据权利要求1所述的基于改进自注意力机制与跨频带特征的音频音源分离方法，其特征在于，步骤2具体利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱。 3.根据权利要求1或2所述的基于改进自注意力机制与跨频带特征的音频音源分离方法，其特征在于，步骤。

5、3中所述构建若干个满足跨频带特征约束的划分策略，具体包括：假设全频带时频谱为SRnm，其中n为所述短时傅里叶变换操作中频率方向的采样数， m为时间方向的帧数，定义符号G表示对应于全频带时频谱S的频带离散区间；采用个划分策略，将S划分为复数个子频带时频谱， 0；所述跨频带特征的定义包括：定义第l个划分策略对应的子频带时频谱集合Cl：式中， Cl为一个有序集合，且以LEFT(Gli)升序排序， LEFT(x)表示区间x的左端点值， Gli 为表示Cl集合中的第i个子频带区间元素， ml表示Cl集合中元素的个数；定义频带边界集合Dl： Dlbli|bliRIGHT(Fli)。

6、,i1,2.,ml-1 式中， RIGHT(x)表示区间x的右端点值；定义最小边界重叠大小zN， N表示自然数集合；基于上述定义构建服从以下跨频带特征约束的划分策略：对于有bpiGqj 同时对于都有且bpi-LEFT(Gqj)z,RIGHT(Gqj)-bpiz 其中， 1p ,1imp-1， qp,1q ,1jmq， i i,1i mp-1。 4.根据权利要求3所述的基于改进自注意力机制与跨频带特征的音频音源分离方法，其特征在于，步骤5基于每个所述划分策略构建深度神经网络，具体包括：权利要求书 1/3 页 2 CN 111261186 A 2 (1)对于每一个划分策略，构建。

7、相应的卷积神经子网络为：式中， NETl表示第l个划分策略对应的子卷积神经网络集合，表示第l个划分策略中的第i个子卷积神经网络， i1,2,ml， c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数，即尺度；其中，的结构定义为：式中， Upsample()表示上采样层， Concat()表示连接操作， Qk(I)Downsample (DenseBlockk1(I),k1,2.c， k表示第k个尺度， Downsample()表示下采样层， I表示子卷积神经网络的输入， Wk表示1x1卷积层， Attentionk(X)表示以平坦化特征图X为输入的改进的自注意力层。

8、， Xx1,x2,xNRCN,NWH， C、 W、 H分别表示在平坦化之前特征图X 在不同维度上的尺寸大小， k为一个可训练的标量，其初始值为0， DenseBlock()表示 DenseNet中的Dense Block；其中， Attention(X)Res( 1s+ 2cT+X)RCWH 式中， Res()表示重塑操作，也即是维度变换操作， 1和 2均为可训练的标量变量，初始值为0，用于指示注意力特征的可信度； s表示空间注意力特征图， sRCNs1,s2,., sN， c表示通道注意力特征图， cRNCc1,c2,.,cC，其中si、 ci分别为：式中，以及均表示1x1卷。

9、积层， (2)构建处理全频带时频谱的卷积神经网络该网络的结构与上述的结构相同，但该网络的输入为全频带时频谱。 5.根据权利要求4所述的基于改进自注意力机制与跨频带特征的音频音源分离方法，其特征在于，所述上采样层的网络结构为插值上采样层与1x1卷积层的组合。 6.根据权利要求5所述的基于改进自注意力机制与跨频带特征的音频音源分离方法，其特征在于，步骤6训练所述深度神经网络，具体包括：将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入，将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标，对深度神经网络进行训练。 7.根据权利要求6所述的基于。

10、改进自注意力机制与跨频带特征的音频音源分离方法，权利要求书 2/3 页 3 CN 111261186 A 3 其特征在于，步骤7所述训练最小方差滤波器，具体包括：步骤7-1，提取训练集中所述混合音频数据对应的时频谱中的相位信号；步骤7-2，将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入，并合并所有卷积神经子网络的输出特征：式中， Os表示所有卷积神经子网络输出s特征的合并结果， Merge()表示特征融合操作， t为可训练的标量，初始值为0， t2. ， 1也为可训练的标量，其初始值为1， Ol为每一个卷积神经子网络的输出：式中， Slr表。

11、示子频带区间Glr对应的子频带时频谱， Concatfrequency()表示在频率维度上进行特征连接；步骤7-3，将所述全频带时频谱作为所述卷积神经网络的输入，该卷积神经网络的输出特征记为Of；步骤7-4，根据所述Os和Of获取跨频带特征O： OConcatchannel(Of,Os) 式中， Concatchannel()表示在通道维度上进行特征连接；步骤7-5，利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱；步骤7-6，通过短时傅里叶逆变换将所述预测时频谱转换为音频信号，在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号；步骤7-7。

12、，将步骤7-6获得的音频信号作为最小方差滤波器的输入，将训练集中待分离的目标音源音频数据作为期望信号，对最小方差滤波器进行训练。 8.根据权利要求7所述的基于改进自注意力机制与跨频带特征的音频音源分离方法，其特征在于，步骤8所述利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号，具体过程包括：步骤8-1，通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱，并提取该时频谱中的相位信号；步骤8-2，将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络，输出目标音源信号的时频谱；步骤8-3，。

13、通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号，转换过程中时频谱的相位部分采用步骤8-1提取的相位信号；步骤8-4，将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中，输出最终的目标音频信号。权利要求书 3/3 页 4 CN 111261186 A 4 基于改进自注意力机制与跨频带特征的音频音源分离方法技术领域 0001 本发明属于数字信号处理领域，特别涉及一种基于改进自注意力机制与跨频带特征的音频音源分离方法。背景技术 0002 音频音源分离可以被描述为:从现有的混合音频信号中分离出一个或者多个音源各自的音频信号。音频音源分离任务的主要难点。

14、在于，在实际应用场景中，处理系统所能够直接利用到的输入数据仅仅只有单独的混合音频信号；因此，对于音频音源分离任务而言，需要研究者设计并使用一种智能化的手段来完成该任务。 0003 音频音源分离有着广泛的应用场景，对于语音识别而言，通过音频音源分离来将人声从复杂的背景噪声中分离，能够更加准确地进行人声内容的识别与提取，提高语音转录等任务的效率；对于音频强化而言，通过音频音源分离智能化地将目标音频信号从混合信号中分离，能够更好地辅助人们完成音频消噪、监听等工作；此外，在音乐编辑、创作工作中，音频音源分离能够在没有分轨音频数据的情况下，单独提取出某一轨乐。

15、器的音频数据，从而能够方便音乐制作人员对音频进行重混音或者乐谱转录等工作。综上所述，对于涉及到音频处理的相关领域而言，一个良好的、健壮的音源分离系统是必需且必备的工具。 0004 国外早在上世纪50年代就提出了该问题并进行了长期的研究工作。为了解决这个问题，有许多相关方法被提出，这些方法大致分为监督式方法和非监督式方法。监督式方法主要是通过对模型进行训练以获得音源的相关信息，这些方法主要是基于贝叶斯估计、非负矩阵分解(Nonnegative Matrix Factorization， NMF)理论来设计的，而非监督式学习的方法则是让模型从混合音频信号中自行寻找。

16、数据特征，这类方法主要是基于稀疏向量理论来设计的。尽管经过数十年的研究和优化，这些方法对于解决音频音源分离问题的进程产生了巨大的推动作用，但是由于这些方法有的严重依赖于手工设计的先验知识，而有的又基于一些很强的假设来简化问题，因此长期以来并不能得到令人满意的效果，阻碍了相关应用在现实需求下的落地。 0005 近年来，由于深度神经网络(Deep Neural Networks， DNN)在解决复杂问题方面展示了出很好的性能，人们也逐渐开始在音频音源分离任务中引入深度神经网络的模型来解决相关问题，相关方法主要分为基于卷积神经网络(Convolutional Neur。

17、al Networks， CNN)的模型方法和基于循环神经网络(Recurrent Neural Networks， RNN)的模型方法。这些方法相对于传统方法而言，尽管在性能和泛化能力上都获得了长足的进步，但是仍然存在一些缺陷。例如基于卷积神经网络的模型方法受制于卷积的局部感受域特性，因此对长距离的相关依赖不敏感，容易在特征计算中丢失全局信息；而基于循环神经网络的模型方法受制于模型本身的天生的缺点，对于较长的时序数据会产生遗忘问题；两者的缺陷都限制了模型效果的进一步提升。说明书 1/8 页 5 CN 111261186 A 5 发明内容 0006 本发明的目的在。

18、于提供一种具有泛化性好、分离出的目标音源音频质量更好等特点的音频音源分离方法。 0007 实现本发明目的的技术解决方案为：一种基于改进自注意力机制与跨频带特征的音频音源分离方法，包括以下步骤： 0008 步骤1，训练集数据准备，所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据； 0009 步骤2，将训练集中的音频数据均转换为音频的时频谱，记为全频带时频谱； 0010 步骤3，构建若干个满足跨频带特征约束的划分策略； 0011 步骤4，基于每个所述划分策略分别对全频带时频谱的频带进行划分，获得该划分策略对应的若干子频带； 0012 步骤5，基。

19、于每个所述划分策略构建深度神经网络； 0013 步骤6，训练所述深度神经网络； 0014 步骤7，训练最小方差滤波器； 0015 步骤8，利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号。 0016 进一步地，步骤3中所述构建若干个满足跨频带特征约束的划分策略，具体包括： 0017 假设全频带时频谱为SRnm，其中n为所述短时傅里叶变换操作中频率方向的采样数， m为时间方向的帧数，定义符号G表示对应于全频带时频谱S的频带离散区间；采用个划分策略，将S划分为复数个子频带时频谱， 0；所述跨频带特征的定义。

20、包括： 0018 定义第l个划分策略对应的子频带时频谱集合Cl： 0019 0020 式中， Cl为一个有序集合，且以LEFT(Gli)升序排序， LEFT(x)表示区间x的左端点值， Gli为表示Cl集合中的第i个子频带区间元素， ml表示Cl集合中元素的个数； 0021 定义频带边界集合Dl： 0022 Dlbli|bliRIGHT(Fli),i1,2.,ml-1 0023 式中， RIGHT(x)表示区间x的右端点值； 0024 定义最小边界重叠大小zN， N表示自然数集合； 0025 基于上述定义构建服从以下跨频带特征约束的划分策略： 0026对于 0027 有bpiGqj 002。

21、8同时对于 0029都有且bpi-LEFT(Gqj)z,RIGHT(Gqj)-bpiz 0030 其中， 1p ,1imp-1， qp,1q ,1jmq， i i,1i mp-1。 0031 进一步地，步骤5基于每个所述划分策略构建深度神经网络，具体包括： 0032 (1)对于每一个划分策略，构建相应的卷积神经子网络为： 0033 说明书 2/8 页 6 CN 111261186 A 6 0034式中， NETl表示第l个划分策略对应的子卷积神经网络集合，表示第l个划分策略中的第i个子卷积神经网络， i1,2,ml， c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数。

22、，即尺度；其中，的结构定义为： 0035 0036 式中， Upsample()表示上采样层， Concat()表示连接操作， Qk(I) Downsample(DenseBlockk1(I),k1,2.c， k表示第k个尺度， Downsample()表示下采样层， I表示子卷积神经网络的输入， Wk表示1x1卷积层， Attentionk(X)表示以平坦化特征图X 为输入的改进的自注意力层， Xx1,x2,xNRCN,NWH， C、 W、 H分别表示在平坦化之前特征图X在不同维度上的尺寸大小， k为一个可训练的标量，其初始值为0， DenseBlock ()表示DenseNet中。

23、的Dense Block； 0037 其中， 0038 Attention(X)Res( 1s+ 2cT+X)RCWH 0039 式中， Res()表示重塑操作，也即是维度变换操作， 1和 2均为可训练的标量变量，初始值为0，用于指示注意力特征的可信度； s表示空间注意力特征图， sRCNs1, s2,.,sN， c表示通道注意力特征图， cRNCc1,c2,.,cC，其中si、 ci分别为： 0040 0041 0042式中，以及均表示1x1卷积层， 0043(2)构建处理全频带时频谱的卷积神经网络该网络的结构与上述的结构相同，但该网络的输入为全频带时频谱。 0044 进一步地。

24、，步骤6训练所述深度神经网络，具体包括： 0045 将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入，将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标，对深度神经网络进行训练。 0046 进一步地，步骤7所述训练最小方差滤波器，具体包括： 0047 步骤7-1，提取训练集中所述混合音频数据对应的时频谱中的相位信号； 0048 步骤7-2，将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入，并合并所有卷积神经子网络的输出特征： 0049 说明书 3/8 页 7 CN 111261186 A 7 0050 式中，。

25、Os表示所有卷积神经子网络输出s特征的合并结果， Merge()表示特征融合操作， t为可训练的标量，初始值为0， t2. ， 1也为可训练的标量，其初始值为1， Ol 为每一个卷积神经子网络的输出： 0051 0052 式中， Slr表示子频带区间Glr对应的子频带时频谱， Concatfrequency()表示在频率维度上进行特征连接； 0053步骤7-3，将所述全频带时频谱作为所述卷积神经网络的输入，该卷积神经网络的输出特征记为Of； 0054 步骤7-4，根据所述Os和Of获取跨频带特征O： 0055 OConcatchannel(Of,Os) 0056 式中， Con。

26、catchannel()表示在通道维度上进行特征连接； 0057 步骤7-5，利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱； 0058 步骤7-6，通过短时傅里叶逆变换将所述预测时频谱转换为音频信号，在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号； 0059 步骤7-7，将步骤7-6获得的音频信号作为最小方差滤波器的输入，将训练集中待分离的目标音源音频数据作为期望信号，对最小方差滤波器进行训练。 0060 进一步地，步骤8所述利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号，。

27、具体过程包括： 0061 步骤8-1，通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱，并提取该时频谱中的相位信号； 0062 步骤8-2，将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络，输出目标音源信号的时频谱； 0063 步骤8-3，通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号，转换过程中时频谱的相位部分采用步骤8-1提取的相位信号； 0064 步骤8-4，将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中，输出最终的目标音频信号。 0065 本发明与现有技术相比，其显著优点为： 1)采用深度学习模型进行目标音频音源。

28、信号的估计，相较于传统方法，只需要数据训练，无需引入假设以及借助辅助信息，具有更好的泛化性； 2)采用一种带改进的自注意力机制的深度学习模型，使得用于音频音源分离的深度学习模型在特征计算中能够更好地计算全局信息； 3)采用一种跨声带特征，使得用于音频音源分离的深度学习模型能够更好地计算频带划分过后频带附近的特征信息； 4)综合了改进的自注意力机制和跨声带特征，模型具有更好的性能，所分离出的目标音源音频质量更好。 0066 下面结合附图对本发明作进一步详细描述。附图说明 0067 图1为本发明基于改进自注意力机制与跨频带特征的音频音源分离方法的流程图。说明书 4/。

29、8 页 8 CN 111261186 A 8 0068 图2为本发明中频带划分策略的结构示意图。 0069 图3为本发明中改进的自注意力机制的结构示意图。 0070 图4为本发明基于改进的自注意力机制与跨频带特征方法的模型结构示意图。具体实施方式 0071 结合图1，本发明提出了一种基于改进自注意力机制与跨频带特征的音频音源分离方法，包括以下步骤： 0072 步骤1，训练集数据准备，训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据。 0073 步骤2，利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱，记为全频带时频谱。 0074 步骤3，构建。

30、若干个满足跨频带特征约束的划分策略，具体包括： 0075 假设全频带时频谱为SRnm，其中n为短时傅里叶变换操作中频率方向的采样数， m为时间方向的帧数，定义符号G表示对应于全频带时频谱S的频带离散区间；采用个划分策略，将S划分为复数个子频带时频谱， 0；跨频带特征的定义包括： 0076 定义第l个划分策略对应的子频带时频谱集合Cl： 0077 0078 式中， Cl为一个有序集合，且以LEFT(Gli)升序排序， LEFT(x)表示区间x的左端点值， Gli为表示Cl集合中的第i个子频带区间元素， ml表示Cl集合中元素的个数； 0079 定义频带边界集合Dl： 0080。

31、 Dlbli|bliRIGHT(Fli),i1,2.,ml-1 0081 式中， RIGHT(x)表示区间x的右端点值； 0082 定义最小边界重叠大小zN， N表示自然数集合； 0083 基于上述定义构建服从以下跨频带特征约束的划分策略： 0084对于 0085 有bpiGqj 0086同时对于 0087都有且bpi-LEFT(Gqj)z,RIGHT(Gqj)-bpiz 0088 其中， 1p ,1imp-1， qp,1q ,1jmq， i i,1i mp-1。 0089 步骤4，结合图3，基于每个划分策略分别对全频带时频谱的频带进行划分，获得该划分策略对应的若干子频带。 0090 。

32、步骤5，基于每个划分策略构建深度神经网络，结合图4，该步具体包括： 0091 (1)对于每一个划分策略，构建相应的卷积神经子网络为： 0092 0093式中， NETl表示第l个划分策略对应的子卷积神经网络集合，表示第l个划分策略中的第i个子卷积神经网络， i1,2,ml， c表示构建卷积神经网络所采用到的金字塔说明书 5/8 页 9 CN 111261186 A 9 形式的下采样或上采样的次数，即尺度；其中，的结构定义为： 0094 0095 式中， Upsample()表示上采样层， Concat()表示连接操作， Qk(I) Downsample(DenseBlockk。

33、1(I),k1,2.c， k表示第k个尺度， Downsample()表示下采样层， I表示子卷积神经网络的输入， Wk表示1x1卷积层， Attentionk(X)表示以平坦化特征图X 为输入的改进的自注意力层， Xx1,x2,xNRCN,NWH， C、 W、 H分别表示在平坦化之前特征图X在不同维度上的尺寸大小， k为一个可训练的标量，其初始值为0， DenseBlock ()表示DenseNet中的Dense Block；上采样层的网络结构为插值上采样层与1x1卷积层的组合。 0096 结合图2，其中， 0097 Attention(X)Res( 1s+ 2cT+X)RCWH。

34、 0098 式中， Res()表示重塑操作，也即是维度变换操作， 1和 2均为可训练的标量变量，初始值为0，用于指示注意力特征的可信度； s表示空间注意力特征图， sRCNs1, s2,.,sN， c表示通道注意力特征图， cRNCc1,c2,.,cC，其中si、 ci分别为： 0099 0100 0101式中，以及均表示1x1卷积层， 0102(2)构建处理全频带时频谱的卷积神经网络该网络的结构与上述的结构相同，但该网络的输入为全频带时频谱。 0103 步骤6，训练深度神经网络，具体包括： 0104 将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入，将步骤2获。

35、得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标，对深度神经网络进行训练。 0105 步骤7，训练最小方差滤波器，具体包括： 0106 步骤7-1，提取训练集中混合音频数据对应的时频谱中的相位信号； 0107 步骤7-2，将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入，并合并所有卷积神经子网络的输出特征： 0108 0109 式中， Os表示所有卷积神经子网络输出s特征的合并结果， Merge()表示特征融合操作， t为可训练的标量，初始值为0， t2. ， 1也为可训练的标量，其初始值为1， Ol 说明书 6/8 页 10 C。

36、N 111261186 A 10 为每一个卷积神经子网络的输出： 0110 0111 式中， Slr表示子频带区间Glr对应的子频带时频谱， Concatfrequency()表示在频率维度上进行特征连接； 0112 步骤7-3，将全频带时频谱作为卷积神经网络Ufc的输入，该卷积神经网络的输出特征记为Of； 0113 步骤7-4，根据Os和Of获取跨频带特征O： 0114 OConcatchannel(Of,Os) 0115 式中， Concatchannel()表示在通道维度上进行特征连接； 0116 步骤7-5，利用Dense Block和卷积层将跨频带特征O转换为预测时频谱；。

37、 0117 步骤7-6，通过短时傅里叶逆变换将预测时频谱转换为音频信号，在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号； 0118 步骤7-7，将步骤7-6获得的音频信号作为最小方差滤波器的输入，将训练集中待分离的目标音源音频数据作为期望信号，对最小方差滤波器进行训练。 0119 步骤8，利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号。该步具体过程包括： 0120 步骤8-1，通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱，并提取该时频谱中的相位信号； 0121 步骤8-2，将步。

38、骤8-1获得的时频谱输入至步骤6训练后的深度神经网络，输出目标音源信号的时频谱； 0122 步骤8-3，通过短时傅里叶逆变换将目标音源信号的时频谱转换为音频信号，转换过程中时频谱的相位部分采用步骤8-1提取的相位信号； 0123 步骤8-4，将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中，输出最终的目标音频信号。 0124 下面结合实施例对本发明作进一步详细的描述。 0125 实施例 0126 本实施例对本发明的方法进行验证，具体条件包括： 0127 (1)划分策略数量 2； 0128(2)最小边界重叠大小 0129 (3)每一个划分策略的子频带为： 0130。

39、 0131 0132 (4)每一个子卷积神经网络所拥有的尺度c3； 0133 (5)短时傅里叶变换采用2048点采样，采样率为44.1kHz； 0134 (6)采用DSD100公开数据集作为本实施例的数据集。说明书 7/8 页 11 CN 111261186 A 11 0135 本实施例分别对DSD100公开数据集中人声、贝斯、鼓和其他乐器的音源各自单独训练了一个模型以完成对应音源的分离工作。所验证的指标为：分别计算模型在验证集中所分离出的人声、鼓、贝斯和其他这四个音源信号的SDR的中位数。表1展示了本发明所提出的方法在DSD100公开数据集上经过训练后，在验证集上与其他现有方法的性能对比。 0136 表1音源分离方法的性能对比 0137 0138 由上述实施例可知，本发明提出的基于改进的自注意力机制和跨声带特征的音频音源分离方法具有很好的性能和进度，泛化性好，更适用于音频音源分离任务，且分离出的目标音源音频质量更好。说明书 8/8 页 12 CN 111261186 A 12 图1 说明书附图 1/3 页 13 CN 111261186 A 13 图2 说明书附图 2/3 页 14 CN 111261186 A 14 图3 图4 说明书附图 3/3 页 15 CN 111261186 A 15 。

展开阅读全文

内容关键字: 基于改进注意力机制频带特征音频音源分离方法