书签分享收藏举报版权申诉 / 20

立即下载加入VIP,免费下载

当前位置：首页 > 物理 > 测量；测试 > 一种基于一致聚焦变换最小二乘法的双声源定位方法.pdf

一种基于一致聚焦变换最小二乘法的双声源定位方法.pdf

上传人：狗**

文档编号：6267364

上传时间：2019-05-27

格式：PDF

页数：20

大小：1.31MB

《一种基于一致聚焦变换最小二乘法的双声源定位方法.pdf》由会员分享，可在线阅读，更多相关《一种基于一致聚焦变换最小二乘法的双声源定位方法.pdf（20页完整版）》请在专利查询网上搜索。

本发明公开了一种基于一致聚焦变换最小二乘法的双声源定位方法，在该方法中，用先设计的六元圆形麦克风阵列采集声源信号，并获得采集信号的协方差矩阵；利用频率范围的中心频率点定义聚焦变换矩阵，并由最小二乘方法求解聚焦变换矩阵；利用不同带宽内的中心频率点、一致聚焦矩阵及多信号分类方法，获得每个中心频率点所对应的信号空间谱，再利用频率点均值和时间快拍估计方法（MUSIC）求得信号空间谱平均估计值，从而获求声源。

摘要
申请专利号：	CN201510763229.5	申请日：	2015.11.10
公开号：	CN105301563A	公开日：	2016.02.03
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G01S 5/18申请日:20151110\|\|\|公开
IPC分类号：	G01S5/18	主分类号：	G01S5/18
申请人：	南京信息工程大学
发明人：	郭业才; 宋宫琨琨; 禹胜林
地址：	210000江苏省南京市建邺区奥体大街69号
优先权：
专利代理机构：	南京经纬专利商标代理有限公司32200	代理人：	许方
PDF完整版下载：	PDF下载

内容摘要

本发明公开了一种基于一致聚焦变换最小二乘法的双声源定位方法，在该方法中，用先设计的六元圆形麦克风阵列采集声源信号，并获得采集信号的协方差矩阵；利用频率范围的中心频率点定义聚焦变换矩阵，并由最小二乘方法求解聚焦变换矩阵；利用不同带宽内的中心频率点、一致聚焦矩阵及多信号分类方法，获得每个中心频率点所对应的信号空间谱，再利用频率点均值和时间快拍估计方法（MUSIC）求得信号空间谱平均估计值，从而获求声源方位角估计值。本发明方法声源定位估计准确性高，有效克服了方位模糊问题。

权利要求书

1.一种基于一致聚焦变换最小二乘法的双声源定位方法，其特征在于，包括如下步
骤：
步骤一：采用M个相同麦克风等间距的排列成半径为R的圆形麦克风阵列；
步骤二：根据麦克风阵列采集到的语音信号，得到信号的协方差矩阵，并在给定频率
范围内定义中心频率点kb；
步骤三：根据预设的一定测量范围内的任意角度，存在一个不随角度变化的一致聚焦
变换，定义一致聚焦变换矩阵，并通过最小二乘方法求得聚焦变换矩阵；
步骤四：根据步骤二中定义的中心频率点，结合最小二乘法求得的一致聚焦变换矩阵，
采用MUSIC方法求得每个中心频率点所对应的信号空间谱，进而求得信号空间谱的均值
函数harray(θ)；
步骤五：采用频率点均值和时间快拍估计的方法求得信号空间谱平均估计值，进而求
得声源估计角度。
2.根据权利要求1所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特
征在于，所述步骤二具体如下：
(201)、对第d个声源发出的语音信号sd(t)进行采样，得到第m个麦克风采集到的离散
信号xdm(t)，其中，t为时间，d＝1,2，…,D，D表示声源的个数，m＝1,2，…,M；
(202)、根据(201)中采集到的离散信号xdm(t)，经傅里叶变换后得到输入信号矢量X(k)
为X(k)＝(X1(k),…,XM(k))T，Xm(k)＝(X1m(k),…,XDm(k))T，信号的协方差矩阵为
CX＝E[X(k)X(k)H]；
其中，k为波数且f为频率，c为声波传播的速度，上标T为转置运算符，
Xdm(k)表示xdm(t)的傅里叶变换，E[*]为期望的运算符，上标H为厄密共轭运算符；
(203)、在给定频率范围内划分频率间隔相等的B个子带，第b个子带的中心频率为kb，
其中，b＝1,…,B。
3.根据权利要求2所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特
征在于，所述步骤三具体如下：
(301)根据带宽内定义的任意中心频率点kb以及给定的聚焦频率点k0，定义一致聚焦
变换矩阵T(r,kb)，得到
V(r,θ,k0)＝T(r,kb)V(r,θ,kb)
其中，V(r,θ,k0)表示声源距离阵列中心的距离为r、方位角度为θ、聚焦频率点为k0的
导向矢量矩阵，V(r,θ,kb)表示声源距离阵列中心的距离为r、方位角度为θ、中心频率点
为kb的导向矢量矩阵；
(302)采用最小二乘方法，得到一致聚焦变换矩阵为
T(r,kb)＝R(r,kb)L(r,kb)
其中，T(r,kb)表示声源距离阵列中心的距离为r，中心频率点为kb的一致聚焦变换矩
阵，R(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的左奇异矢量矩阵，L(r,kb)为矩阵
VH(r,θ,k0)V(r,θ,kb)的右奇异矢量矩阵。
4.根据权利要求2所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特
征在于，所述(202)中的c＝343m.s-1。
5.根据权利要求2所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特
征在于，所述(203)中的B＝180。
6.根据权利要求3所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特征
在于，所述步骤四中的harray(θ)经下面公式得到，
h a r r a y ( θ ) = 1 B Σ b = 1 B 1 ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) H U N ( r ) U N H ( r ) ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) ]]>
其中，UN(r)表示声源位置矢量的噪声子空间矩阵，下标N表示噪声，下标array表
示阵列。
7.根据权利要求6所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特
征在于，所述步骤五具体如下：
(501)、采用时间快拍估计方法得到协方差矩阵CX的近似值

其中，t′＝T0,2T0…表示时间系数，T0表示时间间隔，W表示窗口的长度，表
示输入信号在时间间隔为T0时、第l个傅里叶级数的近似值，为取整运算符；
(502)、根据求得信号空间谱平均估计值即
h ^ a r r a y ( θ ) = 1 B Σ b = 1 B 1 ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) H U ^ N ( r ) U ^ N H ( r ) ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) ]]>
其中，表示声源位置矢量的噪声子空间矩阵UN(r)的近似值；
信号空间谱平均估计值的峰值所对应的角度即为声源估计角度
8.根据权利要求1所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特
征在于，所述步骤三中一定测量范围内的任意角度为-90°～90°。

说明书

一种基于一致聚焦变换最小二乘法的双声源定位方法

技术领域

本发明涉及声源定位领域，特别是一种基于一致聚焦变换最小二乘法的双声源定位方法。

背景技术

在阵列信号处理中，利用波达方向(DirectionofArrival，DOA)估计声源位置是一个新的
研究方向，在声呐探测(见文献：王燕,邹男,梁国龙.强多途环境下水听器阵列位置近场有源校
正方法[J].物理学报,2015,64(2):0243041-10)，语音识别与追踪(见文献：戚聿波,周士弘,张仁
和,任云.一种基于β-warping变换算子的被动声源距离估计方法[J].物理学报,2015,64(7):
0743011-6)，在未知环境中机器人的移动(见文献：居太亮.基于麦克风阵列声源定位算法研究
[D].博士学位论文(成都：电子科技大学),2006)，以及下一代助听器等(见文献：苏林,马力,宋
文化,郭圣明,鹿力成.声速剖面对不同深度声源定位的影响[J].物理学报,2015,64(2):024302
1-8)领域中都成为研究的热点，精确的DOA估计在许多应用中都是其中的关键要素之一(见文
献：时洁,杨德森,时胜国.基于矢量阵的运动声源柱面聚焦定位方法试验研究[J].物理学
报,2012,61(12):1243021-15)。其中，最常见的是在电话会议中，通过知晓说话者扬声器的位置
信息来引导相机，或者利用波束形成方法来增强捕获到的源信号，以避免翻领式麦克风带来的
不便(见文献：DespoinaPavlidi,AnthonyGriffin,MatthieuPuigt,AthanasiosMouchtaris.Real-time
multiplesoundsourcelocalizationandcountingusingacircularmicrophonearray[J].IEEE
TransactionsonAudio,Speech,andLanguageProcessing,2013,21(10):2193-2206.)。

在声源定位的早期研究中，主要针对单个声源进行定位的(见文献：AliPourmohammad,
SeyedMohammadAhadi.Realtimehighaccuracy3-DPHAT-basedsoundsourcelocalizationusing
asimple4-microphonearrangement[J].IEEESystemsJournal,2012,6(3):455-468)。很多方法都是基
于不同麦克风对间的到达时差(TimeDifferenceofArrival，TDOA)进行单声源定位的，其中广
义互相关变换(GeneralizedCross-CorrelationPHAseTransform，GCC-PHAT)的方法是应用最为
广泛的(见文献：QilianLiang,BaojuZhang,ChenglinZhao,YimingPi.TDOAforpassive
localizationunderwaterversusterrestrialenvironment[J].IEEETransactionsParallelandDistributed
Systems,2013,24(10):2100-2108)。文献(JingdongChen,JacobBenesty,YitengHuang.Timedelay
estimationinroomacousticenvironments:anoverview[J].EURASIPJournalonAppliedSignal
Processing,2006,26503:1-19)给出了TDOA方位估计技术的综述；在单声源中，由于存在噪声、
混响等的干扰，会影响麦克风对间采集的信号，使定位估计结果精度下降，文献(Francesco
Nesta,MaurizioOmologo.GeneralizedstatecoherencetransformformultidimensionalTDOA
estimationofmultiplesources[J].IEEETransactionsonAudio,Speech,andLanguage
Processing,2012,20(1):246-260.)给出了改进的TDOA估计方法。进一步研究发现，同时定位多
个声源是一个更困难的问题。事实上，即使是一个短暂的声音都会使采集到的语音信号存在微
小的重叠，可能会导致多个源信号的定位不精确(见文献：JacekP.Dmochowski,JacobBenesty,
SofieneAffes.BroadbandMUSIC：Opportunitiesandchallengesformultiplesourcelocalization[C].
IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics,2007:18-21)。对于多
声源定位问题，一种是传统的多信号分类(MultipleSignalClassification，MUSIC)方法，属于经
典子空间方法，该方法针对窄带信号，根据采集到信号的子空间协方差矩阵，进行特征分解，
进而估计源信号方位(见文献：DumiduS.Talagala,WenZhang.BroadbandDOAEstimationUsing
SensorArraysonComplex-ShapedRigidBodies[J].IEEETransactionsonAudio,Speech,and
LanguageProcessing,2013,21(8):1573-1585.)，由于语音信号的频率带宽一般为[300Hz，3000Hz]，
经典子空间方法只是针对窄带信号的，会导致声源定位结果不准确；另一种是基于独立分量分
析的源定位方法，该方法首先运用盲源分离(BlindSourceSeparation，BSS)方法获得分离后
单个信号，然后再运用对单个源信号进行定位的方法进行定位估计(见文献：AnthonyLombard,
YuanhangZheng,HerbertBuchner,WalterKellermann.TDOAEstimationforMultipleSound
SourcesinNoisyandReverberantEnvironmentsUsingBroadbandIndependentComponent
Analysis[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2011,19(6):
1490-1503.)，但此类源定位方法，由于将语音信号先分离再定位，会破坏源信号的完整性，会
使定位结果不稳定、定位精确度不高。另外，随着麦克风个数的增加，波达方向(DOA)估计的
定位精度也会随之提高，但在实际情况下，通常使用线性麦克风阵列模型，会产生定位模糊问
题(无法准确区分声源位于阵列的前方或者后方)。

如何解决现有技术的不足已成为声源定位领域亟待解决的一大难题。

发明内容

本发明所要解决的技术问题是为了克服现有技术的不足，而提供一种基于一致聚焦变换最
小二乘法的双声源定位方法，本发明方法实时、有效地解决多声源定位问题，在一定程度上降
低了噪声、混响等对语音信号的干扰，提高了定位的精度与稳定性。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于一致聚焦变换最小二乘法的双声源定位方法，包括如下步骤：

步骤一：采用M个相同麦克风等间距的排列成半径为R的圆形麦克风阵列；

步骤二：根据麦克风阵列采集到的语音信号，得到信号的协方差矩阵，并在给定频率范围
内定义中心频率点kb；

步骤三：根据预设的一定测量范围内的任意角度，存在一个不随角度变化的一致聚焦变换，
定义一致聚焦变换矩阵，并通过最小二乘方法求得聚焦变换矩阵；

步骤四：根据步骤二中定义的中心频率点，结合最小二乘法求得的一致聚焦变换矩阵，采
用MUSIC方法求得每个中心频率点所对应的信号空间谱，进而求得信号空间谱的均值函数
harray(θ)；

步骤五：采用频率点均值和时间快拍估计的方法求得信号空间谱平均估计值，进而求得声
源估计角度。

作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，
所述步骤二具体如下：

(201)、对第d个声源发出的语音信号sd(t)进行采样，得到第m个麦克风采集到的离散信
号xdm(t)，其中，t为时间，d＝1,2，…,D，D表示声源的个数，m＝1,2，…,M；

(202)、根据(201)中采集到的离散信号xdm(t)，经傅里叶变换后得到输入信号矢量X(k)为
X(k)＝(X1(k),…,XM(k))T，Xm(k)＝(X1m(k),…,XDm(k))T，信号的协方差矩阵为
CX＝E[X(k)X(k)H]；

其中，k为波数且f为频率，c为声波传播的速度，上标T为转置运算符，Xdm(k)
表示xdm(t)的傅里叶变换，E[*]为期望的运算符，上标H为厄密共轭运算符；

(203)、在给定频率范围内划分频率间隔相等的B个子带，第b个子带的中心频率为kb，
其中，b＝1,…,B。

作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，
所述步骤三具体如下：

(301)根据带宽内定义的任意中心频率点kb以及给定的聚焦频率点k0，定义一致聚焦变换
矩阵T(r,kb)，得到

V(r,θ,k0)＝T(r,kb)V(r,θ,kb)

其中，V(r,θ,k0)表示声源距离阵列中心的距离为r、方位角度为θ、聚焦频率点为k0的导
向矢量矩阵，V(r,θ,kb)表示声源距离阵列中心的距离为r、方位角度为θ、中心频率点为kb的
导向矢量矩阵；

(302)采用最小二乘方法，得到一致聚焦变换矩阵为

T(r,kb)＝R(r,kb)L(r,kb)

其中，T(r,kb)表示声源距离阵列中心的距离为r，中心频率点为kb的一致聚焦变换矩阵，
R(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的左奇异矢量矩阵，L(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的
右奇异矢量矩阵。

作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，
所述(202)中的c＝343m.s-1。

作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，
所述(203)中的B＝180。

作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，
所述步骤四中的harray(θ)经下面公式得到，

h a r r a y ( θ ) = 1 B Σ b = 1 B 1 ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) H U N ( r ) U N H ( r ) ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) ]]>

其中，UN(r)表示声源位置矢量的噪声子空间矩阵，下标N表示噪声，下标array表示阵
列。

作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，
所述步骤五具体如下：

(501)、采用时间快拍估计方法得到协方差矩阵CX的近似值

其中，t′＝T0,2T0…表示时间系数，T0表示时间间隔，W表示窗口的长度，表示输
入信号在时间间隔为T0时、第l个傅里叶级数的近似值，为取整运算符；

(502)、根据求得信号空间谱平均估计值即

h ^ a r r a y ( θ ) = 1 B Σ b = 1 B 1 ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) H U ^ N ( r ) U ^ N H ( r ) ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) ]]>

其中，表示声源位置矢量的噪声子空间矩阵UN(r)的近似值；

信号空间谱平均估计值的峰值所对应的角度即为声源估计角度

作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，
所述步骤三中一定测量范围内的任意角度为-90°～90°。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)本发明构建了六元圆形麦克风阵列，运用基于一致聚焦变换最小二乘法的宽带信号
MUSIC方法，对室内近场双声源进行定位；为了确保声源定位的稳定性与精确性，求出麦克
风对采集到的语音信号的协方差矩阵，并在频率范围内定义中心频率点，通过一致聚焦变换和
最小二乘法，在不同的中心频率点上，运用多信号分类的方法求得每个中心频率点所对应的信
号空间谱，再利用频率点均值和时间快拍估计的方法求得信号空间谱平均估计值，进而估计求
得声源方位；

(2)本发明方法降低了噪声、混响等对语音信号的干扰，提高了定位的精度与稳定性；

(3)本发明在仿真与实测实验中都能准确地确定多声源方位，定位精度高与稳定性强，
在语音信号处理领域，具有较强的实用性。

附图说明

图1是本发明的流程图。

图2是本发明设计的六元麦克风房间仿真模型。

图3是本发明在相同混响时间(T60)，不同信噪比(SNR)条件下声源定位结果：(a)为
T60＝250ms，SNR＝20dB条件下声源定位结果；(b)为T60＝250ms，SNR＝15dB条件下声源定位
结果；(c)为T60＝250ms，SNR＝10dB条件下声源定位结果；(d)为T60＝250ms，SNR＝5dB条件
下声源定位结果；(e)为T60＝250ms，SNR＝0dB条件下声源定位结果。

图4是本发明在不同混响时间、相同信噪比条件下声源定位结果。

图5是本发明与传统的MUSIC、BSS-TDOA方法的声源定位结果的比较。

图6是本发明在全消声实验室声源定位结果：(a)为三维图；(b)为侧视图。

图7是本发明在非消声实验室声源定位结果：(a)为三维图；(b)为侧视图。

图8是本发明仿真实验与实测实验进行声源定位结果的对比图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明方法的流程参见图1，本发明是一种基于一致聚焦变换最小二乘法的麦克风阵列双
声源定位方法，利用六元麦克风阵列，结合语音信号特性进行声源定位，其具体实施步骤如下：

步骤一：建立圆形麦克风阵列模型；

建立圆形麦克风阵列模型，如图2所示，由M个相同的麦克风等间距的排列组成，阵列
的半径为R，M个阵元围绕旋转成一个圆阵，这里约定：当且仅当i≡j(modM)时(mod表示
数学中的求余数运算)，第i个麦克风与第j个麦克风为同一个麦克风。声源S(t)位于近场条件
下，满足

r ≤ 2 L 2 λ - - - ( 1 ) ]]>

式中，r为声源距离阵列中心的距离，L为阵列的最大尺寸(这里L＝2R)，λ为语音信号
的波长。

步骤二：求麦克风阵列采集到的语音信号的协方差矩阵，并在频率范围内定义中心频率点；

(201)在室内环境中有D个指向性声源，同时也存在着无指向性的环境噪声，由M＞D个
全指向性麦克风采集声场中的语音信号。第d(d＝1，2，…,D)个声源的位置矢量在极坐系中表示
为rd＝(rd,θd)T，rd表示第d个声源距离阵列中心的距离，θd表示第d个声源的方位角度，上
标T表示转置运算符。设声波传播的速度c＝343m.s-1。

(202)第d个声源的语音信号为sd(t)，则其频域值为

Sd(k)＝∫sd(t)e-2jπftdt＝∫sd(t)e-jkctdt(2)

式中，j为虚数单位，e表示自然指数，f表示频率，表示波数，则源信号矢量
为S(k)＝(S1(k),…,SD(k))T，Sd(k)表示第d个声源的频域信号。

圆形麦克风阵列中，第m个麦克风采集到的第d个声源的语音信号为
xdm(t)(d＝1，2，…,D；m＝1,…M)，则输入信号矢量为X(k)＝(X1(k),…,XM(k))T，
Xm(k)＝(X1m(k),…,XDm(k))T，Xdm(k)表示xdm(t)的傅里叶变换，且

X(k)＝V(r1,…,rD,k)S(k)+B(k)(3)

式中

V(r1,…,rD,k)＝(V(r1,k),…,V(rD,k))(4)

是由与第d个声源相关的导向矢量矩阵V(rd,k)构成的M×D阶矩阵，rd表示第d个声源的位
置矢量。B(k)＝(B1(k),…,BM(k))T表示每个麦克风上的加性噪声，Bm(k)第m个麦克风上的加
性噪声，假设噪声为零均值、稳定的白噪声，每个麦克风上的噪声能量是相等的，并且噪声信
号与声源信号间是相互独立的，则

E [ B ( k ) B ( k ) H ] = σ N 2 I M - - - ( 5 ) ]]>

E[B(k)(V(rd,k)S(k))H]＝0(6)

式中，E[*]表示期望的运算符，ΙM表示M×M的单位矩阵，H表示厄密共轭运算符，V(rd,k)
表示导向矢量矩阵，表示噪声方差。

在近场条件下，需要考虑每个声源与麦克风阵列间的距离，则导向矢量矩阵
V(rd,k)＝V(rd,θd,k)，其中，第d个分量为

V d ( r d , θ d , k ) = r d e jkr d e - j k r d 2 - 2 r d cosθ d r d 2 - 2 r d cosθ d - - - ( 7 ) ]]>

根据输入信号X(k)，可求得信号的协方差矩阵CX，为

CX＝E[X(k)X(k)H](8)

根据式(3)、(5)、(6)，CX可进一步表示为

C X = V ( r 1 , ... , r D , k ) C S V H ( r 1 , ... , r D , k ) + σ N 2 I M - - - ( 9 ) ]]>

式中，CS为源信号D×D阶协方差矩阵，CB为噪声信号的协方差矩阵，

CS＝E[S(k)S(k)H](10)

C B = E [ B ( k ) B ( k ) H ] = σ N 2 I M - - - ( 11 ) ]]>

M×M阶矩阵CY＝V(r1,…,rD,k)CSVH(r1,…,rD,k)，矩阵CY满足埃尔米特对称、半正定，
因此可得M个实的、非负的第m个特征值λm，以及相关的第m个正交特征向量
Um(m＝1,…M)。这里假定声源信号间是相互独立的，V(r1,…,rD,k)为满秩矩阵，CY的秩为D
那么其特征值满足λ1≥λ2≥…≥λD＞λD+1＝…＝λM＝0。由上述推导可以注意到向量U1,…,UD
与V(r1,…,rD,k)生成空间的范围是一致的，因此可根据导向矢量所形成的D维子空间S来估计
声源位置，且D维子空间S被称作信号子空间。

根据

C X = C Y + σ N 2 I M - - - ( 12 ) ]]>

可得

式中，US＝(U1…UD)∈RM×D为信号子空间S的矩阵，是由上述的特征向量所构成的D阶矩阵，
且与特征值相关；UN＝(UD+1…UM)∈RM×(M-D)为噪声子空间N的矩阵，是
由余下的特征向量构成的M-D阶矩阵，且其特征值为

信号子空间矩阵US与噪声子空间矩阵UN有如下关系，

(US|UN)H(US|UN)＝IM(14)

(203)由于语音信号的频率带宽一般为[300Hz，3000Hz]，为了在处理时确保语音信号的
完整性，在给定频率范围内划分频率间隔相等的B个子带，第b个子带的中心频率为kb，其中，
b＝1,…,B，这里取B＝180。

步骤三：根据一定范围内的任意角度，存在一个不随角度变化的一致聚焦变换，定义聚焦
变换矩阵，并通过最小二乘方法求解；

(301)对于一定测量范围内的任意角度(这里设定测量的范围为-90°～90°)，存在一个不
随角度变化的一致聚焦变换。根据带宽内定义的任意中心频率点kb以及给定的聚焦频率点k0，
定义一致聚焦变换矩阵T(r,kb),b＝1,…,B，任取(r,θ)，有

V(r,θ,k0)＝T(r,kb)V(r,θ,kb)(15)

则变换T(r,kb)称为一致聚焦变换。

(302)利用最小二乘方法，对式(15)求解

m i n | | V ( r , θ , k 0 ) - T ( r , k b ) V ( r , θ , k b ) | | F 2 T H ( r , k b ) T ( r , k b ) = I - - - ( 16 ) ]]>

可得，一致聚焦变换矩阵

T(r,kb)＝R(r,kb)L(r,kb)(17)

式中，R(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的左奇异矢量矩阵，L(r,kb)为矩阵
VH(r,θ,k0)V(r,θ,kb)的右奇异矢量矩阵；。

步骤四：根据步骤二中定义的中心频率点，结合最小二乘法求得的一致聚焦变换矩阵，利
用MUSIC方法求得每个中心频率点所对应的信号空间谱，进而求信号空间谱的均值函数；

在每个中心频率点kb，计算T(r,kb)X(kb)的二阶统计量，再求和，结合式(12)，得输入
信号的聚焦协方差矩阵，

Γ X ( r ) = Σ b = 1 B T ( r , k b ) C X ( k b ) T H ( r , k b ) - - - ( 18 ) ]]>

式中，CX(kb)表示在中心频率点kb时，输入信号的协方差矩阵。

根据式(15)、式(17)，式(18)得

Γ X ( r ) = V ( r , θ , k 0 ) Γ S V H ( r , θ , k 0 ) + σ N 2 Γ N ( r ) = Σ b = 1 B ( T ( r , k b ) V ( r , θ , k b ) ) Γ S ( T ( r , k b ) V ( r , θ , k b ) ) H + σ N 2 Γ N ( r ) = Σ b = 1 B ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) Γ S ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) H + σ N 2 Γ N ( r ) - - - ( 19 ) ]]>

式中，

Γ S = Σ b = 1 B C S ( k b ) - - - ( 20 ) ]]>

式中，CS(kb)表示在中心频率点kb时，源信号的协方差矩阵。

根据式(19)，可得噪声信号聚焦协方差矩阵为

Γ N ( r ) = Σ b = 1 B T ( r , k b ) C ( k b ) T H ( r , k b ) = Σ b = 1 B ( R ( r , k b ) L ( r , k b ) ) C ( k b ) ( R ( r , k b ) L ( r , k b ) ) H - - - ( 21 ) ]]>

式中

E [ B ( k b ) B H ( k b ) ] = σ N 2 C ( k b ) - - - ( 22 ) ]]>

由输入信号的聚焦协方差矩阵ΓX(r)与噪声信号的聚焦协方差矩阵ΓN(r)，可构成矩阵
对(ΓX(r),ΓN(r))，其第m个特征值为μm，且μm＞μm+1，第m个特征向量为Um,m＝1,…,M。
那么US(r)＝(U1,…,UD)，UN(r)＝(UD+1,…,UM)，且有

μ D + 1 = ... = μ M = σ N 2 - - - ( 23 ) ]]>

VH(r,θ,k0)UN(r)＝0(24)

基于上述分析，可得信号的空间谱函数为

h b ( θ , k b ) = 1 V H ( r , θ , k 0 ) U N ( r ) U N H ( r ) V ( r , θ , k 0 ) = 1 ( T ( r , k b ) V ( r , θ , k b ) ) H U N ( r ) U N H ( r ) ( T ( r , k b ) V ( r , θ , k b ) ) = 1 ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) H U N ( r ) U N H ( r ) ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) - - - ( 25 ) ]]>

式中，UN(r)表示声源位置矢量的噪声子空间矩阵，下标N表示Noise(噪声)。

然后，根据式(25)，可得信号空间谱的均值函数，

h a r r a y ( θ ) = 1 B Σ b = 1 B h b ( θ , k b ) = 1 B Σ b = 1 B 1 ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) H U N ( r ) U N H ( r ) ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) - - - ( 26 ) ]]>

式中，下标array表示阵列，

因为式(26)正交特性趋向于0，则平均空间谱函数的峰值所对应的角度θ，即为声
源位置角度估计值。

步骤五：结合实际情况：仅有麦克风采集到的语音信号可用，运用频率点均值和时间
快拍估计的方法求得信号空间谱平均估计值，进而求得声源估计角度；

在实际中，由于CX是未知的，仅可以利用麦克风采集到的语音信号x(t)，而且矢量信
号X(k)的复包络值也不能准确的确定。因此需要计算协方差矩阵CX、矢量信号X(k)的近
似值，这里采用时间快拍估计方法来求近似值。设时间系数t′＝T0,2T0…，T0表示时间间隔，
一方面x(t)以(l为整数)速率进行采样，因此在每个t′上，在快拍为
时，通过傅里叶级数(FS)估计X(k)的近似值为另一方面，
在t′上估计CX，运用W长度的滑动窗口在T0空间进行采样再由加权求和方法求得的估计
值替代定义的期望值。在W长度的窗口中，期望CX的近似值是完全基于得到的，且
二者是相互独立的，这排除了快拍使用重叠的可能性，即

式中，表示输入信号在时间间隔为T0时，第l个傅里叶级数的近似值，为取
整运算符；

根据上述分析，式(26)可进一步表示为

h ^ a r r a y ( θ ) = 1 B Σ b = 1 B 1 ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) H U ^ N ( r ) U ^ N H ( r ) ( R ( r , k b ) L ( r , k b ) V ( r , θ , k b ) ) - - - ( 28 ) ]]>

式中，表示声源位置矢量的噪声子空间矩阵UN(r)的近似值，下标N表示
Noise(噪声)。

仿真环境为5.5m×3.3m×2.3m的房间冲激响应模型，运用含有6个麦克风的圆形阵列，
相邻麦克风间的夹角为60°，阵列的直径为40cm，声速c＝343m/s，混响时间T60＝250ms。
根据近场条件，声源响应在r＝0.6m～1.6m范围内，据此设定声源S1的角度为θ1＝60°，距
离阵列中心距离为0.7m，声源S2的角度为θ2＝-20°，距离阵列中心距离为1.2m；声源与
阵列在同一个平面上，且二个声源信号相互独立、能量相等。环境噪声SNR分别取0dB、
5dB、10dB、15dB、20dB。对于采集的语音信号，设定帧长为512点，帧移为160点，FFT
的长度为1024点，采样率为16000Hz，窗函数选择汉明窗，窗长取150点。

实测环境为全消声实验室、非消声实验室，房间尺寸(5.5m×3.3m×2.3m)、阵列摆放
位置与仿真环境相同，声源高度、阵列高度都为1.2m，阵列为6个麦克风的圆形阵列。实
验器材：数据采集设备为16通道的PXIE-4496数据采集卡、配套PC机(Intel2GHzCorei7
CPU，2GBRAM)；声源为AM012人工嘴、便携式音箱；麦克风为的简易声音传感器模
块(全向性，工作电压5V)。由于人工嘴在通电工作时产生的嘶嘶声、房间换气扇转动时
产生的呼呼声，实测环境下的信噪比平均为20dB。

图3是本发明方法在相同混响时间(T60)，不同信噪比(SNR)条件下声源定位结果。图4
是本发明方法在不同混响时间、相同信噪比条件下声源定位结果。图5是本发明方法与传
统的MUSIC、BSS-TDOA方法的声源定位结果的比较。图6是本发明方法在全消声实验
室声源定位结果。图7是本发明方法在非消声实验室声源定位结果。图8是本发明方法仿
真实验与实测实验进行声源定位结果的比较。图3、图4、图5、图6、图7都是用来说明
本发明定位效果。

相同混响时间(T60)、不同信噪比(SNR)条件下声源定位结果：

混响时间为T60＝250ms，信噪比(SNR)不同分别为20dB、15dB、10dB、5dB、0dB
条件下，六元麦克风阵列的声源定位结果。

图3表明，在声源与阵列间距离的增加情况下，随着信噪比的降低，声源定位结果的
精确度降低，在近场条件下，图3中的(a)、图3中的(b)能准确、稳定地反应声源定位的结
果，图3中的(c)、图3中的(d)、图3中的(e)能反应出声源定位的结果，但是随着信噪比
降低会出现伪峰、出现局部衰减影响声源定位。图3中的(a)在20dB时，曲线很平滑；图
3中的(b)在15dB时，在-40°附近产生幅值较小的伪峰；图3中的(c)在10dB时，在-40°
附近产生幅值较小的伪峰，在1.0m附近产生局部衰减；图3中的(d)在5dB时，在40°、
-30°、-70°附近产生伪峰，在0.8m、1.0m附近产生局部衰减；图3中的(e)在0dB时，
在80°、30°、0°、-60°附近产生伪峰，在0.7m～1.0m附近产生局部衰减；但由图3中的(d)、
图3中的(e)可看出，虽然有局部衰减与伪峰的影响，但仍能较为准确的得到声源位置。因
此从总体上看，本发明方法能准确、稳定的确定声源位置结果。

不同混响时间、相同信噪比条件下声源定位结果：

图4表明，在相同信噪比下，混响时间对声源定位结果的影响较小。

本发明方法与传统的MUSIC、BSS-TDOA方法的声源定位结果的对比：

声源S1、S2分别位于{[10°、-10°]，[20°、-20°]，[30°、-30°]，[40°、-40°]，[50°、-50°]，
[60°、-60°]，[70°、-70°]，[80°、-80°]，[90°、-90°]}位置。

图5表明，在信噪比为20dB、混响时间为250ms的条件下，本发明方法能较为准确
的确定声源S1、S2的位置，传统的MUSIC方法的估计误差基本在8°左右；而BSS-TDOA
的方法，由于存在了盲源分离与声源定位二个步骤，对声源定位的精确度造成影响，估计
误差基本在10°左右。

在全消声实验室声源定位结果：

图6是本发明方法在全消声实验室声源定位结果：图6中的(a)为三维图；图6中的(b)
为侧视图。图6表明，在全消声实验室中，由于仅存在噪声因素的影响，因此本发明方法
能准确的测得声源位置，声源S1为-21.4°、S2为61.5°。

在非全消声实验室声源定位结果：

图7是本发明方法在非消声实验室声源定位结果：图7中的(a)为三维图；图7中的(b)
为侧视图。图7表明，在非消声实验室中，由于存在混响、噪声等因素的影响，本发明方
法仍能较为准确的测得声源位置声源S1为-19.4°、S2为58.7°。

图8是本发明方法仿真实验与实测实验进行声源定位结果的对比图，仿真实验与实测
实验进行声源定位结果的对比：

声源S1、S2分别位于{[10°、-10°]，[20°、-20°]，[30°、-30°]，[40°、-40°]，[50°、-50°]，
[60°、-60°]}位置。

由于存在实际环境噪声、混响以及采集设备A/D转换等影响因素，实测结果与仿真结
果存在一定偏差，在仿真实验中声源定位平均绝对估计误差S1为0.7°、S2为1.1°，在
实测实验中，全消声实验室情况下平均绝对估计误差S1为1.3°、S2为1.5°，非消声实
验室情况下平均绝对估计误差S1为1.9°、S2为2.3°。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以
上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，
在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发
明的保护范围。