一种基于麦克风阵列的摄像头引导装置及引导方法.pdf

上传人：奻奴

文档编号：4687789

上传时间：2018-10-27

格式：PDF

页数：13

大小：2.18MB

《一种基于麦克风阵列的摄像头引导装置及引导方法.pdf》由会员分享，可在线阅读，更多相关《一种基于麦克风阵列的摄像头引导装置及引导方法.pdf（13页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 (43)申请公布日 (21)申请号 201410726856.7 (22)申请日 2014.12.05 H04N 5/232(2006.01) G01S 5/18(2006.01) (71)申请人合肥国科声拓信息技术有限公司地址 230000 安徽省合肥市蜀山区望江西路 203 号金色名郡 6 幢 2007 室 (72)发明人蔡盛盛 (54) 发明名称一种基于麦克风阵列的摄像头引导装置及引导方法 (57) 摘要本发明涉及基于麦克风阵列的摄像头引导装置及引导方法，该引导装置包括带有控制云台的摄像头、麦克风阵列和多通道声音信号同步采集处理系统，多通道声音。

2、信号同步处理系统包括调理电路、 Codec 芯片、 DSP 芯片和 485 接口，调理电路用于对麦克风采集的模拟信号进行调理， Codec 芯片用于将模拟信号转换为数字信号并将数字信号送入DSP芯片中， DSP芯片用于根据所接收到的数字信号进行突发声信号检测以及突发声信号测向，并将测向结果通过 485 接口传送给摄像头的控制云台，从而调整摄像头的视角以对准目标进行拍摄。该引导装置具有自适应性，应用范围广，能避免摄像头没有目的的转动；同时，方向的估计精度和系统的鲁棒性高。 (51)Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求。

3、书2页说明书7页附图3页 (10)申请公布号 CN 104469154 A (43)申请公布日 2015.03.25 CN 104469154 A 1/2 页 2 1.一种基于麦克风阵列的摄像头引导装置，其包括带有控制云台的摄像头 (1)、由多个麦克风组成的围绕所述摄像头(1)设置的麦克风阵列(2)和多通道声音信号同步采集处理系统 (3)，其中，所述多个麦克风通过音频线连接到所述多通道声音信号同步采集处理系统 (3) 从而将多通道麦克风信号输送到所述多通道声音信号同步采集处理系统 (3) 中，所述多通道声音信号同步处理系统包括调理电路、 Codec 芯片、 DSP 芯片和。

4、 485 接口，其中，所述调理电路用于对所述多个麦克风采集的模拟信号进行调理，所述 Codec 芯片用于将经所述调理电路调理过的模拟信号转换为数字信号并将所述数字信号送入所述 DSP 芯片中，所述 DSP 芯片用于根据所接收到的数字信号进行突发声信号检测以及突发声信号测向，并将测向结果通过所述 485 接口传送给所述摄像头 (1) 的控制云台，从而调整所述摄像头 (1) 的视角以对准目标进行拍摄。 2.一种采用权利要求 1 所述的基于麦克风阵列的摄像头引导装置的摄像头引导方法，其包括以下步骤：第一步：启动所述摄像头引导装置，通过所述 Codec 芯片将所述多个麦。

5、克风采集到的模拟信号转换为数字信号，并将所述数字信号送入所述 DSP 芯片；第二步：由所述 DSP 芯片根据其中一个麦克风接收到的信号自适应地估计环境噪声能量；第三步：由所述 DSP 芯片计算该麦克风接收到的信号的能量和所述环境噪声能量的比值，根据该比值判断是否有突发声信号出现，如果有转入第四步；如果没有则转入第二步，继续根据麦克风接收到的信号自适应地估计环境噪声能量；第四步：由所述 DSP 芯片根据第三步的突发声检测结果，截取出所述多个麦克风中有突发声的信号段；第五步：由所述 DSP 芯片将所述第四步中截取的麦克风的信号分别进行快速傅里叶。

6、变换，变成多个窄带信号，根据不同的应用场景和突发声信号的特点，选取合适的频带利用宽带波达方向估计算法估计目标的方位角和俯仰角；第六步：由所述 DSP 芯片将所述方位角和俯仰角通过所述 485 接口发送给所述摄像头的控制云台，所述控制云台根据该方位角和俯仰角调整所述摄像头的视角进行拍摄。 3.如权利要求 2 所述的摄像头引导方法，其中，所述第二步中，假设某个麦克风接收到的信号为 x(t)，则根据该麦克风接收到的信号自适应地估计环境噪声能量 Pn(t) 用公式可以表示为其中， fL和 fH为麦克风接收到的信号的最低频率和最高频率， Pn(t， f) 是麦克风接收。

7、到的信号在频率 f 处的能量， Pn(t-1， f) 是麦克风接收到的信号在前一时刻频率 f 处的能量， X(t， f) 是麦克风接收到的信号的傅里叶变换， (t) 是平滑系数。 4.如权利要求 3 所述的摄像头引导方法，其中，所述第三步中，该麦克风接收到的信号的能量为则该麦克风接收到的信号的能量和环境噪声能量的比值 SNR Ps(t)/Pn(t)，当 SNR Th时，检测到突发声信号；当 SNR T h时，没有检测到突发声权利要求书 CN 104469154 A 2 2/2 页 3 信号，其中 Th为检测阈值。 5.如权利要求 4 所述的摄像头引导方法，其中。

8、，所述第五步中，所述宽带波达方向估计算法选用频域波束形成算法，频域波束形成算法通过对接收信号做傅里叶变换，将不同麦克风之间的时间延迟转换为各个频带上的相位差，然后在每个频带上应用波束形成算法获得该频带上的角度估计，最后将这些频带上的角度估计结果取平均获得目标信号的角度估计。 6.如权利要求 5 所述的摄像头引导方法，其中，具体地，假定所述麦克风阵列接收到的信号为 xn(t)， n 1， 2， .， N，其中 N 为麦克风阵列中麦克风的个数，首先对接收到的信号做快速傅里叶变换，得到信号在各个频带上的表示 Xn(f)，将 N 个麦克风的信号表示成列向量的形式。

9、X(f) X1(f)， X2(f)， .， XN(f)T 其中 T表示向量转置变换，根据向量 X(f) 获得阵列信号在频带 f 处的协方差矩阵 R(f)，用公式可以表示为 R(f) EX(f)X(f)H 其中 E 为取均值运算，利用协方差矩阵 R(f) 就可以获得宽带波束形成算法的代价函数其中和分别为目标信号的俯仰角和方位角，为麦克风阵列的导向矢量其中为目标信号到第 n 个麦克风和第 1 个麦克风之间的时间延迟，该延迟可以根据麦克风陈列的形状和位置确定，最后通过对代价函数的搜索就可以获得目标信号的俯仰角和方位角，用公式可以表示为权利要求书 CN 1044691。

10、54 A 3 1/7 页 4 一种基于麦克风阵列的摄像头引导装置及引导方法技术领域 0001 本发明属于监控技术领域，涉及一种利用麦克风阵列对突发声源进行检测及测向，并引导摄像头捕捉该突发声源的装置及方法。背景技术 0002 目前，视频监控是监控领域中的一个重要手段，已经得到广泛应用。然而，摄像头有盲区，一般摄像头的视角为 52，监控范围有限，可转动的摄像头通常是有规律的旋转或由人工控制，很难及时捕捉到突发事件，如公共场所的骚乱、居民小区车辆偷窃报警、交通事故等。如果这些事件没有在摄像头的监控区域，传统的视频监控系统就无能为力了。 0003 众所周知，人。

11、可以通过耳朵对突发事件的声音进行定位，进而及时调整视角。借鉴人的感知机理，可以为摄像头装上 “耳朵” ，这个 “耳朵” 就是麦克风阵列。利用麦克风阵列对突发事件的声音进行检测及测向，并引导摄像头，实现对突发事件的音视频实时监控。 0004 目前利用麦克风阵列对声源进行定位，进而引导摄像头对准声源已有多个专利。美国专利 US 6,826,284 B1 中利用 6 个麦克风组成立体阵列，通过时间延迟测向算法 (TDOA) 对声源进行定位，从而引导摄像头指向声源。中国专利 CN10156798B 披露了基于麦克风阵列声音智导的智能视频导播方法，其首先对关键区域进行拍摄参数。

12、设置，将示例保存在训练集中，然后利用麦克风阵列对声源进行定位，并将定位结果与训练集中的示例进行比对计算，最后引导摄像头按给定参数进行拍摄。中国实用新型专利 CN203151672U 披露了一种声源定位功能的视频系统，其在自己搭建的硬件系统上实现了声源定位并控制云台上的摄像头对准声源。 0005 但是，以上这些专利中共同的缺点是： 1. 没有声音检测模块，如果不加入声音检测模块则摄像头并不能有的放矢的对准突发事件，且整个系统容易受外界噪声干扰； 2. 以上专利中利用的都是 TDOA 类声源定位方法，该类方法要求传声器间隔较大，因此导致整个装置体积庞大，在实。

13、际中难以实用；并且该类测向算法属于时域处理方法，而不同场景下的声音信号的频率范围是不同的，该类方法没有对声音频率进行选择。发明内容 0006 本发明针对上述现有技术的不足，提出了一种利用麦克风阵列引导摄像头捕捉突发声源的装置及方法，其中使用了噪声谱估计技术和宽带信号波达方向估计技术，因此具有自适应性，应用范围广，能避免摄像头没有目的的转动；同时，方向的估计精度和系统的鲁棒性高。 0007 为了实现上述目的，本发明提供如下技术方案：一种基于麦克风阵列的摄像头引导装置，其包括带有控制云台的摄像头、由多个麦克风组成的围绕所述摄像头设置的麦克风阵列和多。

14、通道声音信号同步采集处理系统，其中，所述多个麦克风通过音频线连接到所述多通道声音信号同步采集处理系统从而将多通道麦克风信号输送到所述多通道声音信号同步采集处理系统中，所述多通道声音信号同步处理系统包括调理电路、 Codec 芯片、 DSP 说明书 CN 104469154 A 4 2/7 页 5 芯片和 485 接口，其中，所述调理电路用于对所述多个麦克风采集的模拟信号进行调理，所述 Codec 芯片用于将经所述调理电路调理过的模拟信号转换为数字信号并将所述数字信号送入所述 DSP 芯片中，所述 DSP 芯片用于根据所接收到的数字信号进行突发声信号检测以及突发声信号。

15、测向，并将测向结果通过所述 485 接口传送给所述摄像头的控制云台，从而调整所述摄像头的视角以对准目标进行拍摄。 0008 此外，本发明还提供一种采用上述基于麦克风阵列的摄像头引导装置的摄像头引导方法，其包括以下步骤：第一步：启动所述摄像头引导装置，通过所述 Codec 芯片将所述多个麦克风采集到的模拟信号转换为数字信号，并将所述数字信号送入所述 DSP 芯片；第二步：由所述 DSP 芯片根据其中一个麦克风接收到的信号自适应地估计环境噪声能量；第三步：由所述 DSP 芯片计算该麦克风接收到的信号的能量和所述环境噪声能量的比值，根据该比值判断是否。

16、有突发声信号出现，如果有转入第四步；如果没有则转入第二步，继续根据麦克风接收到的信号自适应地估计环境噪声能量；第四步：由所述 DSP 芯片根据第三步的突发声检测结果，截取出所述多个麦克风中有突发声的信号段；第五步：由所述 DSP 芯片将所述第四步中截取的麦克风的信号分别进行快速傅里叶变换，变成多个窄带信号，根据不同的应用场景和突发声信号的特点，选取合适的频带利用宽带波达方向估计算法估计目标的方位角和俯仰角；第六步：由所述 DSP 芯片将所述方位角和俯仰角通过所述 485 接口发送给所述摄像头的控制云台，所述控制云台根据该方位角和俯仰角调整所。

17、述摄像头的视角进行拍摄。 0009 进一步地，其中，所述第二步中，假设某个麦克风接收到的信号为 x(t)，则根据该麦克风接收到的信号自适应地估计环境噪声能量 Pn(t) 用公式可以表示为 0010 0011 其中， fL和 f H为麦克风接收到的信号的最低频率和最高频率， Pn(t， f) 是麦克风接收到的信号在频率 f 处的能量， Pn(t-1， f) 是麦克风接收到的信号在前一时刻频率 f 处的能量， X(t， f) 是麦克风接收到的信号的傅里叶变换， (t) 是平滑系数。 0012 更进一步地，其中，所述第三步中，该麦克风接收到的。

18、信号的能量为则该麦克风接收到的信号的能量和环境噪声能量的比值 SNR Ps(t)/Pn(t)，当 SNR Th时，检测到突发声信号；当 SNR T h时，没有检测到突发声信号，其中 Th为检测阈值。 0013 再进一步地，其中，所述第五步中，所述宽带波达方向估计算法选用频域波束形成算法，频域波束形成算法通过对接收信号做傅里叶变换，将不同麦克风之间的时间延迟转换为各个频带上的相位差，然后在每个频带上应用波束形成算法获得该频带上的角度估计，最后将这些频带上的角度估计结果取平均获得目标信号的角度估计。 0014 再更进一步地，其中，具体地，假定所述麦。

19、克风阵列接收到的信号为 xn(t)， n 1， 2， .， N，其中 N 为麦克风阵列中麦克风的个数， 0015 首先对接收到的信号做快速傅里叶变换，得到信号在各个频带上的表示 Xn(f)，将 N 个麦克风的信号表示成列向量的形式 0016 X(f) X1(f)， X2(f)， .， XN(f)T 说明书 CN 104469154 A 5 3/7 页 6 0017 其中 T表示向量转置变换， 0018 根据向量 X(f) 获得阵列信号在频带 f 处的协方差矩阵 R(f)，用公式可以表示为 0019 R(f) EX(f)X(f)H 0020 其中 E 为取均值运算， 0021 利用协。

20、方差矩阵 R(f) 就可以获得宽带波束形成算法的代价函数 0022 0023 其中和分别为目标信号的俯仰角和方位角，为麦克风阵列的导向矢量 0024 0025 其中为目标信号到第 n 个麦克风和第 1 个麦克风之间的时间延迟，该延迟可以根据麦克风陈列的形状和位置确定， 0026 最后通过对代价函数的搜索就可以获得目标信号的俯仰角和方位角，用公式可以表示为 0027 0028 与现有技术相比，本发明具有如下优点： 0029 1、加入了声音检测，利用噪声谱估计技术实时估计周围环境中平稳噪声的能量，然后根据信噪比对突发声信号进行检测，该检测方法具有自适应性，避免了硬阈值的设。

21、定，应用范围广；同时，也可以避免摄像头没有目的的转动。 0030 2、测向算法使用了宽带波达方向估计算法，与时域的 TDOA 算法相比，阵列的尺寸可以明显缩小，这样可以将麦克风固定在摄像头的周围，将麦克风阵列坐标系与摄像头的坐标系吻合；并且可以根据目标信号的特点，有选择的选取特定的某些频带计算目标信号的角度，提高方向的估计精度和系统的鲁棒性。附图说明 0031 图 1 是本发明的基于麦克风阵列的摄像头引导装置的示意图。 0032 图 2 是本发明的多通道声音信号同步采集处理系统的框图。 0033 图 3 是本发明的摄像头引导方法的流程图。 0034 图 4 是。

22、一个示例性的应用场景。具体实施方式 0035 下面结合附图详细描述本发明的具体实施方式，具体实施方式的内容不作为对本发明的保护范围的限定。 0036 本发明涉及利用麦克风阵列引导摄像头捕捉突发声源的装置及方法，其中使用了说明书 CN 104469154 A 6 4/7 页 7 噪声谱估计技术和宽带信号波达方向估计技术，因此具有自适应性，应用范围广，能避免摄像头没有目的的转动；同时，方向的估计精度和系统的鲁棒性高。 0037 图 1 示出了本发明的基于麦克风阵列的摄像头引导装置的示意图。如图 1 所示，本发明的基于麦克风阵列的摄像头引导装置包括带有控制云台的摄像头1。

23、。优选地，所述摄像头1为HIVISION DS一2AF4262高速球机，该摄像头配有控制云台，可以水平360，竖直 90任意旋转。该控制云台有控制端接口，用户可以通过该接口调整摄像头视角。 0038 此外，所述基于麦克风阵列的摄像头引导装置还包括由多个麦克风组成的围绕所述摄像头1设置的麦克风阵列2和多通道声音信号同步采集处理系统3。其中，所述多个麦克风通过音频线连接到所述多通道声音信号同步采集处理系统 3 从而将多通道麦克风信号输送到所述多通道声音信号同步采集处理系统 3 中。 0039 如图2所示，所述多通道声音信号同步处理系统包括调理电路、 Codec芯片、 D。

24、SP芯片和 485 接口。其中，所述调理电路用于对所述多个麦克风采集的模拟信号进行调理，以便于所述 Codec 芯片将所述模拟信号转换成数字信号。所述 Codec 芯片用于将经所述调理电路调理过的模拟信号转换为数字信号并将所述数字信号送入所述 DSP 芯片中。所述 DSP 芯片用于根据所接收到的数字信号进行突发声信号检测以及突发声信号测向，并将测向结果通过所述 485 接口传送给所述摄像头 1 的控制云台，从而调整所述摄像头 1 的视角以对准目标进行拍摄。 0040 如图 3 所示，在采用上述基于麦克风阵列的摄像头引导装置的引导摄像头时，第一步是启动所述摄像头引导装置。

25、，通过所述多个麦克风获取周围可能出现的突发声信号，并通过所述 Codec 芯片将所述多个麦克风采集到的模拟信号转换为数字信号，并将所述数字信号送入所述 DSP 芯片。 0041 第二步是由所述 DSP 芯片根据一个麦克风接收到的信号自适应地估计环境噪声能量。具体地，假设某个麦克风接收到的信号为x(t)，则根据该麦克风接收到的信号自适应地估计环境噪声能量 Pn(t) 用公式可以表示为 0042 0043 其中， fL和 f H为麦克风接收到的信号的最低频率和最高频率， Pn(t， f) 是麦克风接收到的信号在频率 f 处的能量， Pn(t-1， f) 是麦克风接收到的信号在前。

26、一时刻在频率 f 处的能量， X(t， f) 是麦克风接收到的信号的傅里叶变换， (t) 是平滑系数，该系数根据麦克风接收到的信号的特点进行适当选取。 0044 第三步是由所述 DSP 芯片计算该麦克风接收到的信号的能量和所述环境噪声能量的比值，即信噪比，根据该比值判断是否有突发声信号出现，如果有转入第四步；如果没有则转入第二步，继续根据麦克风接收到的信号自适应地估计环境噪声能量。具体地，该麦克风接收到的信号的能量为则该麦克风接收到的信号的能量和环境噪声能量的比值SNRPs(t)/Pn(t)，当SNRTh时，检测到突发声信号，进入下述的第四步进行处理；。

27、当 SNR Th时，没有检测到突发声信号，继续根据麦克风的信号自适应地估计环境噪声能量，其中 Th为检测阈值，根据该麦克风接收到的信号的特点进行选取。 0045 第四步是由所述 DSP 芯片根据第三步的突发声检测结果，截取出所述多个麦克风说明书 CN 104469154 A 7 5/7 页 8 中有突发声的信号段。 0046 第五步是由所述 DSP 芯片将所述第四步中截取的麦克风的信号分别进行快速傅里叶变换，变成多个窄带信号，根据不同的应用场景和突发声信号的特点，选取合适的频带利用宽带波达方向估计算法估计目标的方位角和俯仰角。具体地，所述宽带波达方向估计算法选。

28、用频域波束形成算法，频域波束形成算法通过对接收信号做傅里叶变换，将不同麦克风之间的时间延迟转换为各个频带上的相位差，然后在每个频带上应用波束形成算法获得该频带上的角度估计，最后将这些频带上的角度估计结果取平均获得目标信号的角度估计。其中，假定所述麦克风阵列接收到的信号为 xn(t)， n 1， 2， .， N，其中 N 为麦克风阵列中麦克风的个数， 0047 首先对接收到的信号做快速傅里叶变换，得到信号在各个频带上的表示 Xn(f)，将 N 个麦克风的信号表示成列向量的形式 0048 X(f) X1(f)， X2(f)， .， XN(f)T 0049 其中 T表示向量转。

29、置变换， 0050 根据向量 X(f) 获得阵列信号在频带 f 处的协方差矩阵 R(f)，用公式可以表示为 0051 R(f) EX(f)X(f)H 0052 其中 E 为取均值运算， 0053 利用协方差矩阵 R(f) 就可以获得宽带波束形成算法的代价函数 0054 0055 其中和分别为目标信号的俯仰角和方位角，为麦克风阵列的导向矢量 0056 0057 其中为目标信号到第 n 个麦克风和第 1 个麦克风之间的时间延迟，该延迟可以根据麦克风陈列的形状和位置确定， 0058 最后通过对代价函数的搜索就可以获得目标信号的俯仰角和方位角，用公式可 0059 以表示为 0060 第六步。

30、是由所述DSP芯片将所述方位角和俯仰角通过所述485接口发送给所述摄像头的控制云台，所述控制云台根据该方位角和俯仰角调整所述摄像头的视角进行拍摄。 0061 调整之后，继续进入所述第二步，用以判断是否有新的突发声信号的出现，继续进行监控和调整。 0062 下面以一个示例性的例子说明本发明的基于麦克风阵列的摄像头引导方法是如何实现摄像头的视角的调整的。 0063 本实施例在一个 6m8m 的房间中进行，设备放置在房间中央，突发声信号为音响，音响播放一段语音信号。设备如图 1 所示，摄像头为 HIVISIONDS-2AF4262 高速球机，该摄像头配有云台，可以水平。

31、360，竖直 90任意旋转，该云台有控制端接口，用户可以通说明书 CN 104469154 A 8 6/7 页 9 过该接口调整摄像头视角。摄像头周围布置了 4 个 MEMS 麦克风，组成了一个圆阵，圆阵的半径为 74mm。4 个麦克风通过音频线连接到多通道声音信号同步采集处理系统中，同步采集处理系统的原理框图如图 2 所示。同步采集处理系统中， Codec 芯片负责将 4 路传声器的模拟信号转换为数字信号送入 DSP 芯片中， DSP 芯片根据接收到的信号进行突发声信号检测以及突发声信号测向，并将测向结果通过 485 接口传送给摄像头的云台，从而调整摄像头视角。

32、对准目标进行拍摄。 0064 本实例的具体布置如图 4 所示，假定设备放置在房间的中央，音响分别放在设备的 90， 135， 180三个位置上，音响距离设备 2.5m，音响与设备在同一水平面上，因此本实例中只需要考虑方位角即可。本实例的具体步骤如下： 0065 第一步：摄像头引导装置通电，麦克风阵列对周围声信号进行采集，多通道声音信号同步采集处理系统中的 Codec 芯片将麦克风采集的模拟信号转换为数字信号，采样率为 8k。 0066 第二步： DSP 芯片对接收到的 4 路信号进行分帧和加窗处理后，根据第一路信号实时估计周围环境噪声能量。 0067 第三步。

33、： DSP 芯片根据估算的噪声能量计算信噪比，判断信噪比是否大于某个阈值。如果信噪比大于阈值，则转入第四步；否则转入第二步。 0068 第四步： DSP 芯片根据第三步的信号检测结果，截取出 4 路麦克风中有目标信号的数据。 0069 第五步： DSP 芯片将截取的 4 路麦克风信号分段，并对每段数据分别进行 FFT( 快速傅里叶 ) 变换，得到 Xl(f)， l 1， 2， .， L，其中 L 为分段个数，利用这 L 个向量估计阵列信号的协方差矩阵估计方法如下 0070 0071 其中 T为向量的共轭转置。 0072 根据 4 路麦克的位置，确定阵列的导向矢量。

34、为 0073 0074 其中 r 0.074m， c 340m/s。 0075 根据阵列协方差矩阵和阵列导向矢量 a(f， ) 就可以得到宽带波束形成算法的代价函数 J() 0076 通过对代价函数进行搜索， J() 的最大值对应的角度就是目标的方向估计。 0077 第六步： DSP 芯片将目标的方向估计通过 485 接口发送给控制云台，控制云台转动调整摄像头视角进行拍摄。 0078 第七步：转入第二步。 0079 将音响分别置于 90， 135和 180三个位置上，突然打开音响后，摄像头经过 1s 钟的延迟后可以正确的指向音响。 0080 具体实施方式的内容是为了便于本领域技。

35、术人员理解和使用本发明而描述的，说明书 CN 104469154 A 9 7/7 页 10 并不构成对本发明保护内容的限定。本领域技术人员在阅读了本发明的内容之后，可以对本发明进行合适的修改。本发明的保护内容以权利要求的内容为准。在不脱离权利要求的实质内容和保护范围的情况下，对本发明进行的各种修改、变更和替换等都在本发明的保护范围之内。说明书 CN 104469154 A 10 1/3 页 11 图 1 图 2 说明书附图 CN 104469154 A 11 2/3 页 12 图 3 说明书附图 CN 104469154 A 12 3/3 页 13 图 4 说明书附图 CN 104469154 A 13 。

摘要
申请专利号：	CN201410726856.7	申请日：	2014.12.05
公开号：	CN104469154A	公开日：	2015.03.25
当前法律状态：	实审	有效性：	审中
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):H04N5/232申请日:20141205\|\|\|公开
IPC分类号：	H04N5/232; G01S5/18	主分类号：	H04N5/232
申请人：	合肥国科声拓信息技术有限公司
发明人：	蔡盛盛
地址：	230000安徽省合肥市蜀山区望江西路203号金色名郡6幢2007室
优先权：
专利代理机构：		代理人：
PDF完整版下载：	PDF下载

内容摘要

本发明涉及基于麦克风阵列的摄像头引导装置及引导方法，该引导装置包括带有控制云台的摄像头、麦克风阵列和多通道声音信号同步采集处理系统，多通道声音信号同步处理系统包括调理电路、Codec芯片、DSP芯片和485接口，调理电路用于对麦克风采集的模拟信号进行调理，Codec芯片用于将模拟信号转换为数字信号并将数字信号送入DSP芯片中，DSP芯片用于根据所接收到的数字信号进行突发声信号检测以及突发声信号测向，并将测向结果通过485接口传送给摄像头的控制云台，从而调整摄像头的视角以对准目标进行拍摄。该引导装置具有自适应性，应用范围广，能避免摄像头没有目的的转动；同时，方向的估计精度和系统的鲁棒性高。

权利要求书

权利要求书
1.  一种基于麦克风阵列的摄像头引导装置，其包括带有控制云台的摄像头(1)、由多个麦克风组成的围绕所述摄像头(1)设置的麦克风阵列(2)和多通道声音信号同步采集处理系统(3)，其中，所述多个麦克风通过音频线连接到所述多通道声音信号同步采集处理系统(3)从而将多通道麦克风信号输送到所述多通道声音信号同步采集处理系统(3)中，所述多通道声音信号同步处理系统包括调理电路、Codec芯片、DSP芯片和485接口，其中，所述调理电路用于对所述多个麦克风采集的模拟信号进行调理，所述Codec芯片用于将经所述调理电路调理过的模拟信号转换为数字信号并将所述数字信号送入所述DSP芯片中，所述DSP芯片用于根据所接收到的数字信号进行突发声信号检测以及突发声信号测向，并将测向结果通过所述485接口传送给所述摄像头(1)的控制云台，从而调整所述摄像头(1)的视角以对准目标进行拍摄。

2.  一种采用权利要求1所述的基于麦克风阵列的摄像头引导装置的摄像头引导方法，其包括以下步骤：
第一步：启动所述摄像头引导装置，通过所述Codec芯片将所述多个麦克风采集到的模拟信号转换为数字信号，并将所述数字信号送入所述DSP芯片；
第二步：由所述DSP芯片根据其中一个麦克风接收到的信号自适应地估计环境噪声能量；
第三步：由所述DSP芯片计算该麦克风接收到的信号的能量和所述环境噪声能量的比值，根据该比值判断是否有突发声信号出现，如果有转入第四步；如果没有则转入第二步，继续根据麦克风接收到的信号自适应地估计环境噪声能量；
第四步：由所述DSP芯片根据第三步的突发声检测结果，截取出所述多个麦克风中有突发声的信号段；
第五步：由所述DSP芯片将所述第四步中截取的麦克风的信号分别进行快速傅里叶变换，变成多个窄带信号，根据不同的应用场景和突发声信号的特点，选取合适的频带利用宽带波达方向估计算法估计目标的方位角和俯仰角；
第六步：由所述DSP芯片将所述方位角和俯仰角通过所述485接口发送给所述摄像头的控制云台，所述控制云台根据该方位角和俯仰角调整所述摄像头的视角进行拍摄。

3.  如权利要求2所述的摄像头引导方法，其中，所述第二步中，假设某个麦克风接收到的信号为x(t)，则根据该麦克风接收到的信号自适应地估计环境噪声能量Pn(t)用公式可以表示为
Pn(t)=Σf=fLfHPn(t,f)=Σf=fLfHα(t)Pn(t-1,f)+(1-α(t))|X(t,f)|2]]>
其中，fL和fH为麦克风接收到的信号的最低频率和最高频率，Pn(t，f)是麦克风接收到的信号在频率f处的能量，Pn(t-1，f)是麦克风接收到的信号在前一时刻频率f处的能量，X(t，f)是麦克风接收到的信号的傅里叶变换，α(t)是平滑系数。

4.  如权利要求3所述的摄像头引导方法，其中，所述第三步中，该麦克风接收到的信号的能量为则该麦克风接收到的信号的能量和环境噪声能量的比值SNR＝Ps(t)/Pn(t)，当SNR＞Th时，检测到突发声信号；当SNR≤Th时，没有检测到突发声信号，其中Th为检测阈值。

5.  如权利要求4所述的摄像头引导方法，其中，所述第五步中，所述宽带波达方向估计算法选用频域波束形成算法，频域波束形成算法通过对接收信号做傅里叶变换，将不同麦克风之间的时间延迟转换为各个频带上的相位差，然后在每个频带上应用波束形成算法获得该频带上的角度估计，最后将这些频带上的角度估计结果取平均获得目标信号的角度估计。

6.  如权利要求5所述的摄像头引导方法，其中，具体地，假定所述麦克风阵列接收到的信号为xn(t)，n＝1，2，...，N，其中N为麦克风阵列中麦克风的个数，
首先对接收到的信号做快速傅里叶变换，得到信号在各个频带上的表示Xn(f)，将N个麦克风的信号表示成列向量的形式
X(f)＝[X1(f)，X2(f)，...，XN(f)]T
其中[·]T表示向量转置变换，
根据向量X(f)获得阵列信号在频带f处的协方差矩阵R(f)，用公式可以表示为
R(f)＝E[X(f)X(f)H]
其中E[·]为取均值运算，
利用协方差矩阵R(f)就可以获得宽带波束形成算法的代价函数

其中θ和分别为目标信号的俯仰角和方位角，为麦克风阵列的导向矢量

其中为目标信号到第n个麦克风和第1个麦克风之间的时间延迟，该延迟可以根据麦克风陈列的形状和位置确定，
最后通过对代价函数的搜索就可以获得目标信号的俯仰角和方位角，用公式可以表示为

说明书

说明书一种基于麦克风阵列的摄像头引导装置及引导方法
技术领域
本发明属于监控技术领域，涉及一种利用麦克风阵列对突发声源进行检测及测向，并引导摄像头捕捉该突发声源的装置及方法。
背景技术
目前，视频监控是监控领域中的一个重要手段，已经得到广泛应用。然而，摄像头有盲区，一般摄像头的视角为52°，监控范围有限，可转动的摄像头通常是有规律的旋转或由人工控制，很难及时捕捉到突发事件，如公共场所的骚乱、居民小区车辆偷窃报警、交通事故等。如果这些事件没有在摄像头的监控区域，传统的视频监控系统就无能为力了。
众所周知，人可以通过耳朵对突发事件的声音进行定位，进而及时调整视角。借鉴人的感知机理，可以为摄像头装上“耳朵”，这个“耳朵”就是麦克风阵列。利用麦克风阵列对突发事件的声音进行检测及测向，并引导摄像头，实现对突发事件的音视频实时监控。
目前利用麦克风阵列对声源进行定位，进而引导摄像头对准声源已有多个专利。美国专利US 6,826,284 B1中利用6个麦克风组成立体阵列，通过时间延迟测向算法(TDOA)对声源进行定位，从而引导摄像头指向声源。中国专利CN10156798B披露了基于麦克风阵列声音智导的智能视频导播方法，其首先对关键区域进行拍摄参数设置，将示例保存在训练集中，然后利用麦克风阵列对声源进行定位，并将定位结果与训练集中的示例进行比对计算，最后引导摄像头按给定参数进行拍摄。中国实用新型专利CN203151672U披露了一种声源定位功能的视频系统，其在自己搭建的硬件系统上实现了声源定位并控制云台上的摄像头对准声源。
但是，以上这些专利中共同的缺点是：1.没有声音检测模块，如果不加入声音检测模块则摄像头并不能有的放矢的对准突发事件，且整个系统容易受外界噪声干扰；2.以上专利中利用的都是TDOA类声源定位方法，该类方法要求传声器间隔较大，因此导致整个装置体积庞大，在实际中难以实用；并且该类测向算法属于时域处理方法，而不同场景下的声音信号的频率范围是不同的，该类方法没有对声音频率进行选择。
发明内容
本发明针对上述现有技术的不足，提出了一种利用麦克风阵列引导摄像头捕捉突发声源的装置及方法，其中使用了噪声谱估计技术和宽带信号波达方向估计技术，因此具有自适应性，应用范围广，能避免摄像头没有目的的转动；同时，方向的估计精度和系统的鲁棒性高。
为了实现上述目的，本发明提供如下技术方案：一种基于麦克风阵列的摄像头引导装置，其包括带有控制云台的摄像头、由多个麦克风组成的围绕所述摄像头设置的麦克风阵列和多通道声音信号同步采集处理系统，其中，所述多个麦克风通过音频线连接到所述多通道声音信号同步采集处理系统从而将多通道麦克风信号输送到所述多通道声音信号同步采集处理系统中，所述多通道声音信号同步处理系统包括调理电路、Codec芯片、DSP芯片和485接口，其中，所述调理电路用于对所述多个麦克风采集的模拟信号进行调理，所述Codec芯片用于将经所述调理电路调理过的模拟信号转换为数字信号并将所述数字信号送入所述DSP芯片中，所述DSP芯片用于根据所接收到的数字信号进行突发声信号检测以及突发声信号测向，并将测向结果通过所述485接口传送给所述摄像头的控制云台，从而调整所述摄像头的视角以对准目标进行拍摄。
此外，本发明还提供一种采用上述基于麦克风阵列的摄像头引导装置的摄像头引导方法，其包括以下步骤：第一步：启动所述摄像头引导装置，通过所述Codec芯片将所述多个麦克风采集到的模拟信号转换为数字信号，并将所述数字信号送入所述DSP芯片；第二步：由所述DSP芯片根据其中一个麦克风接收到的信号自适应地估计环境噪声能量；第三步：由所述DSP芯片计算该麦克风接收到的信号的能量和所述环境噪声能量的比值，根据该比值判断是否有突发声信号出现，如果有转入第四步；如果没有则转入第二步，继续根据麦克风接收到的信号自适应地估计环境噪声能量；第四步：由所述DSP芯片根据第三步的突发声检测结果，截取出所述多个麦克风中有突发声的信号段；第五步：由所述DSP芯片将所述第四步中截取的麦克风的信号分别进行快速傅里叶变换，变成多个窄带信号，根据不同的应用场景和突发声信号的特点，选取合适的频带利用宽带波达方向估计算法估计目标的方位角和俯仰角；第六步：由所述DSP芯片将所述方位角和俯仰角通过所述485接口发送给所述摄像头的控制云台，所述控制云台根据该方位角和俯仰角调整所述摄像头的视角进行拍摄。
进一步地，其中，所述第二步中，假设某个麦克风接收到的信号为x(t)，则根据该麦克风接收到的信号自适应地估计环境噪声能量Pn(t)用公式可以表示为
Pn(t)=Σf=fLfHPn(t,f)=Σf=fLfHα(t)Pn(t-1,f)+(1-α(t))|X(t,f)|2]]>
其中，fL和fH为麦克风接收到的信号的最低频率和最高频率，Pn(t，f)是麦克风接收到的信号在频率f处的能量，Pn(t-1，f)是麦克风接收到的信号在前一时刻频率f处的能量，X(t，f)是麦克风接收到的信号的傅里叶变换，α(t)是平滑系数。
更进一步地，其中，所述第三步中，该麦克风接收到的信号的能量为则该麦克风接收到的信号的能量和环境噪声能量的比值SNR＝Ps(t)/Pn(t)，当SNR＞Th时，检测到突发声信号；当SNR≤Th时，没有检测到突发声信号，其中Th为检测阈值。
再进一步地，其中，所述第五步中，所述宽带波达方向估计算法选用频域波束形成算法，频域波束形成算法通过对接收信号做傅里叶变换，将不同麦克风之间的时间延迟转换为各个频带上的相位差，然后在每个频带上应用波束形成算法获得该频带上的角度估计，最后将这些频带上的角度估计结果取平均获得目标信号的角度估计。
再更进一步地，其中，具体地，假定所述麦克风阵列接收到的信号为xn(t)，n＝1，2，...，N，其中N为麦克风阵列中麦克风的个数，
首先对接收到的信号做快速傅里叶变换，得到信号在各个频带上的表示Xn(f)，将N个麦克风的信号表示成列向量的形式
X(f)＝[X1(f)，X2(f)，...，XN(f)]T
其中[·]T表示向量转置变换，
根据向量X(f)获得阵列信号在频带f处的协方差矩阵R(f)，用公式可以表示为
R(f)＝E[X(f)X(f)H]
其中E[·]为取均值运算，
利用协方差矩阵R(f)就可以获得宽带波束形成算法的代价函数

其中θ和分别为目标信号的俯仰角和方位角，为麦克风阵列的导向矢量

其中为目标信号到第n个麦克风和第1个麦克风之间的时间延迟，该延迟可以根据麦克风陈列的形状和位置确定，
最后通过对代价函数的搜索就可以获得目标信号的俯仰角和方位角，用公式可以表示为

与现有技术相比，本发明具有如下优点：
1、加入了声音检测，利用噪声谱估计技术实时估计周围环境中平稳噪声的能量，然后根据信噪比对突发声信号进行检测，该检测方法具有自适应性，避免了硬阈值的设定，应用范围广；同时，也可以避免摄像头没有目的的转动。
2、测向算法使用了宽带波达方向估计算法，与时域的TDOA算法相比，阵列的尺寸可以明显缩小，这样可以将麦克风固定在摄像头的周围，将麦克风阵列坐标系与摄像头的坐标系吻合；并且可以根据目标信号的特点，有选择的选取特定的某些频带计算目标信号的角度，提高方向的估计精度和系统的鲁棒性。
附图说明
图1是本发明的基于麦克风阵列的摄像头引导装置的示意图。
图2是本发明的多通道声音信号同步采集处理系统的框图。
图3是本发明的摄像头引导方法的流程图。
图4是一个示例性的应用场景。
具体实施方式
下面结合附图详细描述本发明的具体实施方式，具体实施方式的内容不作为对本发明的保护范围的限定。
本发明涉及利用麦克风阵列引导摄像头捕捉突发声源的装置及方法，其中使用了噪声谱估计技术和宽带信号波达方向估计技术，因此具有自适应性，应用范围广，能避免摄像头没有目的的转动；同时，方向的估计精度和系统的鲁棒性高。
图1示出了本发明的基于麦克风阵列的摄像头引导装置的示意图。如图1 所示，本发明的基于麦克风阵列的摄像头引导装置包括带有控制云台的摄像头1。优选地，所述摄像头1为HIVISION DS一2AF4262高速球机，该摄像头配有控制云台，可以水平360°，竖直90°任意旋转。该控制云台有控制端接口，用户可以通过该接口调整摄像头视角。
此外，所述基于麦克风阵列的摄像头引导装置还包括由多个麦克风组成的围绕所述摄像头1设置的麦克风阵列2和多通道声音信号同步采集处理系统3。其中，所述多个麦克风通过音频线连接到所述多通道声音信号同步采集处理系统3从而将多通道麦克风信号输送到所述多通道声音信号同步采集处理系统3中。
如图2所示，所述多通道声音信号同步处理系统包括调理电路、Codec芯片、DSP芯片和485接口。其中，所述调理电路用于对所述多个麦克风采集的模拟信号进行调理，以便于所述Codec芯片将所述模拟信号转换成数字信号。所述Codec芯片用于将经所述调理电路调理过的模拟信号转换为数字信号并将所述数字信号送入所述DSP芯片中。所述DSP芯片用于根据所接收到的数字信号进行突发声信号检测以及突发声信号测向，并将测向结果通过所述485接口传送给所述摄像头1的控制云台，从而调整所述摄像头1的视角以对准目标进行拍摄。
如图3所示，在采用上述基于麦克风阵列的摄像头引导装置的引导摄像头时，第一步是启动所述摄像头引导装置，通过所述多个麦克风获取周围可能出现的突发声信号，并通过所述Codec芯片将所述多个麦克风采集到的模拟信号转换为数字信号，并将所述数字信号送入所述DSP芯片。
第二步是由所述DSP芯片根据一个麦克风接收到的信号自适应地估计环境噪声能量。具体地，假设某个麦克风接收到的信号为x(t)，则根据该麦克风接收到的信号自适应地估计环境噪声能量Pn(t)用公式可以表示为
Pn(t)=Σf=fLfHPn(t,f)=Σf=fLfHα(t)Pn(t-1,f)+(1-α(t))|X(t,f)|2]]>
其中，fL和fH为麦克风接收到的信号的最低频率和最高频率，Pn(t，f)是麦克风接收到的信号在频率f处的能量，Pn(t-1，f)是麦克风接收到的信号在前一时刻在频率f处的能量，X(t，f)是麦克风接收到的信号的傅里叶变换，α(t)是平滑系数，该系数根据麦克风接收到的信号的特点进行适当选取。
第三步是由所述DSP芯片计算该麦克风接收到的信号的能量和所述环境噪声能量的比值，即信噪比，根据该比值判断是否有突发声信号出现，如果有转入第四步；如果没有则转入第二步，继续根据麦克风接收到的信号自适应地估计环境噪声能量。具体地，该麦克风接收到的信号的能量为则该麦克风接收到的信号的能量和环境噪声能量的比值SNR＝Ps(t)/Pn(t)，当SNR＞Th时，检测到突发声信号，进入下述的第四步进行处理；当SNR≤Th时，没有检测到突发声信号，继续根据麦克风的信号自适应地估计环境噪声能量，其中Th为检测阈值，根据该麦克风接收到的信号的特点进行选取。
第四步是由所述DSP芯片根据第三步的突发声检测结果，截取出所述多个麦克风中有突发声的信号段。
第五步是由所述DSP芯片将所述第四步中截取的麦克风的信号分别进行快速傅里叶变换，变成多个窄带信号，根据不同的应用场景和突发声信号的特点，选取合适的频带利用宽带波达方向估计算法估计目标的方位角和俯仰角。具体地，所述宽带波达方向估计算法选用频域波束形成算法，频域波束形成算法通过对接收信号做傅里叶变换，将不同麦克风之间的时间延迟转换为各个频带上的相位差，然后在每个频带上应用波束形成算法获得该频带上的角度估计，最后将这些频带上的角度估计结果取平均获得目标信号的角度估计。其中，假定所述麦克风阵列接收到的信号为xn(t)，n＝1，2，...，N，其中N为麦克风阵列中麦克风的个数，
首先对接收到的信号做快速傅里叶变换，得到信号在各个频带上的表示Xn(f)，将N个麦克风的信号表示成列向量的形式
X(f)＝[X1(f)，X2(f)，...，XN(f)]T
其中[·]T表示向量转置变换，
根据向量X(f)获得阵列信号在频带f处的协方差矩阵R(f)，用公式可以表示为
R(f)＝E[X(f)X(f)H]
其中E[·]为取均值运算，
利用协方差矩阵R(f)就可以获得宽带波束形成算法的代价函数

其中θ和分别为目标信号的俯仰角和方位角，为麦克风阵列的导向矢量

其中为目标信号到第n个麦克风和第1个麦克风之间的时间延迟，该延迟可以根据麦克风陈列的形状和位置确定，
最后通过对代价函数的搜索就可以获得目标信号的俯仰角和方位角，用公式可
以表示为
第六步是由所述DSP芯片将所述方位角和俯仰角通过所述485接口发送给所述摄像头的控制云台，所述控制云台根据该方位角和俯仰角调整所述摄像头的视角进行拍摄。
调整之后，继续进入所述第二步，用以判断是否有新的突发声信号的出现，继续进行监控和调整。
下面以一个示例性的例子说明本发明的基于麦克风阵列的摄像头引导方法是如何实现摄像头的视角的调整的。
本实施例在一个6m×8m的房间中进行，设备放置在房间中央，突发声信号为音响，音响播放一段语音信号。设备如图1所示，摄像头为HIVISIONDS-2AF4262高速球机，该摄像头配有云台，可以水平360°，竖直90°任意旋转，该云台有控制端接口，用户可以通过该接口调整摄像头视角。摄像头周围布置了4个MEMS麦克风，组成了一个圆阵，圆阵的半径为74mm。4个麦克风通过音频线连接到多通道声音信号同步采集处理系统中，同步采集处理系统的原理框图如图2所示。同步采集处理系统中，Codec芯片负责将4路传声器的模拟信号转换为数字信号送入DSP芯片中，DSP芯片根据接收到的信号进行突发声信号检测以及突发声信号测向，并将测向结果通过485接口传送给摄像头的云台，从而调整摄像头视角对准目标进行拍摄。
本实例的具体布置如图4所示，假定设备放置在房间的中央，音响分别放在设备的90°，135°，180°三个位置上，音响距离设备2.5m，音响与设备在同一水平面上，因此本实例中只需要考虑方位角即可。本实例的具体步骤如下：
第一步：摄像头引导装置通电，麦克风阵列对周围声信号进行采集，多通道声音信号同步采集处理系统中的Codec芯片将麦克风采集的模拟信号转换为数字信号，采样率为8k。
第二步：DSP芯片对接收到的4路信号进行分帧和加窗处理后，根据第一路信号实时估计周围环境噪声能量。
第三步：DSP芯片根据估算的噪声能量计算信噪比，判断信噪比是否大于某个阈值。如果信噪比大于阈值，则转入第四步；否则转入第二步。
第四步：DSP芯片根据第三步的信号检测结果，截取出4路麦克风中有目标信号的数据。
第五步：DSP芯片将截取的4路麦克风信号分段，并对每段数据分别进行FFT(快速傅里叶)变换，得到Xl(f)，l＝1，2，...，L，其中L为分段个数，利用这L个向量估计阵列信号的协方差矩阵估计方法如下
R^(f)=Σl=1LXl(f)Xl(f)H]]>
其中[·]T为向量的共轭转置。
根据4路麦克的位置，确定阵列的导向矢量为
a(f,θ)=[e-j2πfrcos(θ)/c,ej2πfrsin(θ)/c,ej2πfrcos(θ)/c,e-j2πfrsin(θ)/c]T]]>
其中r＝0.074m，c＝340m/s。
根据阵列协方差矩阵和阵列导向矢量a(f，θ)就可以得到宽带波束形成算法的代价函数J(θ)J(θ)=Σf=fLfHa(f,θ)HR(f)a(f,θ).]]>
通过对代价函数进行搜索，J(θ)的最大值对应的角度就是目标的方向估计。
第六步：DSP芯片将目标的方向估计通过485接口发送给控制云台，控制云台转动调整摄像头视角进行拍摄。
第七步：转入第二步。
将音响分别置于90°，135°和180°三个位置上，突然打开音响后，摄像头经过1s钟的延迟后可以正确的指向音响。
具体实施方式的内容是为了便于本领域技术人员理解和使用本发明而描述的，并不构成对本发明保护内容的限定。本领域技术人员在阅读了本发明的内容之后，可以对本发明进行合适的修改。本发明的保护内容以权利要求的内容为准。在不脱离权利要求的实质内容和保护范围的情况下，对本发明进行的各种修改、变更和替换等都在本发明的保护范围之内。