书签 分享 收藏 举报 版权申诉 / 10

基于盲源分离的双话筒移动设备语音信号增强方法.pdf

  • 上传人:GAME****980
  • 文档编号:5891873
  • 上传时间:2019-03-29
  • 格式:PDF
  • 页数:10
  • 大小:451.62KB
  • 摘要
    申请专利号:

    CN201510054467.9

    申请日:

    2015.02.02

    公开号:

    CN104637494A

    公开日:

    2015.05.20

    当前法律状态:

    实审

    有效性:

    审中

    法律详情:

    实质审查的生效IPC(主分类):G10L 21/0272申请日:20150202|||公开

    IPC分类号:

    G10L21/0272(2013.01)I

    主分类号:

    G10L21/0272

    申请人:

    哈尔滨工程大学

    发明人:

    吕淑平; 温桀骜; 张成; 刘楚辞; 岳建杰

    地址:

    150001黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室

    优先权:

    专利代理机构:

    代理人:

    PDF完整版下载: PDF下载
    内容摘要

    本发明公开了一种基于盲源分离的双话筒移动设备语音信号增强方法。包括以下步骤:安装在通讯设备底端同一水平线上相距d的两个话筒用于接收语音信号,得到观测信号;对观测信号进行去均值处理;对去均值处理后的信号进行去相关处理;对去相关处理后的信号采用欠定盲分离方法来分离混合信号,得到混叠矩阵的估计值和各个声源估计;从各个声源估计选择能量最大的声源作为目标人声信号。本发明能够提高传输语音信号的信噪比,提高语音信号的可懂度。

    权利要求书

    权利要求书
    1.  基于盲源分离的双话筒移动设备语音信号增强方法,其特征在于:包括以下几个步骤,
    步骤一:安装在通讯设备底端同一水平线上相距d的两个话筒用于接收语音信号,得到观测 信号x=[x1;x2],x1是一个话筒中的语音信号,x2是另一个话筒中的语音信号;
    步骤二:对观测信号进行去均值处理;
    步骤三:对去均值处理后的信号vi(t)进行去相关处理;
    步骤四:对去相关处理后的信号z(t)采用欠定盲分离方法来分离混合信号,得到混叠矩阵的 估计值和各个声源估计;
    步骤五:从各个声源估计选择能量最大的声源作为目标人声信号。

    2.  根据权利要求1所述的基于盲源分离的双话筒移动设备语音信号增强方法,其特征在于: 所述的对观测信号进行去均值处理为:
    v i ( t ) = x i ( t ) - 1 N Σ k = 1 N x i ( t ) ; k ]]>
    其中,vi(t)为去均值处理后的信号,N为采样点的个数,i为第i路信号,为第k个采样点。

    3.  根据权利要求1所述的基于盲源分离的双话筒移动设备语音信号增强方法,其特征在于: 所述的得到混叠矩阵估计值的方法为,
    步骤一:将去相关处理后的信号z(t)表示成极坐标的形式为:
    l t = ( z 1 t ) 2 + ( z 2 t ) 2 θ t = tan - 1 ( z 2 t / z 1 t ) ]]>
    其中,去相关处理后的信号z(t)为二维信号,t为lt和θt分别表示半径和角度;
    步骤二:定义基函数φ:

    其中,α为任意方向和θt之间的角度偏差,
    得到关于角度θ的全局势函数φ(θ,λ):
    φ ( θ , λ ) = Σ t l t φ ( λ ( θ - θ t ) ) ]]>
    其中,λ是参数;
    步骤三:对全局势函数进行平滑处理,得到新的势函数φ'(θ,λ),该势函数的每个峰值为混 合矩阵的一个列向量ai,
    ai=[sin(π/2+θi),cos(π/2+θi)]T
    其中,i=1,2,...,npeak,npeak为峰值的总个数;
    得到混合矩阵的估计值
    A ~ = [ a 1 , a 2 , . . . , a npeak ] . ]]>

    4.  根据权利要求1所述的基于盲源分离的双话筒移动设备语音信号增强方法,其特征在于: 所述的得到各个声源估计的方法为:
    将所有样本点作为输入,在As(t)=x(t)条件下,求最小化l1范数|s(t)|1,
    min Σ t = 1 T Σ j = 1 N | s j ( t ) | , As ( t ) = x ( t ) ]]>
    得到各个声源估计。

    5.  根据权利要求1所述的基于盲源分离的双话筒移动设备语音信号增强方法,其特征在于: 所述的每个声源估计的能量为:
    LE = Σ j = 1 n ( s i ) 2 , ]]>
    其中,n表示整个信号的长度,j表示声源估计si的第j个点。

    6.  根据权利要求1所述的基于盲源分离的双话筒移动设备语音信号增强方法,其特征在于: 所述的距离d大于或者等于4.25cm,每个话筒接收语音信号的长度小于或者等于30ms。

    说明书

    说明书基于盲源分离的双话筒移动设备语音信号增强方法
    技术领域
    本发明属于语音信号增强领域,尤其涉及一种能够提高传输信号信噪比的,基于盲源分 离的双话筒移动设备语音信号增强方法。
    背景技术
    随着人们生活水平的越来越高,移动设备如平板电脑,电话走入了人们的日常生活之中, 成为了日常生活中的一种必需品,当前平板电脑的用途不仅是看文档、视频、照片,玩游戏, 自从微信、qq等应用软件带有了语音功能,逐渐平板也扮演者语音通讯的角色,虽然目前电 话的功能越来多样,但是她语音通讯的主要功能是没有变化的,而且移动电话并融入了微信、 qq这些带有语音传输功能的软件,因此在信号传输前,我们就希望有着高可懂度、高真实度 的语音信号,这就必然会用到语音信号增强技术。
    传统的语音增强技术只是一些滤波技术,如中值滤波、维纳滤波、自适应滤波技术,但 是这些滤波方法只能消除某些特定频段的噪声,如50Hz的工频信号,但是这些方法不能去 除长时间存在的声音背景的噪声。
    发明内容
    本发明的目的是提供一种能够提高传输信号信噪比的,基于盲源分离的双话筒移动设备 语音信号增强方法。
    本发明是通过以下技术方案实现的:
    基于盲源分离的双话筒移动设备语音信号增强方法,包括以下几个步骤,
    步骤一:安装在通讯设备底端同一水平线上相距d的两个话筒用于接收语音信号,得到观测 信号x=[x1;x2],x1是一个话筒中的语音信号,x2是另一个话筒中的语音信号;
    步骤二:对观测信号进行去均值处理;
    步骤三:对去均值处理后的信号进行去相关处理;
    步骤四:对去相关处理后的信号采用欠定盲分离方法来分离混合信号,得到混叠矩阵的估计 值和各个声源估计;
    步骤五:从各个声源估计选择能量最大的声源作为目标人声信号。
    本发明基于盲源分离的双话筒移动设备语音信号增强方法,还可以包括:
    1、对观测信号进行去均值处理为:
    v i ( t ) = x i ( t ) - 1 N Σ k = 1 N x i ( t ) ; k ]]>
    其中,vi(t)为去均值处理后的信号,N为采样点的个数,i为第i路信号,为第k个采样点。 2、得到混叠矩阵估计值的方法为,
    步骤一:将去相关处理后的信号z(t)表示成极坐标的形式为:
    l t = ( z 1 t ) 2 + ( z 2 t ) 2 θ t = tan - 1 ( z 2 t / z 1 t ) ]]>
    其中,去相关处理后的信号z(t)为二维信号,t为lt和θt分别表示半径和角度;
    步骤二:定义基函数φ:

    其中,α为任意方向和θt之间的角度偏差,
    得到关于角度θ的全局势函数φ(θ,λ):
    φ ( θ , λ ) = Σ t l t φ ( λ ( θ - θ t ) ) ]]>
    其中,λ是参数;
    步骤三:对全局势函数进行平滑处理,得到新的势函数φ'(θ,λ),该势函数的每个峰值为混 合矩阵的一个列向量ai,
    ai=[sin(π/2+θi),cos(π/2+θi)]T
    其中,i=1,2,...,npeak,npeak为峰值的总个数;
    得到混合矩阵的估计值
    A ~ = [ a 1 , a 2 , . . . , a npeak ] . ]]>
    3、得到各个声源估计的方法为:
    将所有样本点作为输入,在As(t)=x(t)条件下,求最小化l1范数|s(t)|1,
    min Σ t = 1 T Σ j = 1 N | s j ( t ) | , As ( t ) = x ( t ) ]]>
    得到各个声源估计。
    4、每个声源估计的能量为:
    LE = Σ j = 1 n ( s i ) 2 , ]]>
    其中,n表示整个信号的长度,j表示声源估计si的第j个点。
    5、距离d大于或者等于4.25cm,每个话筒接收语音信号的长度小于或者等于30ms。
    有益效果
    因为盲源分离技术就是解决在不知道源信号和混叠信息这些先验知识下获得信源的一种 方法,利用这种方法可以把背景声音和噪声去除,所以本发明在不大量改变设备硬件结构的 前提下,只是增加一个话筒,然后按照当前信号处理方法把两路语音信号处理之后,然后用 盲源分离的方法对语音信号增强。
    本发明不需要大量的增加额外的增加通讯设备的硬件成本、外观以及体积,主要是从计 算方法上提高通讯输入语音信号的可懂度与信噪比,使得另一端能接收到更加清晰的语音信 号;传统方法语音信号的增强方法只是提高了语音信号的清晰度,但是不能去除语音信号中 混杂的噪声语音信号,本发明的目的就是解决常规语音信号不能去除声音背景,大大提高了 输入语音的信噪比,大大提高了语音信号的可懂度。
    附图说明
    图1是通讯设备的双话筒的位置关系;
    图2是语音数字信号的数字处理过程;
    图3是最短路径法示意图。
    具体实施方式
    下面将结合附图对本发明做进一步详细说明。
    针对目前通讯设备中无法去除语音背景的噪声,首先在系统硬件结构上做稍微的改动, 然后利用系统自身处理语音信号之后,我们在计算方法上采取如下方法实现声音背景的噪声 去除。
    基于盲源分离的双话筒移动设备语音信号增强方法,包括以下几个部分:
    (1)移动设备的话筒有两个,并且两话筒都必须安装在正面底端,两者之间的距离必须大 于等于4.25cm;
    (2)在语音信号数字化的时候,每段语音的长度必须不大于30ms,数字化之后的语音信号 必须对语音信号进行去均值和去相关,以减少下一步的迭代次数;
    (3)预处理之后的信号进行基于最短路径的欠定盲分离方法计算出混叠的语音个数和每一 路语音信号,能量最大的语音信号就是所求的语音信号。
    采用欠定盲分离中的势函数的方法估计混叠矩阵。势函数为 lt和θt分别表示平面上一点到原点距离与该直线同x正轴的夹角,然后对势函数平滑得到新 的势函数φ'(θ,λ),求得势函数就能求得其峰值,每个峰值就是混合矩阵的一个列向量,于 是有混合矩阵列向量的计算方法:
    ai=[sin(π/2+θi),cos(π/2+θi)]T
    θi表示第i个峰值处的角度,于是有混合矩阵A的估计:
    在混叠矩阵A,有观测信号x和假定源信号稀疏的条件下,用l1-范数作为稀疏的度量,源信号估计过程就是对于所有的样本点x(t),在As(t)=x(t)的条件下 求得每一个信源之后,求得能量最大的信号,即为传输语音信号。
    下面结合附图,详细介绍本发明的步骤:
    第一步:在通讯设备底端安装另外一个话筒,两个话筒要在同一水平线上,并且二者之间的 距离d要大于4.25cm,手机中的两个话筒模拟信号同时被其中的数字信号处理器采集,其示 意图如图1。
    第二步:数字信号的处理过程:
    数字信号处理的过程如图2所示,观测信号矩阵x=[x1;x2],其中x1是一个话筒中的信 号,x2是另一个话筒中的信号,每次信号采集话筒中每段信号的长度为10到30ms以内。
    step1:去均值
    去均值是使得每一路观测信号都是零均值的,也就是x中减去其均值矢量E(x),在实际 的计算中,每一路信号x的数学期望采用算术平均值代替,第i路信号去均值如下式:
    v i ( t ) = x t ( t ) - 1 N Σ k = 1 N x i ( t ) - - - ( 1 ) ]]>
    N表示采样点的个数,i表示第i路信号,k表示第k个采样点。
    step2:去相关
    去相关是通过特征值分解v的协方差矩阵Rv=E(vvT)=QDQT,其中D为Rv特征值组成的对 角矩阵,Q为对应特征值的特征向量组成的矩阵,这样就能得到白化矩阵T=D-1/2QT,由变换 z=Tv得白化信号z。
    step3:采用最短路径法的欠定盲分离方法来分离混合信号,具体过程:
    a)混叠矩阵的估计
    观测信号是二维的,将其转换到二维平面的散点图,混叠矩阵的列向量方向可以用θ表 示的极坐标的形式表示,t时刻数据点z(t)处坐标点为那么有
    l t = ( z 1 t ) 2 + ( z 2 t ) 2 θ t = tan - 1 ( z 2 t / z 1 t ) - - - ( 2 ) ]]>
    lt和θt分别表示半径和角度。在信号处理的过程中设定一个阈值ε,若处在lt<ε的范围内则 去掉这些点,取α为任意方向和θt之间的角度偏差,选择一个绕着zt的基函数φ,φ是关于 局部角度α的函数,有

    并且定义一个关于绝对角度θ的全局势函数φ:
    φ ( θ , λ ) = Σ t l t φ ( λ ( θ - θ t ) ) - - - ( 4 ) ]]>
    参数λ是用来调节期望角度的宽度或者是局部分辨率,根据经验参数λ选择为0.1到150之 间,lt是各个样本点的权重,一般取为样本点的模,势函数φ(θ,λ)的大小就是采样点在θ 处概率密度的大小,将φ(θ,λ)多点平滑去掉虚假峰值,aj-n、aj-n+1...aj...aj+n-1、aj+n为势函 数φ(θ,λ)上的点,平滑方法为
    b(j)=(aj-n+aj-n+1+...+aj...+aj+n-1+aj+n)/2n     (5)
    平滑之后新的势函数为φ'(θ,λ),求得势函数就能求得其峰值,每个峰值就是混合矩阵的一 个列向量,于是有混合矩阵列向量的计算方法:
    ai=[sin(π/2+θi),cos(π/2+θi)]T       (6)
    其中,i=1,2,...,npeak,npeak表示峰值的总个数,θi表示第i个峰值处的角度,于是有混合 矩阵A的估计:
    A ~ = [ a 1 , a 2 , . . . , a npeak ] - - - ( 7 ) ]]>
    b)各个声源的估计
    在给出混合矩阵A非方阵、观测信号x和假定源信号稀疏的条件下,求s变成了求解线 性规划的问题,用l1-范数作为稀疏的度量,则源信号估计过程就是对于 所有的样本点x(t),在As(t)=x(t)的条件下,最小化l1范数|s(t)|1。
    min Σ t = 1 T Σ j = 1 N | s j ( t ) | , As ( t ) = x ( t ) - - - ( 8 ) ]]>
    在公式(8)的可能解中找一条从原点到x(t)的最短路径就是所求解,如图3所示,假设点x(t) 是频域中的一个观测信号,那么从原点o到x(t)最短路径为向量顺时针和逆时针方 向距离向量x(t)最近的两个向量a和b。
    假设Ar=[a,b]T,其为估计的混叠矩阵A的任意两列构成的2×2的子矩阵,sr(t)为x(t)的 沿着a和b两个方向的分量。
    s r = A r - 1 x ( t ) s j ( t ) = 0 , j ≠ a , b - - - ( 9 ) ]]>
    设定一个r,如果lt<r,就把这些点的值赋为零,为了获得更高的分离准确性,r设定的小 一些,令r=0.1*max(lt)。对向量ai周围的点进行预处理,可以确定x中靠近ai的区域为:
    1 6 ( θ a 2 - θ a 1 ) θ 1 6 ( θ a 3 - θ a 2 ) - - - ( 10 ) ]]>
    根据时频掩蔽的原理有
    s a ( t ) = x i ( t ) / a ii s j ( t ) = 0 , j ≠ a - - - ( 11 ) ]]>
    i=1,2,...,npeak,npeak峰值的个数,这样就求得了每一个原始分量。
    step4:从分离出的信号中筛选出目标人声信号
    在step3中得到了信源的估计s,在手机或者平板在进行语音通讯的时候,每一段语音中 要传输的说话人的语音信号总能量才是最大,按如下公式计算信号能量
    LE = Σ j = 1 n ( s i ) 2 - - - ( 12 ) ]]>
    其中n表示整个信号的长度,j表示估计信源i的第j个点。所有的输出s中LE最大的信源就 是目标语音信号,就可以直接传输处理后的语音信号了。

    关 键  词:
    基于 分离 话筒 移动 设备 语音 信号 增强 方法
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于盲源分离的双话筒移动设备语音信号增强方法.pdf
    链接地址:https://www.zhuanlichaxun.net/p-5891873.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1