基于预测的平均主观评估得分值的呼叫路由选择方法 交叉引用相关申请
本申请要求保护2002年12月30日递交的韩国专利申请No.200287412的优先权权益,这里全文参照引用了该申请的公开内容。
【技术领域】
本发明一般来说涉及一种VoIP(互联网上语音协议),更加具体地说,涉及基于预测的MOS(平均主观评估得分)值的呼叫路由选择方法,用于通过使用影响声音质量的网络参数预测符合IP(互联网协议)的声音质量,并通过利用最大的预测MOS值执行从一个网关组到一个网关的呼叫路由选择,从而在限定的环境提供最高的声音质量。
背景技术
许多年来,技术人员一直致力于更加有效地在公用电话网上进行语音呼叫并改进声音质量。由于他们的努力,当前的公用电话网能够支持实时语音服务所要求的质量,如低的传播质量、以及抖动。用户逐渐习惯公用电话网上的声音质量,他们现在承认,这样的声音质量是标准化的。
另一方面,IP网络已经通过非实时地应用如私人文件传送、电子邮件等实施成功。由于非实时的应用要求宽带和猝发的话务量,偶然的延迟和抖动不被认为是严重的问题。
如果将公用电话网和IP网络结合起来,则必须改变IP网络,使其成为一个网络结构以保证声音服务的QoS(服务质量)。因为互联网是基于分组交换系统的,所以有各种各样的影响通话质量的参数。还有,在公用电话网和互联网之间工作的网络中涉及的许多因素都容易使通话质量下降。
为了更加有效地利用互联网带宽,通常要压缩语音数据。然而,不管使用哪种传输系统,声音质量都要下降。尤其是,当要将每行声音数据压缩成超过两倍的时候,语音质量明显下降。
在语音通信中,通常使用压缩/解压器(codec)系统和数字信号处理(DSP),因为它们能够保持带宽不变。但是,它们还能使声音保真度下降。最佳的压缩/解压器提供最大的带宽不变性,同时产生最小的信号质量下降。使用实验室仪器可以测量带宽,但声音质量需要人的解释。
还有,声音数据对于延迟是非常敏感的。一般情况下,当网络(传输)延迟时间累计为150-200ms时,大多数用户就要开始抱怨声音质量了。
网络延迟包括传播延迟和处理延迟。传播延迟通常发生在使用光纤和铜作为介质的网络中。发生处理延迟的主要原因是处理信息的通信设备花费比必要的时间更长的时间输入和输出信息,处理延迟包括压缩/解压器延迟和排队延迟。
除了传播延迟和处理延迟以外,抖动是对语音质量产生很大冲击的另一个因素。抖动是在将要接收的预测的语音数据分组和实际接收的语音数据分组之间的偏差。例如,假定发射机在规则的时间间隔(即,D1)发送语音数据分组A、B、C。然而,因为传播延迟和处理延迟根据网络的通信量的状态有所变化,所以接收机在规则的时间间隔却没能接收到分组A、B、C。
抖动大体上是在数据间隔不均匀的时候使语音数据的质量下降。作为解决抖动的一种尝试,通信设备建立一个抖动缓冲器以使分组的间隔均匀。在诸如路由器或帧延迟开关之类的数据通信设备中,抖动的出现更为经常,这是因为这类设备在管理通信量时经常忽略抖动并且使用与通用数据相同的方法处理声音数据的缘故。
尤其是,回声可能是对于声音质量有最大影响的因素之一。产生回声的原因是在常规的长途电话网络上4线开关到2线开关之间的阻抗差。
大多数人当在电话上与人交谈时通过手机听到他们自己的声音的时候会感到限自信。然而,如果他们在25ms后听见他们自己的回声,他们会有另一种感觉。回声干扰了他们的对话。引入回声消除器可以摆脱这个回声问题,回声消除器可以在一定时期存储负性的反转图像,并可以消除在接收数据中返回的数据。
回声消除器受到回声的总等待时间的限制。这个时间称之为回声拖尾。在一般情况下,大约32ms的等待时间就是足够长的了。
同时,设计VoIP网络应该考虑的最重要的事情是限制它的带宽。带宽随着压缩/解压器的种类和每个分组的帧数而变化。例如,假定使用8kbps的G.729压缩/解压器,将两个10ms的G.729语音帧装入单个分组。然而,在这种情况下,实际需要24kbps的带宽。因为每个G.729语音分组是10个字节,所以每个帧可能需要20个字节,尽管如此,每个分组需要IP(互联网协议)、RTP(实时传输协议)、和UDP(用户数据报协议)的报头,共计40个字节。在这种情况下,即使不包括数据链路层(例如PPP(点-点协议)、帧延迟、以太网、等等),报头的开销也是语音有效负载的两倍。因此,24kbps的带宽只对高速传输的线路如T1(1.54Mbps)、或E1(2.048Mbps)是适当的,而对低速传输的线路如56kpbs,这是一个相当大负担。
RTP是一个互联网标准协议,用于在IP网络上传输包括语音和视频在内的实时数据。RTP由数据部分和称之为RTCP的控制部分组成。RTP支持如音频或视频程序的实时应用程序,并且具有几项功能,定时复位、损耗检测、内容识别如此等等。RTP支持QoS以及在目的地多种介质流的同步。
此外,RTP在每20ms采样一个语音帧的分组语音环境产生20个字节的有效负载。这时的语音分组包括:IP报头(20个字节)、UDP报头(8个字节)、RTP报头(12个字节)、和有效负载(20个字节)。因为40个字节的报头是有效负载的两倍,所以报头在每20ms产生一个分组时所使用的带宽占一大部分。为了消除报头的浪费,提出一种称之为CRT(压缩的RTP)的方法。如这个名字所隐含的,CRTP涉及的是报头的压缩。
具体来说,CRTP方法适合于低速传输线路,因为这种方法减小了可用的带宽,如从24kbps减小到11.2kbps。例如,如果在56kbps的传播线路中使用CRTP,则只能处理4个G.729 VoIP呼叫。按照CRTP方法,如果不发送UDP校验和到IP/UDP/RTP报头,则这个报头减小2个字节,并且,如果不使用UDP校验和,则这个报头减小4个字节。
CRTP方法与TCP(传输控制协议)报头压缩方法非常相似。两种方法的依据是:两个分组的内容差别是相同的,只是每个分组的报头在不同的字段中有所改变。在压缩器和解压缩器之间共享未被压缩的报头和对话之间主要差别。一旦要传输的每一个次要的差别是0(零),则解压缩器在收到每个压缩的分组时,都要向正在存储的未被压缩的报头加上这个主要的差别。结果,可以重构初始的报头,其中没有损失任何信息。
与在相同时间共享多个TCP连接的TCP/IP报头压缩类似,重要的事情是,保持在IP/UDP/RTP中的多个对话环境。在一般情况下,将对话环境定义为如下的组合:IP源和目的地地址、UDP源和目的地端口以及RTP SSRC(同步源)字段、等。压缩系统向这种类型的字段加散列功能,并且为预存储的环境表加索引。
经过压缩的分组有一个小的整数,称之为SCID(对话上下文标识符),借助于这个标识符可以找到其分组需要解释的对话环境。解压缩器使用这个SCID为预存的对话环境加索引。
在大多数情况下,CRTP可包括40个字节的报头到2-4个字节的报头。如果在IP/UDP/RTP报头中一个特定的字段发生了变化,就不能压缩这个报头,因为报头的内容不同。换言之,如果在一个字段如有效负载中产生了变化,就应该发送这个初始时未被压缩的报头。对于CRTP,带宽是主要的问题,因此强烈推荐具有许多RTP话务量的WAN接口。
然而,在高速基干网络中,传输数量和传输速度极高。因此,在这种情况下,由于压缩/解压缩过程的开销,CRTP是不适当的。
同时,作为带宽管理方法的一个例子,还有一种多帧传输方法。如它的名称所隐含的,多帧是一起传输的,从而可以减小每一种报头的开销。如果能够使用这种方法传输RTP有效负载,就有可能减小RTP有效负载实际使用的带宽。
在构造一个帧时,不可能只忽略由每个报头占据的位。如果考虑到单元的传输效率,在一个报头下传送多个数据单元比在一个报头下传送每个数据单元要好一些。
对于G.723.1,作为一个多帧,最多可传送3(90ms)。同时,对于G.729A,作为一个多帧,最多可传送9(90ms)。对于接收语音分组的H.323端点终端的抖动缓冲,需要缓冲的至少是两个帧(180ms)(例如,多帧)。这是因为H.323Spec限制了终端延迟,不得大于180ms。
借此,将3个或9个帧分组在一起进行传送。尽管如果需要可以对于更多个帧进行分组,但在这种情况下,可能发生如以上所述的传输延迟。因此,推荐的是对于适当数目的帧进行分组。例如,对于G.723.1,2或3个帧在一起分组,并按多帧结构进行传送。还有,对于G.729A,分组的最大帧数为9,并且这9个帧按多帧结构进行传送。
然而,按照相关技术的动态抖动缓冲方法、CRTP、和多帧方法,如果确定了一个呼叫路由,每个处理器都将遵循预定的方法逐个地进行操作。因此,相关技术的方法都不能更加有效地响应初始就发生变化的网络环境,结果,基于这些方法的语音质量都不好。
况且,相关技术的上述方法只是根据预定的呼叫路由路径在呼叫建立完成以后由受到网络影响的RTP分组提供经过彻底处理的语音质量。因此,基于这些方法的语音质量受到了很大的限制。
在近期的语音通信中,特别是互联网电话,平均主观评估得分(MOS)在线路的目的地端为人的通话质量提供了数值度量。这个方案采用了主观测试结果(主观评估结果),用数学方法平均这些测试结果,从而可以获得系统性能的定量表示值。下面的美国专利利用了这种平均主观评估得分:美国专利No.6490552,授予K.Y.Martin等人,名称为“用于消音质量测量的方法和设备“;美国专利No.6609092,授予Oded Ghitza等人,名称为“从客观畸变测量估算主观的音频信号质量的方法和设备“;在这里参照引用这些美国专利。
【发明内容】
因此,本发明的一个目的是:通过使用取决于网络环境的网络参数提供基于预测的MOS值的呼叫路由选择方法路径,从而提供一种基于预测的MOS值的、能够提供高语音质量的、并能更加有效地应对网络环境变化的呼叫路由选择方法。
本发明的另一个目的是:通过在完成呼叫建立之前实现呼叫路由选择、并且通过对于路由路径提供更多选择以符合网络环境的变化,从而可提供在响应网络环境变化时具有适当的语音质量的呼叫路由选择方法。
为了实现上述目的,提供一种预测声音质量的方法,该方法包括如下步骤:第一步,使用一个语音质量测量系统获得一个方程,用于得到基于回归分析的预测的MOS(平均主观评估得分)值,所说的语音质量测量系统配备有位于始发端/接收端的多个个人计算机,其中每个个人计算机都有内置的声卡和语音样本值、IP电话机、网关、和网络参数仿真器;第二步,在VoIP网络的网关使用一个声脉冲系统(ping system)获得预测的MOS值,为此首先要获得在相应的目的地网关的分组延迟、分组丢失、分组长度、和抖动值,并且应用这个方程以得到预测的MOS值,为每个目的地网关都要获得一个预测的MOS值。
本发明的另一个方面提供一种依据VoIP的呼叫路由选择方法,该方法包括如下步骤:第一步,在一个任意的网关获得最终的预测的MOS(平均主观评估得分)值,为此要从用于得到预测的MOS值的方程获得预测的MOS值,从多个目的地网关接收预测的MOS值,并且基于来自于这个方程的预测的MOS值和从多个目的地发送的预测的MOS值来获得最终的预测的MOS值;第二步,在这个网关构造一个网关路由表,网关路由表具有按照访问代码指定的网关组表号,并且构造一个网关组的表格,它对于每个网关组都有一个网关IP地址字段,并且具有一个预测的MOS值字段,用于指定最终的预测的MOS值(预测的MOS值);和,第三步,当在一个访问代码下执行路由到一个网关组的呼叫的时候,在该网关执行路由到具有最大预测的MOS值的网关的呼叫,具有最大预测的MOS值的网关是在按照访问代码分组的网关组中的网关之一。
本发明的另一个方面提供一种依据VoIP的呼叫路由选择方法,该方法包括如下步骤:第一步,使用一个语音质量测量系统获得一个方程,用于得到基于回归分析的预测的MOS(平均主观评估得分)值,所说的语音质量测量系统配备有位于始发端/接收端的多个个人计算机,其中每个个人计算机都有内置的声卡和语音样本值、IP电话机、网关、和网络参数仿真器;第二步,在VoIP网络的网关使用一个声脉冲系统获得预测的MOS值,为此首先要获得在相应的目的地网关的分组延迟、分组丢失、分组长度、和抖动值,并且应用这个方程以得到预测的MOS值,为每个目的地网关都要获得一个预测的MOS值;第三步,在一个网关基于从这个方程获得的预测的MOS值以及从多个目的地网关获得的预测的MOS值获得最终的预测的MOS值;第四步,在这个网关构造一个网关路由表,网关路由表具有按照访问代码指定的网关组表号,并且构造一个网关组的表格,它对于每个网关组都有一个网关IP地址字段,并且具有一个预测的MOS值字段,用于指定最终的预测的MOS值(预测的MOS值);和,第五步,当在一个访问代码下执行路由到一个网关组的呼叫的时候,在该网关执行路由到具有最大预测的MOS值的网关的呼叫,具有最大预测的MOS值的网关是在按照访问代码分组的网关组中的网关之一。
【附图说明】
在结合附图参照下述的详细描述更好地理解本发明的同时,将会更加完整地认识本发明及其许多明显的优点,附图中相似的标号表示相同或类似的部件,其中:
图1是用于按照本发明响应于网络参数的变化预测语音质量的语音质量测量系统的示意图;
图2是说明按照本发测量的MOS值相对于分组丢失的曲线图;
图3是说明按照本发测量的MOS值相对于抖动的曲线图;
图4是说明按照本发测量的MOS值相对于分组丢失和抖动的曲线图;
图5a和5c表示有效的MOS值和预测的MOS值之间的关系;图5b和5d表示有效的MOS值和预测的MOS值之间的偏差的分布曲线;
图6是应用本发明的包括VoIP网关组在内的一个网络的结构图;
图7是应用本发明的网关路由表的结构图;
图8是应用本发明的网关组的表格的结构图;
图9是按照本发明的一个优选实施例基于VoIP的预测的MOS值的呼叫路由选择方法的流程图。
【具体实施方式】
下面参照附图详细描述本发明的优选实施例。在下面的描述中,不对众所周知的功能或结构作详细描述,因为这些不必要的细节将会混淆本发明。
本发明提供一种基于预测的MOS(平均主观评估得分)值的呼叫路由选择方法,其中使用了在IP网络上影响语音质量的网络参数,例如分组丢失、抖动、分组延迟、和分组大小,从而可以通过扩大负载共享范围提供最佳语音质量。
按照传统方法,语音质量的测试是在仪器屏幕上利用语音信号的波形进行基于SNR(信噪比)的测量,以及THD(总谐波畸变)的测量。这些测量方法是非常有用的,尤其是当因为各种因素使语音信号发生畸变的时候更加有用。
然而,这些方法不适用于低带宽的压缩/解压器系统,如G.729和G.723.1,它们是在VoIP中最经常使用的系统,其原因在于初始的语音信号波形不能保持不变。这样的语音编码压缩/解压器通常集中在复制主观声音上,而不在语音波形的形状上。因此,传统的方法对于使用低带宽的压缩/解压器的VoIP网络不是很有效的,因而需要适合于具有数据猝发和QoS问题的IP网络的其它测试方法。
由于语音质量的主观性质,许多受话者能够在完美限定和管理的环境评估语音质量。据信这种方法在习惯于语音呼叫的用户亲自测试语音质量的情况下是可靠的,出于这个理由,这种方法延用了许多年。ITU-TP.800将这个方法定义为MOS(平均主观评估得分)。
为了确定MOS,在通信线路上由男性和女性发话者大声朗诵测试语句,由许多收话者评估这些测试语句的质量。收话者对于每个语句都给出评估结果:(1)坏;(2)差;(3)一般;(4)好;(5)优。MOS是所有的单个得分的算术平均值,其范围可从1(最坏)到5(最好)。
然而,MOS测量要花大量的时间和成本,并且与必要的过程相比,它的过程较复杂。为了克服这些缺点,引入ITU-TP.851 PSQM(感觉的通话质量测量)。PSQM是专门为评估语音压缩/解压器开发的。按照这种方法,在语音带宽内的所有的声音都要经受客观的测量,其中包括畸变、噪声效应、和总的感觉真实程度。
为此,PSQM有一个极其清晰的、不同的语音样本,并将这个样本发送到被认为是收集发送的语音样本的受话一侧。
在这种情况下,重要的问题是受话者是如何感知所收集的语音质量的。根据受话者的感觉参考标准,PSQM通过计算提供客观的结果,从而可以确定收集的样本与初始的语音样本相比有多大的畸变。PSQM还可确定收集的语音信号是好于初始的语音样本还是坏于初始的语音样本。因为PSQM方法的这种重复性和客观性,所以与MOS方法类似,PSQM评分可以代表大量的听众。
如以上所述,PSQM最初是为了测量(或测试)在语音压缩的压缩/解压器的影响下语音质量而开发出来的,但是在PSQM评分上并没有反映出像在IP网络上的分组丢失这样的一些本来应该解决的问题。这就是开发出PSQM+(PSQM的加强版本)的理由。
另外还有一种新的模型,称之为PAMS(感知分析测量系统)。PAMS使用了一种与PSQM中使用的模型类似的感知模型,提供用于测量语音质量的重复性的和客观的系统。还有,PAMS使用了一种更加有效的信号处理方法,并且提供不同种类的评分,即“收听质量评分“和“收听效果评分“。这些评分得和MOS评分紧密相关,并且使用与MOS评分相同的标度,如1-5。
另一方面,PESQ(通话质量的感知评估)基于人的感觉因素来测量客观的通话质量,这与ITU P.862标准符合,并且通过使其与主观的测试结果相关联来提供通话质量的评分。PESQ是电信领域中对于语音质量的一种加强的感知质量测量。PESQ是专门研制的,可应用于在实际的网络如VoIP条件下端对端的语音质量测试。
在2001年2月的ITU-T研究组12的会议期间,正式批准了PESQ作为新的ITU-T推荐标准P.862,这就意味着PESQ是ITU-TP.861/PSQM的替代标准。通过组合两个高级的通话质量度量标准PSOM+和PAMS,开发出PESQ。
预测MOS所需的网络参数包括分组大小、分组丢失、分组延迟、和抖动。
在这些网络参数中,分组丢失影响语音的纯洁性。分组丢失通常是由在IP网络上话务量的瓶颈现象引起的。
出于这个理由,大多数的IP网络都有一个通过分组丢失检查网络状态的装置。换言之,要找出在网络中哪一个链路上出现瓶颈现象,就要完成阻塞控制过程,以减小传送的分组数。尤其是,当要发送/接收重要的数据的时候,分组丢失更加至关重要。因此,TCP例如要重发数据以缓解这个问题。
当关心的是一个实时应用如VoIP时,重发是不可能的,因为对于传送介质来说,使用的是UDP,而不是TCP。此外,在一定时间内没有到达的分组被认为是分组丢失,由于语音分组丢失使通话质量下降。
当损失一个分组时,在这一部分上没有进行语音数据处理,结果,用户什么也没听见。如果分组丢失连续地或经常地发生,通话质量严重下降。为了防止由分组丢失引起的通话质量下降,某些人使用了PLC(消除分组丢失)方法。按照PLC方法,当损失一个分组时,复制前一个分组,所以用户(或受话者)甚至于不会感觉到分组丢失的存在,因为对于受话者来说,根本没有静止的时刻。然而,可以看出,这个方法仅在损失一个分组时才是有效的。当一次丢失多个分组的时候,这个方法是无能为力的。实际上,PLC方法现在只在低带宽的压缩/解压器中使用。
同时,当涉及非实时应用中FTP时,分组丢失就不是一个重大的问题,重发已经丢失的分组就容易解决。然而,在实时应用中,如VoIP,一直到在指定的时间内接收到一个分组,才建立语音信号,因此在这种情况下,分组的重发只引起附加的延迟。
这就是需要新的机制来保证最低的性能要求同时在实时应用中防止分组丢失的原因。
这种机制应该能够以高的优先权最大限度地减小话务量的延迟(如语音),并应减小分组丢失。为此,对于各种路由机制进行尝试。
例如,有WFQ(加权的公平合理排队)、MPLS(多协议标记切换)标记、和在ToS(服务的类型)位中使用IP报头。为了应用这些机制,网络管理者应该构造一个合适的网络、确定服务的优先级、和选择要分配给每项服务的资源种类。此外,至于向各项服务动态分配资源,可以使用VoIP终端或RSVP(资源保存协议),RSVP接收网关的IP QoS请求。
分组延迟以不同于分组丢失的方式影响语音质量。当存在依据VoIP的语音呼叫的时候,实际的端对端的延迟是受话者从发送器或始发器得到语音信号所需的时间。
在一般情况下,在VoIP网络上端对端的延迟可以分为两种:IP网络延迟和VoIP设备延迟。
IP网络延迟可分类为:传播延迟,在使用光纤或铜时通常由网络中的光通量引起的;串行化延迟,由于将语音数据位或字节精确定位在接口内所需的时间引起的;和,处理延迟。
这里,处理延迟可细分类为3种延迟:分组处理延迟,由经过路由器接收一个完整的分组以及传送这个分组所需的时间引起的;分组切换/路由器延迟,由于路由器切换/路由这个分组所需的时间引起的;和排队延迟,排队延迟是在进行分组切换/路由选择时、因为IP网络的分组的不规则到达和通道(或传输线路)的速度限制值引起的、在路由器的输入端口和输出端口发生的延迟。
VoIP设备延迟是在VoIP网关和VoIP终端的接收/发送部分进行的语音信号处理期间发生的。这个延迟包括压缩/解压器的延迟时间,即,编码模拟信号成为数字语音信号或解码数字语音信号成模拟语音信号花费的时间。压缩语音信号要花费较多的时间,导致附加的延迟,这个时间取决于压缩/解压器的种类。简言之,因为压缩过程是很复杂的,所以压缩过程也增大了延迟。
况且,在VoIP设备的传送部分也有分组延迟发生。分组延迟表示的是在一个分组内插入语音数据所需的时间。因此,如果分组大小很大,在一个分组内插入语音数据所需的时间较长。然而,一个小的分组,尽管可以减小分组延迟,但却会使VoIP网络的带宽效率变差,因为有不必要的报头。例如,在G.729中可能发生约为20ms的算法延迟,DSP可能每10ms产生一帧。
假定将两个语音帧装入一个分组内。在这种情况下的分组延迟是20ms。事实上,应该为一个分组分配多少个帧,这本身就是一个研究课题。DSP除了它的分组转换功能外还负责分配,以减小路由器的开销。
例如,RTP报头在DSP处理这些帧。于是,路由器就不必处理RTP报头的那些帧。在IP网络上发生延迟,主要是因为排队延迟和向输出队列传送一个实际的分组所需的时间。
如以上所讨论的,路由器的排队延迟对在VoIP网络上的端对端的延迟有很大的冲击。上述的这些延迟说明了在网络中发生由不规则的分组到达间隔引起的抖动现象的原因。
如果语音分组一到达就立刻播放出去,同时也没有解决抖动现象,那么语音质量就要明显下降,接听者只能听见不易识别的声音。因此,接听端应该能够以规则的语音数据流的形式播放语音分组。这样作的方法有3种。下面将具体说明接收端如何才能够像规则的语音数据流那样地播放语音分组。
首先,众所周知,每个语音分组都有一个顺序号。因此,无论何时产生一个语音分组,发送器(或始发器)都使顺序号逐个增加,并将顺序号装入这个分组,而且通知受话者分组的顺序。
其次,众所周知,每个语音数据分组都有一个时间标记。当产生语音分组时,这个时间标记就将时间装入这个分组,并将这个分组发送到接收者,帮助接收者能够测量延迟时间。
第三,接收机延迟播出语音分组的时间。接收端应该延迟播出时间,以帮助大多数分组在预定的播出时间到达。
在对话期间播出时间的延迟可以是固定的,在响应于不同的情况时播出时间的延迟可以是变化的。然而,在预定的播出时间内没有到达的那些分组被认为是丢失的。曾经尝试备份这些丢失的语音分组,并消除这种抖动现象,例如使用“固定的播出延迟”方法和“动态播出延迟”方法。
同时,在某个网关正在处理的在较高级别的每一项功能影响在这个网关引起的多个延迟。因此,下面描述多个功能。
1)网络接口延迟:网络接口包括连接到公用电话网或网络的软件或硬件;
2)DSP处理延迟:DSP处理是网关的最复杂的功能之一。一般情况下,DSP执行语音编码和解码、音调检测、静音检测、回声消除、音调产生、愉快噪声产生、如此等等。
3)分组处理延迟:压缩的语音帧要经过DSP处理和缓冲处理。然后,使语音数据进入分组单元,直到语音数据在IP网络上传送为止。
图1是语音质量测量系统的示意图,用于按照本发明响应于网络参数的变化预测语音帧。
如图1所示,用于按照本发明响应于网络参数的变化预测语音帧的语音质量测量系统包括;在发送端和接收端的个人计算机110和170,每个个人计算机110和170都有一个内置的声卡,始发端和接收端的IP电话120和160,发送端和接收端的VoIP网关130和150,和网络参数仿真器140。
发送端的个人计算机110存储用于测量语音质量的语音样本,并且使用这一端的IP电话120向另一方的IP电话160反复发送这个语音样本。为了实现语音质量的测量,按照符合由ITU-T Rec.P.830和ITU-TRec.P.800建议的格式和记录标准的NTT-AT的“用于通话计时的多语言通话数据库(1994年)“,这些语音样本是从两个韩国男人通话者和两个韩国女人通话者收集到的。
接收端个人计算机170具有用于MOS测量的内置程序,如PAMS、PSQM、或PESQ。在这个具体的实施例中,使用PESQ测量从发送端个人计算机110发送的语音样本的语音质量。
VoIP网关130和150是使用基于G.723.1的6.3kbps带宽或基于G.729的8.0kbps带宽的语音编码器。
相互连接互联网和公用电话网的VoIP网关130和150的作用可归结为以下两点:
第一,VoIP网关涉及的是在公用电话网的介质和互联网的IP分组之间相互变换。网关130或150把在互联网和公用电话网之间的视频和音频数据格式变换为合适的形式以便在这两个网络之间相互配合工作。例如,网关130或150把通常使用G723.1或G.729的互联网呼叫的语音分组转换为适合公用电话网的G.711。另一种情况是,网关130或150把G.711格式中的语音转换为G.729语音分组。
第二,VoIP网关涉及的是信令转换,或者在公用电话网中的呼叫信令协议如SS7(信令系统7)和IP信令协议如H.323或SIP之间的相互转换。为了能够支持在公用电话网中的辅助服务并连接到移动无线电通信网络,网关支持SS7协议是很重要的。
另一方面,网络参数仿真器140改变从VoIP网关130输入的分组中的网络参数,如分组延迟、分组丢失、或抖动现象,并且输出这个分组。以这种方式可以找到MOS值相对于网络参数的变化方式。
更加具体地说,网络参数仿真器140将抖动值改变为0、2、4、6、8、10、15、20、30、40、50、60、70[ms],将分组丢失改变为0.2、4、6、8、10、20、30、40、50[%],同时将平均延迟时间设置为150ms。
这些参数是基于实际的被测数据(测量数据)建立的。测量数据是通过测量一个国内位置和一个国外位置之间的声脉冲获得的,所以测量数据大部分都分为国内数据和国外数据。
因为每个数据都是在不同时间和日期测到的,所以它们的网络话务量也是彼此不同的。
总之,对于国内数据和国外数据这两种数据的平均延迟时间范围是15-350ms,延迟时间的标准偏差范围是0-70ms,通行损失范围是0-50%。
一般情况下,国内网络情况已证实在相当大的程度上是优于国外网络环境的。例如,国内数据的时间延迟值、抖动值、和分组丢失率值都是很小的,而国外数据的分组丢失率相对于国内数据的分组丢失率来说较大。
在本发明中,收集了50个国内数据和20个国外数据,借此在两者之间比较网络情况。经常观察抖动值的时间间隔是0-20ms,要比其余的标准偏差范围是20-70ms紧密。
还有,分组丢失率的时间间隔范围是0-10%,要比其余部分为20-50%的紧密,从而可以对网络情况进行采样。
图2是表示按照本发明的分组丢失率和预测的MOS值之间关系的曲线图。在图2中,X轴代表分组丢失值(率),Y轴代表预测的MOS值。MOS值的测量是由网络参数仿真器完成的,同时要针对每个分组丢失值改变抖动值。
从如图2所示的曲线的形状可以看出,可以根据测量的MOS值建立一个二次方程式,以得到取决于分组丢失值的预测的MOS值。这就是说,使用一个线性二次回归方程可以获得下面的方程1,其结果绘在如图2所示的曲线图上。
[方程1]
MOS=.1Ploss2+.2Ploss+.0
其中.是一个常数,可使用测量的MOS值获得,Ploss表示分组丢失率。
图3是表示抖动值和测量的MOS值之间关系的曲线图。
在图3中,X轴代表抖动值,Y轴代表测量的MOS值。MOS值的测量是由网络参数仿真器完成的,同时要针对每个抖动值改变分组丢失值。
从如图3所示的曲线的形状可以看出,可以根据测量的MOS值建立一个二次方程式,以得到取决于抖动值的预测的MOS值。这就是说,使用一个线性二次回归解析方程可以获得下面的方程2,其结果绘在如图3所示的曲线图上。
[方程3]
MOS=.1Jitter2+.2Jitter+.0
其中.是一个常数,可使用测量的MOS值获得,Jitter表示抖动值。
图4是表示按照不同的分组丢失值和抖动值如何改变测量的MOS值的曲线图。
在图4中,X轴代表测量的MOS值,Y轴代表预测的MOS值。MOS值的测量是由网络参数仿真器完成的,同时要针对每个抖动值改变分组丢失值。
从如图4所示的曲线的形状可以看出,可以使用测量的MOS值建立一个采样方程式,以得到取决于抖动值和分组丢失值的预测的MOS值。这就是说,使用一个采样的线性回归解析方程可以获得下面的方程3,其结果绘在如图4所示的曲线图上。
[方程3]
MOS=.1Ploss2+.2Jitter+.3PSize+.0
其中.是一个常数,可使用测量的MOS值获得,Ploss表示分组丢失率,Jitter表示抖动值,Psize表不分组长度。
另一方面,可以获得下面的方程4,其中这个实际的.值是通过施加测量的MOS值获得的,而这个测量的MOS值是使用G.729A语音编码器获得的。
[方程4]
MOS=-0.021Ploss-0.017Jitter+0.036PSize+2.462
类似地,可以获得下面的方程5,其中这个实际的.值是通过施加测量的MOS值获得的,而这个测量的MOS值是使用G.723.1语音编码器获得的。
[方程5]
MOS=-0.030PIoss-0.016Jitter+0.084PSize+2.691
同时,通过方程4获得的预测的MOS值和测量的MOS值之间的相关系数是0.908,通过方程5获得的预测的MOS值和测量的MOS值之间的相关系数是0.91。
从这个结果已经发现,简单的回归分析方程对于用预测的MOS值代表测量的MOS值是不充分的。因此,需要二次回归解析方程。为此,使方程4的MOS值作为一个变量。下面的方程6就是从这里导出的二次回归解析方程,基于方程6,获得图5A的曲线,图5A表示的是测量的MOS值(PESQ MOS)和预测的MOS值之间的关系。
[方程6]
MOS=0.444Y2-0.581Y+1.226
其中Y由从方程4获得的MOS值替换。在这种情况下,在测量的MOS值和预测的MOS值之间的相关系数是0.9495。从这里可以得出结论,预测的MOS值基本上接近测量的MOS值。
图5B是测量的MOS值和预测的MOS值之间的偏差的分布曲线。如图5B所示,在这两个值之间的偏差在±0.5之内。
另一方面,下面的方程7是使用通过方程5获得的MOS值作为变量导出的二次回归解析方程。根据方程7获得图5C的曲线,图5C表示测量的MOS值和预测的MOS值之间的关系。
[方程7]
MOS=0.616Y2-1.028Y+1.497
其中Y由从方程5获得的MOS值替换。在这种情况下,在测量的MOS值和预测的MOS值之间的相关系数是0.9505。从这里可以得出结论,预测的MOS值基本上接近测量的MOS值。
图5D是测量的MOS值和预测的MOS值之间的偏差的分布曲线。如图5D所示,在这两个值之间的偏差在±0.5之内。如以上所述,在方程4中,实际的.值是利用测量的MOS值获得的。
图6是网络的结构图,其中包括应用本发明的VoIP网关组。
如图6所示,在下述位置各定位一个网关:Seoul610、Busan620、Oversea630、Daegu640。当基于相同的访问代码执行VoIP路由选择时,存在一系列网关611、612、613、621、622、623、631、632、641、642、643,网关数与VoIP服务的客户数目成比例。针对按照相同的访问代码分组的这些网关611、612、613、621、622、623、63 1、632、641、642、643,称之为网关组。
具体来说,图6在不同的区中表示出网关组,因为通常使用干线代码作为路由选择的访问核心。
从图6可以看出,3个网关611、612、613属于Seoul610,3个网关621、622、623属于Busan620,两个网关63 1、632属于Oversea630,3个网关641、642、643属于Daegu640。
网关611、612、613、621、622、623、631、632、641、642、643构造了一个需要管理的路由选择表。
如图7所示,由网关611、612、613、621、622、623、63 1、632、641、642、643管理的路由选择表包括:至少一个访问代码字段701、访问代码长度字段702、访问代码删除长度字段703、访问代码插入长度字段704、和网关组表格字段705。
访问代码字段701存储相应区的干线号,访问代码长度字段702存储访问代码的长度值(例如,访问代码051的访问代码长度值是3)。
访问代码删除长度字段703存储要删除的访问代码长度,用于在网关路由选择一个呼叫时删除访问代码并进行路由选择(例如,对于访问代码051,要删除的访问代码长度值是3)。
网关组字段705识别具有相应的访问代码的网关属于哪一组。
如图8A和8B所示,网关611、612、613、621、622、623、631、632、641、642、643构成并管理相应的网关组表格。网关组表格可包括:其中指定网关的IP地址的网关IP地址字段801或803、其中指定预测的MOS值的预测的MOS值字段802或804。
网关使用声脉冲系统来获得预测的MOS值。更加具体地说,向一个目的地网关611、612、613、621、622、623、63 1、632、641、642、或643发送声脉冲数据(ping system),从所述网关可以获得分组延迟值和分组丢失值。
然后,网关611、612、613、621、622、623、631、632、641、642、或643用从这个声脉冲系统获得的抖动值、分组丢失值、和分组长度数据代入方程5,并计算预测的MOS值,其中网关611、612、613、621、622、623、631、632、641、642、或643使用分组延迟的标准偏差(或标准变化)得到抖动值。
同时,语音呼叫是双向的交互作用,而不是单向的交互作用。因此,虽然一方可能有一个良好的语音质量,如果另一方没有好的语音质量,则总的语音质量也不会良好,结果他们不能进行良好的通信。
因此,网关61 1、612、613、621、622、623、631、632、641、642、或643向另一方的网关611、612、613、621、622、623、631、632、641、642、或643发送状态消息。
每一个网关611、612、613、621、622、623、631、632、641、642、或643指定它自己的预测的MOS值和从另一方发送的预测的MOS值的平均值作为最终的预测的MOS值,并将这个最终的预测的MOS值存储在如图8A和8B所示的网关表格的预测的MOS值字段802或804中。
然后,当用一访问代码向网关组610、620、630、或640进行呼叫路由选择时,网关611、612、613、621、622、623、631、632、641、642、或643向具有最大MOS值的另一网关611、612、613、621、622、623、631、632、641、642、或643进行呼叫路由选择,网关611、612、613、621、622、623、631、632、641、642、或643包括在按照访问代码分组的网关组610、620、630、和640中。
图9是按照本发明的一个优选实施例的依据VoIP的基于预测的MOS值的呼叫路由选择方法的流程图。
首先,网关接收一个呼叫连接请求信号(S110),并搜索网关路由表(S112),并寻找是否有一个访问代码与附有呼叫连接请求的访问代码匹配(S114)。
如果得到的结论是存在这个匹配的访问代码,则网关搜索这个网关组表,看它是否与存在的访问代码对应(S118),即,比较在网关组表格中网关的MOS值(S120)。
根据这一比较,网关选择具有最大MOS值的一个网关(S122),并向所选的网关执行呼叫路由选择(S124)。
总之,本发明的优点在于,它通过积极地致力于从根本上改变网络环境来提供最好的语音质量。
还有,按照本发明,通过在呼叫建立以前为网络环境选择最佳的呼叫路由路径提供最好的语音质量。
尽管结合各种实施例描述了本发明,但这些实施例仅是说明性的。因此,按照上述的描述,许多替换、改进、和变化对于本领域的普通技术人员来说都是显而易见的。上述的描述旨在包括落在所附的权利要求书的构思和范围内的所有这样一些替换和变化。