交互式语音应答业务中的语音识别方法及装置.pdf

上传人：b***

文档编号：1530401

上传时间：2018-06-22

格式：PDF

页数：11

大小：576.16KB

《交互式语音应答业务中的语音识别方法及装置.pdf》由会员分享，可在线阅读，更多相关《交互式语音应答业务中的语音识别方法及装置.pdf（11页完整版）》请在专利查询网上搜索。

本发明提供了一种交互式语音应答业务中的语音识别方法及装置，其中，该方法包括：获取终端用户的语音信息；将所述语音信息转换为第一文件信息；根据所述第一文件信息按照预设规则获取第二文件信息，将所述第二文件信息作为所述语音信息的识别结果。采用本发明提供的上述技术方案，解决了相关技术中，尚无有效的技术方案实现交互式语音应答IVR业务的问题。使得用户可以通过语音输入进行模糊查询，得到系统中有用的信息，从的达到。

摘要
申请专利号：	CN201310698758.2	申请日：	2013.12.18
公开号：	CN104732982A	公开日：	2015.06.24
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G10L 21/06申请日:20131218\|\|\|公开
IPC分类号：	G10L21/06(2013.01)I; H04M3/493; G06F17/30	主分类号：	G10L21/06
申请人：	中兴通讯股份有限公司
发明人：	李志明
地址：	518057广东省深圳市南山区科技南路55号
优先权：
专利代理机构：	北京康信知识产权代理有限责任公司11240	代理人：	余刚; 梁丽超
PDF完整版下载：	PDF下载

内容摘要

本发明提供了一种交互式语音应答业务中的语音识别方法及装置，其中，该方法包括：获取终端用户的语音信息；将所述语音信息转换为第一文件信息；根据所述第一文件信息按照预设规则获取第二文件信息，将所述第二文件信息作为所述语音信息的识别结果。采用本发明提供的上述技术方案，解决了相关技术中，尚无有效的技术方案实现交互式语音应答IVR业务的问题。使得用户可以通过语音输入进行模糊查询，得到系统中有用的信息，从的达到用户使用IVR的目的。

权利要求书

权利要求书1. 一种交互式语音应答IVR业务中的语音识别方法，其特征在于，包括：获取终端用户的语音信息；将所述语音信息转换为第一文件信息；根据所述第一文件信息按照预设规则获取第二文件信息，将所述第二文件信息作为所述语音信息的识别结果。 2. 根据权利要求1所述的方法，其特征在于，根据所述第一文件信息按照预设规则获取第二文件信息，包括：比较所述第一文件信息与预先存储的文件信息，根据比较结果从所述预先存储的文件信息中获取与所述第一文件信息最接近的文件信息，并将所述最接近的文件信息作为所述第二文件信息。 3. 根据权利要求1或2所述的方法，其特征在于，将所述第二文件信息作为所述语音信息的识别结果之后，还包括：将所述第二文件信息转化为语音信息发送给终端用户。 4. 根据权利要求2所述的方法，其特征在于，所述预先存储的文件信息至少包括如下之一：文件格式、文件存放地址、文件打开方式、文件构成。 5. 根据权利要求3所述的方法，其特征在于，将所述第二文件信息转化为语音信息发送给终端用户，包括：将所述第二文件信息发送给媒体服务器；通过所述媒体服务器将所述第二文件信息转换成语音信息发送给所述终端用户。 6. 一种交互式语音应答IVR业务中的语音识别装置，其特征在于，包括：第一获取模块，用于获取终端用户的语音信息；转换模块，用于将所述语音信息转换为第一文件信息；第二获取模块，用于根据所述第一文件信息按照预设规则获取第二文件信息，将所述第二文件信息作为所述语音信息的识别结果。 7. 根据权利要求6所述的装置，其特征在于，所述第二获取模块，包括：比较单元，用于比较所述第一文件信息与预先存储的文件信息；获取单元，用于根据比较结果从所述预先存储的文件信息中获取与所述第一文件信息最接近的文件信息，并将所述最接近的文件信息作为所述第二文件信息。 8. 根据权利要求6或7所述的装置，其特征在于，还包括：发送模块，用于将所述第二文件信息转化为语音信息发送给终端用户。 9. 根据权利要求7所述的装置，其特征在于，所述比较单元，用于预先存储的文件信息至少包括如下之一时，比较所述第一文件信息与预先存储的文件信息：文件格式、文件存放地址、文件打开方式、文件构成。 10. 根据权利要求8所述的装置，其特征在于，所述发送模块，包括：发送单元，用于将所述第二文件信息发送给媒体服务器；转换单元，用于所述媒体服务器将上述第二文件信息转换成语音信息发送给所述终端用户。

说明书

说明书交互式语音应答业务中的语音识别方法及装置
技术领域
本发明通信领域，更具体地说，涉及一种交互式语音应答（Interactive Voive Response，简称为IVR）业务中的语音识别方法及装置。
背景技术
交互式语音应答业务存在于我们生活各个领域。比如移动10086查询话费，比如电信10000 号咨询业务。比如各种订票的交互式语音应答业务，比如彩铃订购查询的交互式语音应答自助业务等等。目前，交互式都还停留在用户输入号码与系统进行交互，对于进一步应用有很大的局限性。比如订票业务，如果用户只能模糊记得某个主题词，用户无法准确地使用确定的按键来确定其订单，那么，此时可以通过模糊的查询来实现。
目前针对相关技术中尚无有效的技术方案实现交互式语音应答IVR业务的问题，目前尚未提出有效的解决方案。
发明内容
本发明提供了一种交互式语音应答业务中的语音识别方法及装置，以至少解决相关技术中，尚无有效的技术方案实现交互式语音应答业务的问题。
为了达到上述目的，根据本发明的一个方面，提供了一种IVR业务中的语音识别方法，包括：获取终端用户的语音信息；将所述语音信息转换为第一文件信息；根据所述第一文件信息按照预设规则获取第二文件信息，将所述第二文件信息作为所述语音信息的识别结果。
优选地，根据所述第一文件信息按照预设规则获取第二文件信息，包括：比较所述第一文件信息与预先存储的文件信息，根据比较结果从所述预先存储的文件信息中获取与所述第一文件信息最接近的文件信息，并将所述最接近的文件信息作为所述第二文件信息。
优选地，将所述第二文件信息作为所述语音信息的识别结果之后，还包括：将所述第二文件信息转化为语音信息发送给终端用户。
优选地，所述预先存储的文件信息至少包括如下之一：文件格式、文件存放地址、文件打开方式、文件构成。
优选地，将所述第二文件信息转化为语音信息发送给终端用户，包括：将所述第二文件信息发送给媒体服务器；通过所述媒体服务器将所述第二文件信息转换成语音信息发送给所述终端用户。
为了达到上述目的，根据本发明的另一个方面，还提供了一种IVR业务中的语音识别装置，包括：第一获取模块，用于获取终端用户的语音信息；转换模块，用于将所述语音信息转换为第一文件信息；第二获取模块，用于根据所述第一文件信息按照预设规则获取第二文件信息，将所述第二文件信息作为所述语音信息的识别结果。
优选地，所述第二获取模块，包括：比较单元，用于比较所述第一文件信息与预先存储的文件信息；获取单元，用于根据比较结果从所述预先存储的文件信息中获取与所述第一文件信息最接近的文件信息，并将所述最接近的文件信息作为所述第二文件信息。
优选地，上述装置还包括：发送模块，用于将所述第二文件信息转化为语音信息发送给终端用户。
优选地，所述比较单元，用于预先存储的文件信息至少包括如下之一时，比较所述第一文件信息与预先存储的文件信息：文件格式、文件存放地址、文件打开方式、文件构成。
优选地，所述发送模块，包括：发送单元，用于将所述第二文件信息发送给媒体服务器；转换单元，用于所述媒体服务器将上述第二文件信息转换成语音信息发送给所述终端用户。
通过本发明，采用将从终端用户获取的语音信息转换为第一文件信息；然后根据所述第一文件信息按照预设规则获取第二文件信息，并将所述第二文件信息作为所述语音信息的识别结果发送给用户终端的技术手段。解决了相关技术中，尚无有效的技术方案实现交互式语音应答IVR业务的问题。使得用户可以通过语音输入进行模糊查询，得到系统中有用的信息，从的达到用户使用IVR的目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
图1为根据本发明实施例的IVR业务中的语音识别方法的流程图；
图2是根据本发明实施例的IVR业务中的语音识别装置的结构框图；
图3是根据本发明实施例的IVR业务中的语音识别装置的再一结构框图；
图4为根据本发明优选实施例的IVR业务的实现方法的工作示意图；
图5为根据本发明优选实施例的IVR业务的又一结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
图1为根据本发明实施例的IVR业务中的语音识别方法的流程图，如图1所示，该方法包括：步骤S102至步骤S106，
S102：获取终端用户的语音信息；
在执行该步骤之前，可以预先给用户一个语音提示：比如：请说出你查询的歌名。
S104：将上述语音信息转换为第一文件信息；
在执行该步骤前，需要获取到预先存储在数据库中的文件信息，即按照该文件信息等相关信息生成第一文本信息，使得按照这个方式生成的第一文件信息方便执行下述步骤。其中，上述预先存储的文件信息至少包括如下之一：文件格式、文件存放地址、文件打开方式、文件构成。
S106：根据上述第一文件信息按照预设规则获取第二文件信息，将上述第二文件信息作为上述语音信息的识别结果。
在步骤S106中，根据上述第一文件信息按照预设规则获取第二文件信息具体包括如下步骤：比较第一文件信息与预先存储的文件信息，根据比较结果从上述预先存储的文件信息中获取与上述第一文件信息最接近的文件信息，并将上述最接近的文件信息作为第二文件信息。
在该步骤之后，本申请实施例还执行如下过程：将上述第二文件信息转化为语音信息发送给终端用户。具体地，上述步骤包括：将上述第二文件信息发送给媒体服务器；通过上述媒体服务器将上述第二文件信息转换成语音信息发送给上述终端用户。
通过上述各个步骤，在获取到终端用户的语音信息之后，将该语音信息转化第一文件信息，在数据库中搜索并找到最合适的文件信息，即第二文件信息，第二文件信息与第一文件信息在预先存储的文件信息上，相似度是最大的。然后将第二文件信息转换为语音信息发送给终端用户，完成了一个完整的语音交互过程。解决了相关技术中，尚无有效的技术方案实现交互式语音应答IVR业务的问题。使得用户可以通过语音输入进行模糊查询，得到系统中有用的信息，从的达到用户使用IVR的目的。
在本实施例中还提供了一种IVR业务中的语音识别装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述，下面对该装置中涉及到的模块进行说明。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图2 是根据本发明实施例的交互式语音应答IVR业务中的语音识别装置的结构框图。如图2所示，该装置包括：
第一获取模块22，用于获取终端用户的语音信息；
转换模块24，与第一获取模块22连接，用于将上述语音信息转换为第一文件信息；
第二获取模块26，与转换模块24连接，用于根据上述第一文件信息按照预设规则获取第二文件信息，将上述第二文件信息作为上述语音信息的识别结果。
本实施例对上述技术方案的进一步改进在于，如图3所示，第二获取模块26，包括：
比较单元262，用于比较上述第一文件信息与预先存储的文件信息；其中，预先存储的文件信息至少包括如下之一：文件格式、文件存放地址、文件打开方式、文件构成。
获取单元264，与比较单元262连接，用于根据比较结果从上述预先存储的文件信息中获取与上述第一文件信息最接近的文件信息，并将上述最接近的文件信息作为上述第二文件信息。
在本实施例中，如图3所示，上述装置还包括：
发送模块28，与第二获取模块26连接，用于将上述第二文件信息转化为语音信息发送给终端用户。
本实施例对上述技术方案的进一步改进在于，发送模块28，包括：
发送单元282，用于将上述第二文件信息发送给媒体服务器；
转换单元284，与发送单元282连接，用于通过媒体服务器将上述第二文件信息转换成语音信息发送给上述终端用户。
通过上述模块，在获取到终端用户的语音信息之后，将该语音信息转化第一文件信息，在数据库中搜索并找到最合适的文件信息，即第二文件信息，第二文件信息与第一文件信息在预先存储的文件信息上，相似度是最大的。然后将第二文件信息转换为语音信息发送给终端用户，完成了一个完整的语音交互过程。解决了相关技术中，尚无有效的技术方案实现交互式语音应答IVR业务的问题。使得用户可以通过语音输入进行模糊查询，得到系统中有用的信息，从的达到用户使用IVR的目的。
为了更好地理解上述实施例中的交互式语音应答业务的语音识别过程，以下结合优选实施例详细说明。需要说明的是，该优选实施例的方案并不构成对本发明的限定。具体地：
图4为根据本发明优选实施例的交互式语音应答IVR业务的实现方法的工作示意图，如图4所示：
（1）首先，用户拨打接入码到交换机42，交换机42将触发业务控制点（Service Control Point，简称为SCP）44上对应的智能业务，交换机42发送INVITE到SCP44上，将后续业务处理交给智能业务进行处理。
（2）交互式业务逻辑根据INVITE带上来的信息，对主叫号码进行必要的鉴权等操作。
（3）交互式业务逻辑呼叫媒体服务器46，为后面的放音收号做准备。会话发起协议（Session Initiation Protocol，简称为SIP）信令流程：INVITE/200/ACK。
（4）交互式业务逻辑执行业务逻辑，进行各种放音，收号等操作。
（5）当交互式业务逻辑运行到用户语音输入时，交互式业务逻辑先指示媒体服务器46 播放录音提示音，包括如何结束录音的操作。
（6）用户录音，媒体服务器46接受录音并请求自动语音识别（Automatic Speech Recognition，简称为ASR）识别（信息（Information，简称为INFO）。
（7）媒体服务器46收到识别请求的INFO消息后，回200相应。同时将识别请求提交给 ASR服务器48。
（8）ASR服务器48识别成功后，通过媒体资源控制（Media Resource Control Protocol，简称为MRCP）信令把结果返回媒体服务器46。其中，在ASR服务器48运行的是Shell任务， Shell任务最基本的是在linux系统下执行的一种基于文本的任务。
（9）媒体服务器46受到ASR48回应之后，向SCP44业务侧发识别结果INFO消息。
（10）交互式业务逻辑根据INFO消息，拆分INFO消息，得到识别具体结果。
（11）为了更加人性化，需要把结果播报给用户，此时业务请求从文本到语言（Text To Speech，简称为TTS）服务52。现将结果组装成一段文字，然后用发送INFO消息的方式发送给媒体服务器46，此时使用SENDUI的扩展接口。
（12）媒体服务器46接收到TTS52请求INFO后，一方面给业务侧回200，一方面向 TTS服务器52发起TTS请求。请求成功，则把语音码流发给媒体服务器46，媒体服务器46 则将码流变换成语音播报给用户。
（13）用户然后根据播报的结果在进行进一步操作。
为了更好的理解上述交互式语音应答业务的总体工作流程，以下结合一个优选实施例进行说明，如图5所示，图5为根据本发明优选实施例的交互式语音应答IVR业务的又一结构框图。如图5所示，该装置包括：
触发模块52、业务模块54，语音识别模块56(从语音到文字)，反识别模块58（从文字到语音）。传统的IVR业务就是触发模块和业务模块，下面对上述各个模块进行详细说明。
需要说明的是，本实施例中的语音识别模块56可以包括：上述实施例中第一获取模块22、转换模块24、第二获取模块26；反识别模块包括：上述实施例中的发送模块28，但并不构成对本发明实施例的限定。
上述触发模块52，主要是指主叫号码呼叫特定的接入码到呼叫中心，中心根据不同号码触发不同业务，从而将控制权交给业务中心SCP，这些是IVR业务固定模块。
业务模块54，主要是在触发业务之后，业务给用户播放各种不同提示音，接收用户输入的按键，从而判定下一步的播放、收号动作，这是传统的IVR业务。
语音识别模块56，这个模块是语音识别，转换成文本等信息传递给系统。第一，在开始请求用户输入语音信号前，必然要先给用户一个语音提示，比如：请说出你需要查询的歌名。第二，媒体服务器接收语音输入。第三，媒体服务器请求语音识别服务器（ASR）识别用户录音。第四，语音识别服务器（ASR）将识别结果返回媒体服务器。第五，对于媒体服务器返回的结果INFO消息，我们按照事先的约定，对INFO消息进行提取，得到最终的识别结果。
由于目前市场上的语音识别服务器（ASR）参差不齐，而且再优秀的ASR也会因为每一个人不同口音，外界噪音的影响程度而发生一些错误的识别，为了提高识别率，我们采用文件方式。
系统预先将识别的全部结果从系统数据库中生成文件格式，在ASR识别结果时，最后结果根据识别结果和该文件进行对比，最相近的就是最终结果。这样保证了无论如何，结果都是系统存在的。第一，我们首先与语音识别器方面协商好文件格式，比如文件*.grxml格式存在。第二，规定文件开头，结尾，主体。比如主体如下：<item>dog<tag>V='mysong'</tag></item>。第三，文件存放地址与打开方式。第四，使用linux的crontab，在适当的时间安排该任务。该 shell脚本的任务是将系统里的可能的识别数据，转化成预定文件格式和内容，并将文件存在到适当位置，以供语音识别服务器识别使用。第五，语音识别服务器在识别结果时，参考该文件得到最终结果，保证最终结果一定是文件的条目。
反语音识别模块58，这个模块是将文本转化成语音传递给用户。首先将上一步的识别结果进行分析，比如一共识别多少铃音，每条铃音的歌名是什么。第二，进行文字组合，将文字用SENDUI接口的扩展字段送给媒体服务器。这一步只需要对SENDUI的发送字段进行扩展，在这个字段传送识别文字信息，简单易行。第三，媒体服务器根据业务侧的INFO消息，将要识别的文字送给反语音识别服务器（TTS）。第四，媒体服务器将请求TTS服务，TTS服务器识别后将语音码流传给媒体服务器，这样媒体服务器就可以对用户放音了。
综上所述，本发明实施例提供的上述技术方案达到了以下效果：本发明实施例提供了一种使用语音识别技术进行改进的IVR业务，使得用户可以通过语音输入进行模糊查询，得到系统中有用的信息，从的达到用户使用IVR的目的。同时采用文件方式，提高识别率。不仅提高用户满意度，还提高IVR业务的应用性，极大的提高了用户体验。
显然，本领域的技术人员应该明白，上述的本发明的各装置或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。