一种从语音数据中提取结构化交通路况信息的方法技术领域
本发明涉及交通路况信息采集技术,尤其涉及一种从语音数据中提取结构化交通
路况信息的方法。
背景技术
目前的道路交通信息采集技术,主要有浮动车交通信息采集、视频监控系统、基于
微波、雷达等感应器的采集系统等。但是,上述采集方式主要采集目标为道路交通流信息,
对于道路上的交通事故、路上障碍物、施工信息、交通管制等非交通流事件信息无法进行良
好采集。而语音数据,如交通广播有覆盖面广(全国各主要城市均有交通广播)、时效性强、
非交通流事件播报频率高等特点,合理应用能够对已有的交通路况信息采集系统进行良好
补充。
目前的语音识别技术对中文标点符号的标注主要是通过设置门限值,判断静音时
长来进行断句,通过对语气词进行分类来添加相关标点符号。但是,在广播中,主持人语速
较快,标注效果较差,经常错误地将不同路况信息合并或同一路况信息分割;此外,断好的
一句话中仍有多条路况信息混杂在一起,给信息提取带来很大不便。而一段语音经常包含
数条路况信息,即若干地点描述词、事件词、方向词等信息点,容易混淆,故在提取关键信息
后需要加入信息聚合才能获取最终的路况信息。
因此,针对以上方面,需要对现有技术进行有效创新。
发明内容
针对以上缺陷,本发明提供基于语音识别技术、自然语言处理技术,实现一种从语
音数据(交通广播)提取结构化交通路况信息,作为数据源补充现有路况信息的采集系统,
解决其对于非交通流类路况信息的采集效果不佳的问题,起到更好的反映城市路面信息的
效果。
为实现上述目的,本发明采用以下技术方案:
一种从语音数据中提取结构化交通路况信息的方法,包括:
1)获取包含所需路况信息的语音,并进行语音预处理,该语音预处理包括转码、拼
接;
2)将步骤1)预处理后的语音数据转写为文本,获得语音识别文本;
3)对步骤2)所获得的语音识别文本进行语义理解,输出路况信息,其中所述语义
理解包括:
(i)对步骤2)所获得的语音识别文本进行分词,并将分词结果进行词性标注;
(ii)对分词后的文本进行筛选,将无用信息内容过滤掉;
(iii)进行关键信息抽取,基于上述分词,根据词语的词性抽取出关键信息,包括
事件信息点和路段信息点;
(iv)进行路段信息的聚合,采用统计机器学习的方法,将从步骤(iii)中抽取的描
述同一地点的各种信息聚合,由此得到若干路段信息;
(v)进行路况信息聚合,基于上述获得的路段信息、事件信息,采用统计机器学习
的方法,将描述同一路况的地点、事件信息组合为一条完整的路况信息,由此获取若干条完
整的路况信息。
其中,为了使得路况信息能更好地与路网融合,还包括将步骤(3)所输出的路况信
息中的简称、俗称和标准的道路名相对应,以增加提取出的有效路况信息数量。
此外,还包括对步骤(1)预处理后的语音数据进行可以和路网融合的路况信息定
义,定义项目包含发布时间、开始时间、解除时间、预计解除时间、道路名、方向、附属定位
词、路段起点、路段终点、事件类型、事件描述、语音识别结果。
此外,还包括预先构建专业词库,包括道路名/POI词库、道路方向词库、事件词库、
道路节点表,步骤(i)中所述的分词基于所述专业词库来进行。
此外,所述无用信息内容包括音乐、广告、闲聊。
此外,所述过滤通过决策树、K近邻、朴素贝叶斯、支持向量机或人工神经网络方法
实施。
此外,所述路段信息点包括道路名/POI、方向、主辅路、路段起终点,所述事件信息
点包括时间信息、交通限制类和特殊事件类信息。
此外,根据正则的方法抽取出所述时间信息。
此外,所述统计机器学习的方法基于支持向量机,将关系抽取问题抽象成分类问
题,给出所有备选实体关系对,对其一一进行判断,采用相关概率值作为评分,以判断其关
系。
此外,所述步骤(i)包括对非关键词进行基于统计的中文分词。
本发明所述的从语音数据中提取结构化交通路况信息的方法的有益效果为:该方
法根据各个步骤且基于语音识别技术、自然语言处理技术,实现从语音数据提取结构化交
通路况信息的方法,作为数据源补充现有的路况信息采集系统,可解决对于非交通流类路
况信息的采集效果不佳的问题,更好地反映城市路面信息的效果。
附图说明
下面根据附图对本发明作进一步详细说明。
图1是本发明的一个实施方案的从语音数据中提取结构化交通路况信息的方法总
体流程示意图;
图2是本发明的一个实施方案的从语音数据中提取结构化交通路况信息的方法的
语义理解的示意图;
图3是本发明的一个实施方案的从语音数据中提取结构化交通路况信息的方法示
例流程示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
首先请参考图1,图1是本发明的一个实施方案的从语音数据中提取结构化交通路
况信息的方法总体流程示意图,它概括地体现了本发明的主要实施步骤,包括:
步骤S110,获取包含所需路况信息的语音,并进行语音预处理,该语音预处理包括
转码、拼接,相关技术已经很成熟,不再赘述。
步骤S120,将预处理后的语音数据转写为文本,获得语音识别文本,相关技术已经
很成熟,不再赘述。
步骤S130,对经由步骤S120所获得的语音识别文本进行语义理解,输出路况信息。
步骤S140,路况信息后处理。由于广播中的道路名存在各种简称、俗称,为了路况
信息能更好地与路网融合,故将简称、俗称和标准的道路名相对应,以增加提取出的有效路
况信息数量。
除以上步骤外,还需要对步骤S120处理后的文本进行可以和路网融合的路况信息
定义,定义项目包含发布时间、开始时间、解除时间、预计解除时间、道路名、方向、附属定位
词、路段起点、路段终点、事件类型、事件描述、语音识别结果。
接下来请参考图2,图2是本发明的一个实施方案的从语音数据中提取结构化交通
路况信息的方法的语义理解的示意图,根据图2,上述步骤S130进一步包含:
步骤S210,对经由步骤S120所获得的语音识别文本进行分词,并将分词结果进行
词性标注,并对非关键词进行基于统计的中文分词。
由于我们要提取的信息点大多数是道路名\POI、方向词、主辅路、事件词等命名实
体。目前中文分词的命名实体识别准确率可能存在不足,故可以预先构建上述实体的专业
词库。
该专业词库包括道路名/POI词库、道路方向词库、事件词库、道路节点表,步骤
(S210)中所述的分词可以基于该专业词库来进行的。
词性就是实体类型,目的是为了方便后续信息的提取。
由于在信息聚合时某些词,特别是动词如发生、导致等在后面的关系提取中有重
要的作用,故对非关键词进行基于统计的中文分词。
步骤S220,对分词后的文本进行筛选,将无用信息内容过滤掉。
由于在交通广播播报中主要含有音乐、广告、闲聊、路况信息等内容。若不进行过
滤,一方面对音乐、广告、闲聊的处理会降低系统性能,此外考虑到语音识别对音乐、广告等
噪音较严重的识别准确率较低,若其中有地点、事件词的组合则容易产生路况信息误报。因
此,需要对无用信息进行过滤。
这是一个较简单的分类问题,目前业界已经有较成熟的分类工具。常见的有决策
树、K近邻、朴素贝叶斯、支持向量机、人工神经网络等方法。上述方法各有特点,根据实际应
用中的效果选用,可以达到较好的筛选效果。
步骤S230,进行关键信息抽取,其中基于步骤S210中的分词,根据词语的词性抽取
出关键信息,包括事件信息点和路段信息点。
所述路段信息点包括道路名/POI、方向、主辅路、路段起终点等,所述事件信息点
包括时间信息、交通限制类和特殊事件类信息等。
其中所述时间信息是根据正则的方法抽取出的。
步骤S240,进行路段信息的聚合,由于语音识别出的文本无断句,则步骤S230中提
取出的若干那地点信息词可能是分别描述不同地点的道路名、路段起终点、方向等信息,需
要将描述同一地点的各种信息聚合,即所谓命名实体的关系抽取。采用的方法可以是统计
机器学习的方法。经聚合后,可以得到若干路段信息。
步骤S250,进行路况信息的聚合,经过以上步骤,我们可以获得完整的路段信息、
事件信息。接下来需要将描述同一路况的路段、事件信息聚合(即路段-事件关联)为一条完
整的路况。思路同步骤S240相似,采用的方法也可以是统计机器学习的方法,聚合完成后就
获取若干条完整的路况信息。
在步骤S240、步骤S250中,涉及到命名实体关系抽取。由于在广播播报人员有不同
电台的播音员、路况编辑、交警、热心观众等多种人员,口语化严重,导致采用规则的方法一
方面难以表述大多数路况表达方法;另一方面汉语变化种类繁多,规则维护起来十分繁杂,
特别规则库的维护工作十分繁杂,新的规则不能对旧的规则造成影响,一致性难以保证,若
采用不同规则权值不同来进行匹配则难以有一个良好的评判依据。故可以采用统计机器学
习的方法来进行。
本方法选用的方法可基于支持向量机(Support Vector Machine,SVM)。其基本关
系为将关系抽取问题抽象成分类问题,即给出所有备选实体关系对,对其一一进行判断,采
用相关概率值作为评分,以判断其关系。如路段聚合,对于已经获得的两条道路(或POI),如
[北三环,蓟门桥],可以将其关系分类为为道路-路段起点,路段起点-路段终点及无关三种
关系(多分类);如[北三环,拥堵],可以将其分类为北三环是否拥堵两种关系(二分类)。通
过人工标注一定数量的训练集,设计有效的提取特征,采用svm进行训练,获得预测模型,并
使用其预测两命名实体之间的关系,即通过svm进行路段信息聚合、路段-事件关联。
图3是本发明的一个实施方案的从语音数据中提取结构化交通路况信息的方法示
例流程示意图。
以上是本发明实施例所述的从语音数据中提取结构化交通路况信息的方法,广播
中,主持人语速较快,断句效果较差,经常错误地将不同路况信息合并或同一路况信息分
割;此外,在断好的一句话中仍有多条路况信息混杂在一起,给信息提取带来很大不便,在
提取出信息点(路段、事件)以后,需要将有关联关系的路段、事件关联起来得到最终路况信
息。
在实际应用中的示例(地点/事件聚合),具体流程如下:
假设获得的语音转写文本为:北三环拥堵西三环畅通另外南三环东向西拥堵西向
东畅通;
抽取信息点,包括路段信息和事件信息;
可见其中路段信息包括:北三环、西三环、南三环东向西、南三环西向东
事件包括:拥堵、畅通、拥堵2、畅通2;
将路段信息和事件两两组合,构造所有的信息点关联关系对:
对每对关系对进行特征构造,特征包括事件词和路段的先后顺序、距离、中间是否
有事件词、中间是否有其他POI、中间是否有分隔词、中间是否有特殊含义的动词/介词、是
否符合一定的句式等;
通过训练出的模型进行预测,得到最终结果,将有关联关系的关系对保留,无关的
关系对抛弃。这样就聚合得到了最终的路况信息。
上述对实施例的描述是为了便于该技术领域的普通技术人员能够理解和应用本
案技术,熟悉本领域技术的人员显然可轻易对这些实例做出各种修改,并把在此说明的一
般原理应用到其它实施例中而不必经过创造性的劳动。因此,本案不限于以上实施例,本领
域的技术人员根据本案的揭示,对于本案做出的改进和修改,例如,对于个别流程步骤所采
用的方式、工具等方面的更换,若没有产生超出本案之外的有益效果,则都应该在本案的保
护范围内。