一种事件识别方法和设备技术领域
本申请实施例涉及通信技术领域,特别涉及一种事件识别方法和设备。
背景技术
在现有的风险事件审理的过程中,基本都是采取人工的方式凭借一定的
经验及总结来进行判断的,由此导致的问题是:
(1)、审理效率低下,只能凭借个人以往经验及能力判断当前事件是否
存在风险,需要从多个相应的信息系统中根据关键字手工捞取明细数据,经
过一系列的人工判别、关联或计算后,才能对当前的事件进行判断
(2)、审理及识别的准确率不高或差异较大,特别是针对经验不足以及
从业不久的案件审理人员而言更是如此。
(3)、审理方式过于人工化,不智能,在进行事件判断时需要以手工的
方式从多个系统中捞取关键信息,并一一进行人工比对信息才能做出判断。
(4)、相似事件不能快速匹配,在处理单一案件时不能快速有效的根据
历史的事件与当前事件进行快速识别。
可见现有技术中,需要对事件进行人工判断,而事件的数量大,且事件
的形式多样,导致判断的过程过于依赖人工,且效率低下和准确率不高。
发明内容
针对现有技术中的缺陷,本申请提出了一种事件识别方法,包括:
基于预设的特征提取规则,提取待识别事件的特征;
通过比较所述历史事件的特征和所述待识别事件的特征,确定所述历史
事件与所述待识别事件的相似度;
根据所述相似度,选取预定个数的历史事件,并基于选取的预定个数的
历史事件的类型确定待识别事件的类型;
其中,所述预设的特征提取规则与提取所述历史事件的特征所用的提取
规则一致。
可选的,所述通过比较所述历史事件的特征和所述待识别事件的特征,
确定所述历史事件与所述待识别事件的相似度,具体包括:
比较各个历史事件的特征与所述待识别事件的特征,确定所述待识别事
件的特征与各个历史事件的特征的匹配程度,所述匹配程度包括相同的特征
的个数以及特征之间的相似程度;
基于特征的匹配程度确定历史事件与所述待识别事件的相似度,其中匹
配程度越高,相似度越大。
可选的,所述根据所述相似度,选取预定个数的历史事件,并基于选取
的预定个数的历史事件的类型确定待识别事件的类型,具体包括:
基于与所述待识别事件的相似度从高到低的顺序对所述历史事件进行排
序;
从排序后的历史事件中选取排序靠前的预定个数的历史事件;
确定选取的预定个数的历史事件中的各个历史事件的类型;
针对每一种类型的历史事件,获取该类型所包括的历史事件与所述待识
别事件的相似度的总和作为该类型的历史事件与所述待识别事件的匹配值;
选择匹配值最大的历史事件的类型作为所述待识别事件的类型。
可选的,所述历史事件中包含有已知风险的历史事件,所述已知风险的
历史事件的特征设置有特征风险值;
所述基于选取的预定个数的历史事件的类型确定待识别事件的类型,之
后还包括:
获取历史事件中与所述待识别事件的类型相同的历史事件,并从获取的
历史事件中查找已知风险的历史事件;
利用获取的已知风险的历史事件的特征匹配所述待识别事件的特征;
基于匹配程度和已知风险的历史事件的特征的特征风险值确定所述待识
别事件的特征的特征风险值;
判断所述待识别事件的特征的特征风险值总和是否超过阈值,若判断结
果为是,则确定所述待识别事件存在风险。
可选的,阈值设置有多个,
所述判断所述待识别事件的特征的特征风险值总和是否超过阈值,若判
断结果为是,则确定所述待识别事件存在风险,具体包括:
判断所述待识别事件的特征的特征风险值总和是否超过第N个阈值且小
于第N+1个阈值,其中第N个阈值小于第N+1个阈值;
若判断结果为是,则确定所述待识别事件存在风险,且所述待识别事件
的风险级别为第N级别。
本申请还提出了一种事件识别设备,包括:
提取模块,用于基于预设的特征提取规则,提取待识别事件的特征;
处理模块,用于通过比较所述历史事件的特征和所述待识别事件的特征,
确定所述历史事件与所述待识别事件的相似度,并按照相似度从高到低对所
述历史事件进行排序;
确定模块,用于根据所述相似度,选取预定个数的历史事件,并基于选
取的预定个数的历史事件的类型确定待识别事件的类型;
其中,所述预设的特征提取规则与提取所述历史事件的特征所用的提取
规则一致。
可选的,所述处理模块通过比较所述历史事件的特征和所述待识别事件
的特征,确定所述历史事件与所述待识别事件的相似度,具体包括:
比较各个历史事件的特征与所述待识别事件的特征,确定所述待识别事
件的特征与各个历史事件的特征的匹配程度,所述匹配程度包括相同的特征
的个数以及特征之间的相似程度;
基于特征的匹配程度确定历史事件与所述待识别事件的相似度,其中匹
配程度越高,相似度越大。
可选的,所述确定模块,具体用于:
基于与所述待识别事件的相似度从高到低的顺序对所述历史事件进行排
序;
从排序后的历史事件中选取排序靠前的预定个数的历史事件;
确定选取的预定个数的历史事件中的各个历史事件的类型;
针对每一种类型的历史事件,获取该类型所包括的历史事件与所述待识
别事件的相似度的总和作为该类型的历史事件与所述待识别事件的匹配值;
选择匹配值最大的历史事件的类型作为所述待识别事件的类型。
可选的,所述历史事件中包含有已知风险的历史事件,所述已知风险的
历史事件的特征设置有特征风险值;
该设备还包括:风险识别模块,用于:获取历史事件中与所述待识别事
件的类型相同的历史事件,并从获取的历史事件中查找已知风险的历史事件;
利用获取的已知风险的历史事件的特征匹配所述待识别事件的特征;
基于匹配程度和已知风险的历史事件的特征的特征风险值确定所述待识
别事件的特征的特征风险值;
判断所述待识别事件的特征的特征风险值总和是否超过阈值,若判断结
果为是,则确定所述待识别事件存在风险。
可选的,阈值设置有多个,
所述风险识别模块判断所述待识别事件的特征的特征风险值总和是否超
过阈值,若判断结果为是,则确定所述待识别事件存在风险,具体包括:
判断所述待识别事件的特征的特征风险值总和是否超过第N个阈值且小
于第N+1个阈值,其中第N个阈值小于第N+1个阈值;
若判断结果为是,则确定所述待识别事件存在风险,且所述待识别事件
的风险级别为第N级别。
与现有技术相比,本申请中提取待识别事件的特征;通过比较所述历史
事件的特征和所述待识别事件的特征,确定所述历史事件与所述待识别事件
的相似度,并根据所述相似度,选取选取的预定个数的历史事件的类型确定
待识别事件的类型,由此实现了对于事件类型的自动识别,能应对大量的各
种类型的事件,且能准确快捷地识别待识别事件的类型,不需要过于依赖人
工,提高了效率低下和准确率。
附图说明
图1为本申请实施例提出的一种事件识别方法的流程示意图;
图2为本申请实施例提出的一种基于待识别事件的特征生成的有向图的
示意图;
图3为本申请实施例提出的一种基于历史事件的特征生成的有向图的示
意图;
图4为本申请实施例提出的一种基于有向图进行匹配的示意图;
图5为本申请实施例提出的一种事件识别设备的结构示意图。
具体实施方式
如背景技术,现有技术中判断事件的过程中过于依赖人工,导致效率低
下,且准确率不高的问题,为此,本申请提出了一种事件识别方法用于实现
自动识别事件,以提高效率和准确率,如图1所示,该方法包括以下步骤:
步骤101、基于预设的特征提取规则,提取待识别事件的特征。
基于预设的特征提取规则,提取待识别事件的特征的过程,具体包括:
具体的,例如特征提取规则为特征提取规则1,对待识别事件的特征进行
提取时,特征提取规则1的规则时需要提取事件的发生时间,发生地点,涉
及的金额,所涉及到的用户的信息(例如用户姓名,用户的手机号等等),所
涉及的网络域名(例如为195.36.165.23等等),就基与该特征提取规则1提取
待识别事件的发生时间,发生地点,涉及的金额,所涉及到的用户的信息,
所涉及的网络域名,而事先还存在一些已知的历史事件,也按照特征提取规
则1来进行特征的提取,也即预设的特征提取规则与提取历史事件的特征所
用的提取规则一致;以便后续进行比较,当然也并不限于该特征提取规则1,
还可以是别的特征提取规则,只要提取待识别事件所采用的特征提取规则与
提取历史事件所采取的特征提取规则一致即可。
步骤102、通过比较历史事件的特征和待识别事件的特征,确定历史事件
与待识别事件的相似度,并按照相似度从高到低对历史事件进行排序。
通过比较历史事件的特征和待识别事件的特征,确定历史事件与待识别
事件的相似度,具体包括:
比较各个历史事件的特征与待识别事件的特征,确定待识别事件的特征
与各个历史事件的特征的匹配程度,匹配程度包括相同的特征的个数以及特
征之间的相似程度;基于特征的匹配程度确定历史事件与待识别事件的相似
度,其中匹配程度越高,相似度越大。
具体的,在获取了待识别事件的特征之后,可以与历史事件的特征进行
比较,具体的,可以基于获取的待识别事件的特征生成待识别事件的有向图
(如图2所示),而基于历史事件的特征生成历史事件的有向图(如图3所示),,
将,除了有向图以外,还可以有很多别的方式来实现比较,只要能比较特征
之间的相似度即可,然后比较待识别事件与历史事件在有向图中的特征的匹
配程度,生成的匹配有向图可以如图4所示,具体的,例如在有向图中,待
识别事件中有特征涉及到的用户信息中存在手机号1(例如为1351010****),
历史事件中的用户信息中也存在手机号1,则该特征的匹配程度为100%,可
以设置匹配程度值为1,而若待识别事件中所涉及到的网络域名为
195.36.165.23,而历史事件中存在的网络域名为195.36.164.165,这两个域名
不相同,但都属于同一个服务器,因此可以设置匹配程度值为0.6,再例如待
识别事件中有特征涉及到的用户信息中存在手机号1,而历史事件中的用户信
息中存在手机号2,手机号1和手机号2不相同,但这两个手机号属于同一个
用户,因此可以设置匹配程度值为0.9,当然具体的还可以有别的方式来确定
匹配程度,在此不再进行赘叙,在对待识别事件的所有的特征进行匹配后,
计算总的匹配程度值(即各个特征的匹配程度值相加得到的值)作为每个历
史事件与待识别事件的相似度的值,例如历史事件1与待识别事件的相似度
的值为15,而历史事件2与待识别事件的相似度的值为12.3,历史事件3与
待识别事件的相似度的值为21.3,这样,按照相似度的值的从大到小,对历
史事件进行排序,得到顺序为:历史事件3·历史事件1·历史事件2。
步骤103、根据所述相似度,选取预定个数的历史事件,并基于选取的预
定个数的历史事件的类型确定待识别事件的类型。
根据所述相似度,选取预定个数的历史事件,并基于选取的预定个数的
历史事件的类型确定待识别事件的类型,具体包括:
基于与所述待识别事件的相似度从高到低的顺序对所述历史事件进行排
序;从排序后的历史事件中选取排序靠前的预定个数的历史事件;确定选取
的预定个数的历史事件中的各个历史事件的类型;针对每一种类型的历史事
件,获取该类型所包括的历史事件与待识别事件的相似度的总和作为该类型
的历史事件与待识别事件的匹配值;选择匹配值最大的历史事件的类型作为
待识别事件的类型。
在对各个历史事件基于与待识别事件的相似度进行排序后,例如共存在
50个历史事件,选取排名靠前的10个历史事件(基于排名分别命名为历史事
件1、2、3、4、5、6、7、8、9、10),而历史事件是由类型的,例如可以基
于网络分为网购类型,网络转账类型,网络游戏类型等等,当然除此以外,
还可以有很多别的类型,具体可以基于需要进行设置,在此不再进行赘叙;
假设这10个历史事件中存有2个历史事件(历史事件1、3)的类型为类型1,
3个历史事件(历史事件2、5、8)的类型为类型2,3个历史事件(历史事
件4、9、10)的类型为类型3,还有2个历史事件(历史事件6、7)的类型
为类型4,也即存在4种类型,则分别计算各类型的历史事件与待识别事件的
相似度的总和,例如类型1,就需要计算历史事件1和历史事件3与待识别事
件的相似度的总和,例如为23,而类型2得到的总和为21,类型3得到的总
和为16,类型4得到的总和为13,由于类型1最大,因此确定待识别事件的
类型为类型1,当然,除此以外,还可以有别的方式来确定,例如就选择排序
最靠前的一个历史事件的类型来作为待识别事件的类型。
在确定了待识别事件的类型之后,就可以基于需要根据该一类的历史事
件对待识别事件进行后续的判断,例如风险的判断等等,还可以将该待识别
事件标识为历史事件,以此不断的扩充历史事件,来进一步对其他的待识别
事件的识别过程作出贡献。
而在识别了待识别事件的类型之后,还可以基于需要继续识别该待识别
事件的风险以及风险程度。
具体的,历史事件中包含有已知风险的历史事件,已知风险的历史事件
的特征设置有特征风险值;
获取历史事件中与待识别事件的类型相同的历史事件,并从获取的历史
事件中查找已知风险的历史事件;利用获取的已知风险的历史事件的特征匹
配待识别事件的特征;基于匹配程度和已知风险的历史事件的特征的特征风
险值确定待识别事件的特征的特征风险值;判断待识别事件的特征的特征风
险值总和是否超过阈值,若判断结果为是,则确定待识别事件存在风险。
假设识别出待识别事件的类型为类型1,则获取类型为类型1的历史事件,
由于历史事件的特征都设置有特征风险值,对于同一种类型的历史事件,每
个特征的特征风险值应该是单独唯一的,为了节约资源,同时也加快判断的
速度,可以从类型为类型1的历史事件中查找已知风险的历史事件(确定存
在风险的历史事件),查找到的历史事件中满足类型为类型1,且存在风险两
种条件,在基于查找到的历史事件的特征与待识别事件的特征进行匹配,基
于匹配程度赋予匹配程度值,例如完全相同,则赋值为1,其他的,不完全相
同的,则基于相似程度来赋值,例如历史事件中存在特征为手机号,例如为
手机号1,而待识别事件中也存在特征为手机号2,手机号1和手机号2不相
同,但这两个手机号属于同一个人,这样相似度就很高,例如可以设置相似
度为0.9(例如手机号1的特征风险值为4,则手机号2的特征风险值为3.6=0.9
×4),若待识别事件中的某些特征与历史事件中的特征完全不同,且存在的
相似度或者相关程度很低,就可以设置该特征的相似度的值为0,这样获取待
识别事件中的所有特征的特征风险值总和,例如为23.2,并将特征风险值总
和与阈值进行比较,假设阈值为15,由于23.2大于15,则可以认为该待识别
事件存在风险。
而由于风险也是可以设置级别的,例如可以分为高风险和风险级别,因
此可以将阈值设置有多个,判断待识别事件的特征的特征风险值总和是否超
过阈值,若判断结果为是,则确定待识别事件存在风险,具体包括:判断待
识别事件的特征的特征风险值总和是否超过第N个阈值且小于第N+1个阈值,
其中第N个阈值小于第N+1个阈值;若判断结果为是,则确定待识别事件存
在风险,且待识别事件的风险级别为第N级别。
假设设置3个阈值,阈值大小分别为15(第一阈值)、18(第二阈值)、、
20(第三阈值)、,这时候与特征风险值总和进行比较,若特征风险值总和为
19.1,处于18和20之间,这样可以确定风险级别为第二级风险,级别越大,
表示风险越大。
本申请实施例还公开了一种事件识别设备,如图4所示,包括:
提取模块401,用于基于预设的特征提取规则,提取待识别事件的特征;
处理模块402,用于通过比较所述历史事件的特征和所述待识别事件的特
征,确定所述历史事件与所述待识别事件的相似度,并按照相似度从高到低
对所述历史事件进行排序;
确定模块403,用于根据所述相似度,选取预定个数的历史事件,并基于
选取的预定个数的历史事件的类型确定待识别事件的类型;
所述预设的特征提取规则与提取所述历史事件的特征所用的提取规则一
致。
所述处理模块402通过比较所述历史事件的特征和所述待识别事件的特
征,确定所述历史事件与所述待识别事件的相似度,具体包括:
比较各个历史事件的特征与所述待识别事件的特征,确定所述待识别事
件的特征与各个历史事件的特征的匹配程度,所述匹配程度包括相同的特征
的个数以及特征之间的相似程度;
基于特征的匹配程度确定历史事件与所述待识别事件的相似度,其中匹
配程度越高,相似度越大。
所述确定模块403,具体用于:
基于与所述待识别事件的相似度从高到低的顺序对所述历史事件进行排
序;
从排序后的历史事件中选取排序靠前的预定个数的历史事件;
确定选取的预定个数的历史事件中的各个历史事件的类型;
针对每一种类型的历史事件,获取该类型所包括的历史事件与所述待识
别事件的相似度的总和作为该类型的历史事件与所述待识别事件的匹配值;
选择匹配值最大的历史事件的类型作为所述待识别事件的类型。
所述历史事件中包含有已知风险的历史事件,所述已知风险的历史事件
的特征设置有特征风险值;
该设备还包括:风险识别模块,用于:获取历史事件中与所述待识别事
件的类型相同的历史事件,并从获取的历史事件中查找已知风险的历史事件;
利用获取的已知风险的历史事件的特征匹配所述待识别事件的特征;
基于匹配程度和已知风险的历史事件的特征的特征风险值确定所述待识
别事件的特征的特征风险值;
判断所述待识别事件的特征的特征风险值总和是否超过阈值,若判断结
果为是,则确定所述待识别事件存在风险。
具体的,阈值设置有多个,
所述风险识别模块判断所述待识别事件的特征的特征风险值总和是否超
过阈值,若判断结果为是,则确定所述待识别事件存在风险,具体包括:
判断所述待识别事件的特征的特征风险值总和是否超过第N个阈值且小
于第N+1个阈值,其中第N个阈值小于第N+1个阈值;
若判断结果为是,则确定所述待识别事件存在风险,且所述待识别事件
的风险级别为第N级别。
该设备还包括:
标记模块,用于将所述待识别事件标识为历史事件。
与现有技术相比,本申请中提取待识别事件的特征;通过比较所述历史
事件的特征和所述待识别事件的特征,确定所述历史事件与所述待识别事件
的相似度,并根据所述相似度,选取预定个数的历史事件,并基于选取的预
定个数的历史事件的类型确定待识别事件的类型,由此实现了对于事件类型
的自动识别,能应对大量的各种类型的事件,且能准确快捷地识别待识别事
件的类型,不需要过于依赖人工,提高了效率低下和准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申
请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软
件产品可以存储在一个非易失性存储介质(可以是CD·ROM,U盘,移动硬
盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服
务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中
的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景
描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施
场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可
以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于
此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。