基于无监督智能学习算法的非法运营车辆识别方法及系统.pdf

上传人：00062****4422

文档编号：1754529

上传时间：2018-07-09

格式：PDF

页数：11

大小：832.56KB

《基于无监督智能学习算法的非法运营车辆识别方法及系统.pdf》由会员分享，可在线阅读，更多相关《基于无监督智能学习算法的非法运营车辆识别方法及系统.pdf（11页完整版）》请在专利查询网上搜索。

本发明涉及基于无监督智能学习算法的非法运营车辆识别方法，包括：输入待识别车辆的筛选条件；在Hadoop大数据平台上检索出与筛选条件相关的车辆的过车数据；对检索出来的过车数据进行数据预处理；采用无监督智能学习算法对预处理后的过车数据进行分析处理；对分析结果进行统计分析，并将统计结果与阈值进行比较后，识别车辆是否为非法运营车辆，将最终的识别结果呈现给用户。本发明还公开了基于无监督智能学习算法的非法运营。

摘要
申请专利号：	CN201510180572.7	申请日：	2015.04.17
公开号：	CN104809180A	公开日：	2015.07.29
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06F 17/30申请日:20150417\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	安徽四创电子股份有限公司
发明人：	王佐成; 任子晖; 王汉林; 马韵洁; 张凯; 范联伟; 刘畅; 张伟; 周春寅; 许亚军
地址：	230088安徽省合肥市高新区香樟大道199号
优先权：	201410770258X 2014.12.15 CN
专利代理机构：	合肥金安专利事务所34114	代理人：	吴娜
PDF完整版下载：	PDF下载

内容摘要

本发明涉及基于无监督智能学习算法的非法运营车辆识别方法，包括：输入待识别车辆的筛选条件；在Hadoop大数据平台上检索出与筛选条件相关的车辆的过车数据；对检索出来的过车数据进行数据预处理；采用无监督智能学习算法对预处理后的过车数据进行分析处理；对分析结果进行统计分析，并将统计结果与阈值进行比较后，识别车辆是否为非法运营车辆，将最终的识别结果呈现给用户。本发明还公开了基于无监督智能学习算法的非法运营车辆识别系统。本发明对符合筛选条件的车辆的过车数据进行快速检索，接着进行数据预处理，使用无监督智能学习算法进行分析，并将分析结果呈现给用户，从而提高运管部门对非法营运车辆的监控管理能力。

权利要求书

权利要求书
1.  一种基于无监督智能学习算法的非法运营车辆识别方法，该方法包括下列顺序的步骤：
（1）输入待识别车辆的筛选条件；
（2）根据筛选条件，在Hadoop大数据平台上检索出与筛选条件相关的车辆的过车数据；
（3）对检索出来的过车数据进行数据预处理；
（4）通过Hadoop大数据平台的MapReduce引擎，采用无监督智能学习算法对预处理后的过车数据进行分析处理；
（5）对分析结果进行统计分析，并将统计结果与阈值进行比较后，识别车辆是否为非法运营车辆，将最终的识别结果呈现给用户。

2.  根据权利要求1所述的基于无监督智能学习算法的非法运营车辆识别方法，其特征在于：所述筛选条件包括车辆经过卡口的起止时间，卡口编号，以及车牌号码。

3.  根据权利要求1所述的基于无监督智能学习算法的非法运营车辆识别方法，其特征在于：所述数据预处理包括以下步骤：
（1）特征选择：采用MapReduce引擎获取存储在分布式文件系统HBase中的卡口过车数据，然后通过相关性分析得到车辆过车数据中各特种属性与非法运营车辆间的相关程度，取相关程度靠前的3个确定为过车时间、经过卡口速度以及卡口编号；
（2）过车数据集成：将卡口系统中的过车数据信息与GIS系统中的卡口经纬度坐标信息集成；
（3）过车数据清洗：将过车数据中的非结构化数据进行标准化处理，将过车数据中有缺失或错误的数据删除，同时根据车型条件，删除大型客车、货车车辆；根据车牌号码，删除出租车、单位用车车辆；
（4）过车数据特征属性变换：将过车时间、卡口编号的非数字型属性值转换为数字型属性值，并将过车时间、卡口经纬度坐标值进行放大处理。

4.  根据权利要求1所述的基于无监督智能学习算法的非法运营车辆识别方法，其特征在于：所述采用无监督智能学习算法对预处理后的过车数据进行分析处理包括以下步骤：
（1）计算过车数据间的欧几里得距离：将经预处理后的过车数据转变为数值型数据，计算待识别车辆的每条过车数据与其他所有车辆过车数据的欧几里得距离；
（2）计算过车数据的第k领域：将欧几里得距离按从小到大的顺序进行排序，取第k个值作为该过车数据的第k距离，以此过车数据为中心，以第k距离值为半径的空间区域为该过车数据的第k领域；
（3）计算过车数据的可达距离：将某条过车数据的第k距离与其第k领域中其他过车数据的第k距离比较，取最大的值作为第k领域内过车数据所对应的可达距离；
（4）计算过车数据的可达密度：求得每条过车数据第k领域内所有过车数据可达距离的平均值，对此平均值求倒数，即得到各过车数据的可达密度；
（5）计算过车数据的离群因子：计算得到某条过车数据第k领域内所有过车数据可达密度与该条过车数据的可达密度之比，求得所有比值的平均值，对此平均值求倒数，即得到各个过车数据的局部离群因子；
（6）计算过车数据中的离群点：将每个过车数据的局部离群因子与离群点判别阈值比较，大于离群点判别阈值的局部离群因子作为离群点，离群点判别阈值为1.5。

5.  根据权利要求4所述的基于无监督智能学习算法的非法运营车辆识别方法，其特征在于：将离群点与非法运营车辆判别阈值比较，离群点数大于非法运营车辆判别阈值的车辆即为非法营运车辆，非法运营车辆判别阈值为10。

6.  一种基于无监督智能学习算法的非法运营车辆识别系统，包括：
检索模块，对卡口过车数据进行序列化处理，将卡口大数据转换成二进制流的方式存储到分布式文件系统HBase中，并使用MapReduce引擎获取存储在分布式文件系统HBase上符合条件的过车数据，将获取的数据存储到分布式文件系统HBase中，实现对卡口过车数据的快速检索；
控制模块，实现对查询条件的自动语义识别，进而对存储的过车数据进行目标查找，获得原始数据；
处理模块，采用MapReduce引擎对获取到的过车数据进行转换、合并、计算操作，并将清洗之后的数据传输到计算节点；负责MapReduce任务的调度、资源的申请及管理，并负责任务的切分、处理、失败任务重启功能，最终完成任务的执行。

7.  根据权利要求6所述的基于无监督智能学习算法的非法运营车辆识别系统，其特征在于：所述处理模块包括：
资源管理模块，申请所需要的过车数据资源，实现对过车数据处理所需的资源的管理，同时保证在并行的条件下资源的合理利用；
任务管理模块，将预处理后的过车数据采用MapReduce任务方式进行离群点分析，负责运行执行MapReduce任务以及任务的调度、分配；
计算模块：负责将过车数据在多个计算节点上进行并行预处理计算，通过Map算法对过车数据进行转换，通过Reduce算法对过车数据进行集成、数据计算及数据的归并；通过MapReduce引擎实现过车数据的离群点并行计算，在Map算法上对过车数据进行欧氏距离、第k领域以及可达距离的计算，在Reduce算法上进行可达密度、离群因子的计算，最终得到过车数据中的离群点。

说明书

说明书基于无监督智能学习算法的非法运营车辆识别方法及系统
技术领域
本发明涉及智能交通技术领域，尤其是一种基于无监督智能学习算法的非法运营车辆识别方法及系统。
背景技术
近年来，全国各地发生了多起因乘客乘坐非法运营车辆而被抢劫、强奸、杀害的恶性案件，非法运营车辆的存在不仅给社会治安带来恶劣影响，而且还给正常交通运输市场秩序造成了极大的冲击，危害颇多，但目前并没有一种有效的方法或系统可实现非法运营车辆的自动识别。故如何自动识别非法运营车辆，如何追踪非法运营车辆的行车轨迹等问题已成为各地运管部门亟待解决的问题。
发明内容
本发明的首要目的在于提供一种实现对过车数据中的非法营运车辆的自动识别，维护正常的交通秩序，为运管处对非法营运车辆的监控处罚提供依据的基于无监督智能学习算法的非法运营车辆识别方法。
为实现上述目的，本发明采用了以下技术方案：一种基于无监督智能学习算法的非法运营车辆识别方法，该方法包括下列顺序的步骤：
（1）输入待识别车辆的筛选条件；
（2）根据筛选条件，在Hadoop大数据平台上检索出与筛选条件相关的车辆的过车数据；
（3）对检索出来的过车数据进行数据预处理；
（4）通过Hadoop大数据平台的MapReduce引擎，采用无监督智能学习算法对预处理后的过车数据进行分析处理；
（5）对分析结果进行统计分析，并将统计结果与阈值进行比较后，识别车辆是否为非法运营车辆，将最终的识别结果呈现给用户。
所述筛选条件包括车辆经过卡口的起止时间，卡口编号，以及车牌号码。
所述数据预处理包括以下步骤：
（1）特征选择：采用MapReduce引擎获取存储在分布式文件系统HBase中的卡口过车数据，然后通过相关性分析得到车辆过车数据中各特种属性与非法运营车辆间的相关程度，取相关程度靠前的3个确定为过车时间、经过卡口速度以及卡口编号；
（2）过车数据集成：将卡口系统中的过车数据信息与GIS系统中的卡口经纬度坐标信息集成；
（3）过车数据清洗：将过车数据中的非结构化数据进行标准化处理，将过车数据中有缺失或错误的数据删除，同时根据车型条件，删除大型客车、货车车辆；根据车牌号码，删除出租车、单位用车车辆；
（4）过车数据特征属性变换：将过车时间、卡口编号的非数字型属性值转换为数字型属性值，并将过车时间、卡口经纬度坐标值进行放大处理。
所述采用无监督智能学习算法对预处理后的过车数据进行分析处理包括以下步骤：
（1）计算过车数据间的欧几里得距离：将经预处理后的过车数据转变为数值型数据，计算待识别车辆的每条过车数据与其他所有车辆过车数据的欧几里得距离；
（2）计算过车数据的第k领域：将欧几里得距离按从小到大的顺序进行排序，取第k个值作为该过车数据的第k距离，以此过车数据为中心，以第k距离值为半径的空间区域为该过车数据的第k领域；
（3）计算过车数据的可达距离：将某条过车数据的第k距离与其第k领域中其他过车数据的第k距离比较，取最大的值作为第k领域内过车数据所对应的可达距离；
（4）计算过车数据的可达密度：求得每条过车数据第k领域内所有过车数据可达距离的平均值，对此平均值求倒数，即得到各过车数据的可达密度；
（5）计算过车数据的离群因子：计算得到某条过车数据第k领域内所有过车数据可达密度与该条过车数据的可达密度之比，求得所有比值的平均值，对此平均值求倒数，即得到各个过车数据的局部离群因子；
（6）计算过车数据中的离群点：将每个过车数据的局部离群因子与离群点判别阈值比较，大于离群点判别阈值的局部离群因子作为离群点，离群点判别阈值为1.5。
将离群点与非法运营车辆判别阈值比较，离群点数大于非法运营车辆判别阈值的车辆即为非法营运车辆，非法运营车辆判别阈值为10。
本发明的另一目的在于提供一种基于无监督智能学习算法的非法运营车辆识别系统，包括：
检索模块，对卡口过车数据进行序列化处理，将卡口大数据转换成二进制流的方式存储到分布式文件系统HBase中，并使用MapReduce引擎获取存储在分布式文件系统HBase上符合条件的过车数据，将获取的数据存储到分布式文件系统HBase中，实现对卡口过车数据的快速检索；
控制模块，实现对查询条件的自动语义识别，进而对存储的过车数据进行目标查找，获得原始数据；
处理模块，采用MapReduce引擎对获取到的过车数据进行转换、合并、计算操作，并将清洗之后的数据传输到计算节点；负责MapReduce任务的调度、资源的申请及管理，并负责任务的切分、处理、失败任务重启功能，最终完成任务的执行。
所述处理模块包括：
资源管理模块，申请所需要的过车数据资源，实现对过车数据处理所需的资源的管理，同时保证在并行的条件下资源的合理利用；
任务管理模块，将预处理后的过车数据采用MapReduce任务方式进行离群点分析，负责运行执行MapReduce任务以及任务的调度、分配；
计算模块：负责将过车数据在多个计算节点上进行并行预处理计算，通过Map算法对过车数据进行转换，通过Reduce算法对过车数据进行集成、数据计算及数据的归并；通过MapReduce引擎实现过车数据的离群点并行计算，在Map算法上对过车数据进行欧氏距离、第k领域以及可达距离的计算，在Reduce算法上进行可达密度、离群因子的计算，最终得到过车数据中的离群点。
由上述技术方案可知，本发明的优点在于：第一，在Hadoop大数据平台上对符合筛选条件的车辆的过车数据进行快速检索，同时，对检索出来的过车数据进行数据预处理，接着通过MapReduce引擎将处理后的过车数据使用无监督智能学习算法进行分析，并将分析结果呈现给用户，从而提高运管部门对非法营运车辆的监控管理能力；第二，本发明的所有智能分析过程都是自动的，最大限度的减少了人为的因素对最终非法运营车辆识别结果的影响，而且所有的数据处理过程都是并行的，极大地提高了数据处理的效率，使用户执行操作时能最快的获得分析的结果。
附图说明
图1为本发明的方法流程图；
图2为本发明的系统结构框图；
图3为本发明的数据检索方法流程图；
图4为本发明的数据预处理方法流程图；
图5为本发明的离群点分析方法流程图。
具体实施方式
如图1所示，一种基于无监督智能学习算法的非法运营车辆识别方法，包括：（1）输入待识别车辆的筛选条件；（2）根据筛选条件，在Hadoop大数据平台上检索出与筛选条件相关的车辆的过车数据，如图3所示；（3）对检索出来的过车数据进行数据预处理；（4）通过Hadoop大数据平台的MapReduce引擎，采用无监督智能学习算法对预处理后的过车数据进行分析处理；（5）对分析结果进行统计分析，并将统计结果与阈值进行比较后，识别车辆是否为非法运营车辆，将最终的识别结果呈现给用户。所述筛选条件包括车辆经过卡口的起止时间，卡口编号，以及车牌号码。
如图3所示，在进行检索时，由用户提交查询请求，比如说某个模糊的车辆车牌信息；控制模块对输入的查询请求信息进行分析，控制模块采用MapReduce引擎对查询条件进行自动语义识别；然后通过检索模块对存储在Hbase中的过车数据进行目标查找，获得原始的过车数据并进行序列化处理，如：车辆的车牌信息、卡口名称、卡口过车时间及过车速度等；然后将过车数据传输至处理模块，对过车数据进行数据预处理、计算等操作。
如图4所示，所述数据预处理包括以下步骤：（1）特征选择：采用MapReduce引擎获取存储在分布式文件系统HBase中的卡口过车数据，然后通过相关性分析得到车辆过车数据中各特种属性与非法运营车辆间的相关程度，取相关程度靠前的3个确定为过车时间、经过卡口速度以及卡口编号；（2）过车数据集成：将卡口系统中的过车数据信息与GIS系统中的卡口经纬度坐标信息集成；（3）过车数据清洗：将过车数据中的非结构化数据进行标准化处理，将过车数据中有缺失或错误的数据删除，同时根据车型条件，删除大型客车、货车车辆；根据车牌号码，删除出租车、单位用车车辆；（4）过车数据特征属性变换：将过车时间、卡口编号的非数字型属性值转换为数字型属性值，并将过车时间、卡口经纬度坐标值进行放大处理，放大处理是为了让过车时间、卡口经纬度在一个数量级上，从而使各个特征属性对识别结果的影响一致。
如图5所示，所述采用无监督智能学习算法对预处理后的过车数据进行分析处理包括以下步骤：（1）计算过车数据间的欧几里得距离：将经预处理后的过车数据转变为数值型数据，计算待识别车辆的每条过车数据与其他所有车辆过车数据的欧几里得距离；（2）计算过车数据的第k领域：将欧几里得距离按从小到大的顺序进行排序，取第k个值作为该过车数据的第k距离，以此过车数据为中心，以第k距离值为半径的空间区域为该过车数据的第k领域；（3）计算过车数据的可达距离：将某条过车数据的第k距离与其第k领域中其他过车数据的第k距离比较，取最大的值作为第k领域内过车数据所对应的可达距离；（4）计算过车数据的可达密度：求得每条过车数据第k领域内所有过车数据可达距离的平均值，对此平均值求倒数，即得到各过车数据的可达密度；（5）计算过车数据的离群因子：计算得到某条过车数据第k领域内所有过车数据可达密度与该条过车数据的可达密度之比，求得所有比值的平均值，对此平均值求倒数，即得到各个过车数据的局部离群因子；（6）计算过车数据中的离群点：将每个过车数据的局部离群因子与离群点判别阈值比较，大于离群点判别阈值的局部离群因子作为离群点，离群点判别阈值为1.5。将离群点与非法运营车辆判别阈值比较，离群点数大于非法运营车辆判别阈值的车辆即为非法营运车辆，非法运营车辆判别阈值为10。根据城市不同，k值是有区别的，k取5～10的任意一个整数，哪个整数取值得到的非法运营车辆识别结果最好就取哪个值，在这里，取k=7，第k领域和第k距离的k是一个k。
如图2所示，本系统包括：检索模块，对卡口过车数据进行序列化处理，将卡口大数据转换成二进制流的方式存储到分布式文件系统HBase中，并使用MapReduce引擎获取存储在分布式文件系统HBase上符合条件的过车数据，将获取的数据存储到分布式文件系统HBase中，实现对卡口过车数据的快速检索；控制模块，实现对查询条件的自动语义识别，进而对存储的过车数据进行目标查找，获得原始数据；处理模块，采用MapReduce引擎对获取到的过车数据进行转换、合并、计算操作，并将清洗之后的数据传输到计算节点；负责MapReduce任务的调度、资源的申请及管理，并负责任务的切分、处理、失败任务重启功能，最终完成任务的执行。
如图2所示，所述处理模块包括：资源管理模块，申请所需要的过车数据资源，实现对过车数据处理所需的资源的管理，同时保证在并行的条件下资源的合理利用；任务管理模块，将预处理后的过车数据采用MapReduce任务方式进行离群点分析，负责运行执行MapReduce任务以及任务的调度、分配；计算模块：负责将过车数据在多个计算节点上进行并行预处理计算，通过Map算法对过车数据进行转换，通过Reduce算法对过车数据进行集成、数据计算及数据的归并；通过MapReduce引擎实现过车数据的离群点并行计算，在Map算法上对过车数据进行欧氏距离、第k领域以及可达距离的计算，在Reduce算法上进行可达密度、离群因子的计算，最终得到过车数据中的离群点。
将所有过车数据的局部离群因子大于所设定的离群点判别阈值的过车数据按离群因子从大到小的顺序输出，这些点即为所要求得离群点。通过对多辆车离群点分析结果进行统计分析，得到非法运营车辆判别阈值，通过每辆车离群点分析结果与非法运营车辆判别阈值的比较，从而确定车辆是否为非法运营车辆。将统计分析后的车辆是否为非法运营车辆的结果、可疑程度等以列表的形式展示给用户，而且用户可对感兴趣车辆的行车轨迹以及过车数据的具体情况进行查询。
系统对过车数据的存储与计算，采用的是大规模数据存储、计算等技术，并实现大数据平台的搭建和卡口大数据等非结构化数据的存储解决方案；在大规模数据存储上，研究非关系型数据存储机制、Hadoop分布式存储机制、并行计算等技术；设计一个分布式计算、统一存储、统一访问、动态扩容的基础环境解决方案，为非法运营车辆判别、追踪提供技术支撑。
综上所述，本发明在Hadoop大数据平台上对符合筛选条件的车辆的过车数据进行快速检索，同时，对检索出来的过车数据进行数据预处理，接着通过MapReduce引擎将处理后的过车数据使用无监督智能学习算法进行分析，并将分析结果呈现给用户，从而提高运管部门对非法营运车辆的监控管理能力；本发明的所有智能分析过程都是自动的，最大限度的减少了人为的因素对最终非法运营车辆识别结果的影响，而且所有的数据处理过程都是并行的，极大地提高了数据处理的效率，使用户执行操作时能最快的获得分析的结果。