基于大数据的医疗数据异常分析方法、装置和计算机设备.pdf
《基于大数据的医疗数据异常分析方法、装置和计算机设备.pdf》由会员分享,可在线阅读,更多相关《基于大数据的医疗数据异常分析方法、装置和计算机设备.pdf(20页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011039794.4 (22)申请日 2020.09.28 (71)申请人 平安医疗健康管理股份有限公司 地址 200001 上海市黄浦区北京东路666号 H区(东座)12G室 (72)发明人 唐强 (74)专利代理机构 广州华进联合专利商标代理 有限公司 44224 代理人 刘佳妮 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/248(2019.01) G06K 9/62(2006.01) (54)发明名称 基于大数据的医疗数据异常。
2、分析方法、 装置 和计算机设备 (57)摘要 本申请涉及人工智能, 提供一种基于大数据 的医疗数据异常分析方法、 装置、 计算机设备和 存储介质。 所述方法包括: 在接收到终端发送的 异常分析请求时, 获取对应于相同病种的待分析 的医疗数据; 按照预设的数据组合类型, 将医疗 数据中各类型的数据进行组合, 获得各数据组合 类型分别对应的医疗数据对; 分别对各数据组合 类型对应的医疗数据对进行聚类, 根据聚类结果 确定各数据组合类型对应的医疗数据中的离群 点; 根据各离群点的异常度, 确定医疗数据中的 异常数据, 并将异常数据反馈至终端, 以在终端 进行可视化展示。 采用本方法能够提高医疗数据 。
3、异常分析的准确度。 权利要求书2页 说明书14页 附图3页 CN 112131277 A 2020.12.25 CN 112131277 A 1.一种基于大数据的医疗数据异常分析方法, 其特征在于, 所述方法包括: 在接收到终端发送的异常分析请求时, 获取对应于相同病种的待分析的医疗数据; 按照预设的数据组合类型, 将所述医疗数据中各类型的数据进行组合, 获得各所述数 据组合类型分别对应的医疗数据对; 分别对各所述数据组合类型对应的医疗数据对进行聚类, 根据聚类结果确定各所述数 据组合类型对应的医疗数据中的离群点; 根据各所述离群点的异常度, 确定所述医疗数据中的异常数据, 并将所述异常数据反。
4、 馈至所述终端, 以在所述终端进行可视化展示。 2.根据权利要求1所述的方法, 其特征在于, 所述在接收到终端发送的异常分析请求 时, 获取用户对应于相同病种的待分析的医疗数据, 包括: 接收终端发送的异常分析请求, 并根据所述异常分析请求确定目标用户标识; 从医疗记录库中获取所述目标用户标识对应的医疗记录; 从所述医疗记录中提取对应于相同病种的待分析的医疗数据。 3.根据权利要求2所述的方法, 其特征在于, 所述从所述医疗记录中提取对应于相同病 种的待分析的医疗数据, 包括: 确定待分析病种, 并从所述医疗记录中筛选出属于所述待分析病种的筛选医疗记录; 对所述筛选医疗记录进行解析, 根据解析。
5、结果确定所述目标用户标识对应于所述待分 析病种的就医信息、 费用信息和参保地点; 根据所述参保地点和所述就医信息中就医医院的位置, 确定异地就医距离; 根据所述就医信息、 费用信息、 参保地点和所述异地就医距离得到待分析的医疗数据。 4.根据权利要求1所述的方法, 其特征在于, 所述分别对各所述数据组合类型对应的医 疗数据对进行聚类, 根据聚类结果确定各所述数据组合类型对应的医疗数据中的离群点, 包括: 通过密度聚类算法分别对各所述数据组合类型对应的医疗数据对进行聚类, 得到包括 至少一个聚类簇的聚类结果; 基于离群点检测算法分别确定各所述数据组合类型对应的医疗数据对中的预备离群 点; 根据所。
6、述聚类簇从所述预备离群点中确定各所述数据组合类型对应的医疗数据中的 离群点。 5.根据权利要求1所述的方法, 其特征在于, 所述根据各所述离群点的异常度, 确定所 述医疗数据中的异常数据, 包括: 查询预设的各所述数据组合类型分别对应异常因子; 根据所述异常因子计算对应数据组合类型的离群点的异常度; 根据各所述离群点的异常度确定所述医疗数据中的异常数据。 6.根据权利要求5所述的方法, 其特征在于, 所述根据各所述离群点的异常度确定所述 医疗数据中的异常数据, 包括: 将对应于同一目标用户标识的各离群点的异常度进行叠加, 得到各目标用户标识分别 对应的用户异常度; 当所述用户异常度超过异常度阈。
7、值时, 确定所述用户异常度对应目标用户标识的医疗 权利要求书 1/2 页 2 CN 112131277 A 2 数据为异常数据。 7.根据权利要求1至6任意一项所述的方法, 其特征在于, 所述将所述异常数据反馈至 所述终端, 以在所述终端进行可视化展示, 包括: 查询预设的异常分级条件; 根据所述异常分级条件确定所述异常数据对应的异常级别; 根据所述异常级别确定所述异常数据的可视化展示方式; 将所述异常数据和所述可视化展示方式反馈至所述终端, 以在所述终端按照所述可视 化展示方式对所述异常数据进行可视化展示。 8.一种基于大数据的医疗数据异常分析装置, 其特征在于, 所述装置包括: 医疗数据获。
8、取模块, 用于在接收到终端发送的异常分析请求时, 获取对应于相同病种 的待分析的医疗数据; 数据对获得模块, 用于按照预设的数据组合类型, 将所述医疗数据中各类型的数据进 行组合, 获得各所述数据组合类型分别对应的医疗数据对; 离群点确定模块, 用于分别对各所述数据组合类型对应的医疗数据对进行聚类, 根据 聚类结果确定各所述数据组合类型对应的医疗数据中的离群点; 异常数据确定模块, 用于根据各所述离群点的异常度, 确定所述医疗数据中的异常数 据, 并将所述异常数据反馈至所述终端, 以在所述终端进行可视化展示。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 。
9、于, 所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 10.一种计算机存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时实现权利要求1至7中任一项所述的方法的步骤。 权利要求书 2/2 页 3 CN 112131277 A 3 基于大数据的医疗数据异常分析方法、 装置和计算机设备 技术领域 0001 本申请涉及计算机技术领域, 特别是涉及一种基于大数据的医疗数据异常分析方 法、 装置、 计算机设备和存储介质。 背景技术 0002 随着互联网技术的不断发展, 互联网技术对于医疗行业起到了十分重要的作用, 利用互联网技术处理各种医疗数据能够有。
10、效地提高医疗数据的处理效率。 随着异地就医的 需求不断增加, 需要对异地就医的医疗数据的真实性和可靠性进行准确分析判断, 有利于 获得精确的医疗数据, 以便医疗机构能够针对性提供更好的医疗服务。 0003 然而, 医疗数据中数据种类繁多, 目前对各类型医疗数据的真实性和可靠性进行 一一分析, 不能有效利用各类型数据之间的联系, 导致医疗数据异常分析的准确性有限。 发明内容 0004 基于此, 有必要针对上述技术问题, 提供一种能够提高医疗数据异常分析准确度 的基于大数据的医疗数据异常分析方法、 装置、 计算机设备和存储介质。 0005 一种基于大数据的医疗数据异常分析方法, 所述方法包括: 0。
11、006 在接收到终端发送的异常分析请求时, 获取对应于相同病种的待分析的医疗数 据; 0007 按照预设的数据组合类型, 将医疗数据中各类型的数据进行组合, 获得各数据组 合类型分别对应的医疗数据对; 0008 分别对各数据组合类型对应的医疗数据对进行聚类, 根据聚类结果确定各数据组 合类型对应的医疗数据中的离群点; 0009 根据各离群点的异常度, 确定医疗数据中的异常数据, 并将异常数据反馈至终端, 以在终端进行可视化展示。 0010 在其中一个实施例中, 在接收到终端发送的异常分析请求时, 获取用户对应于相 同病种的待分析的医疗数据, 包括: 0011 接收终端发送的异常分析请求, 并根。
12、据异常分析请求确定目标用户标识; 0012 从医疗记录库中获取目标用户标识对应的医疗记录; 0013 从医疗记录中提取对应于相同病种的待分析的医疗数据。 0014 在其中一个实施例中, 从医疗记录中提取对应于相同病种的待分析的医疗数据, 包括: 0015 确定待分析病种, 并从医疗记录中筛选出属于待分析病种的筛选医疗记录; 0016 对筛选医疗记录进行解析, 根据解析结果确定目标用户标识对应于待分析病种的 就医信息、 费用信息和参保地点; 0017 根据参保地点和就医信息中就医医院的位置, 确定异地就医距离; 0018 根据就医信息、 费用信息、 参保地点和异地就医距离得到待分析的医疗数据。 。
13、说明书 1/14 页 4 CN 112131277 A 4 0019 在其中一个实施例中, 分别对各数据组合类型对应的医疗数据对进行聚类, 根据 聚类结果确定各数据组合类型对应的医疗数据中的离群点, 包括: 0020 通过密度聚类算法分别对各数据组合类型对应的医疗数据对进行聚类, 得到包括 至少一个聚类簇的聚类结果; 0021 基于离群点检测算法分别确定各数据组合类型对应的医疗数据对中的预备离群 点; 0022 根据聚类簇从预备离群点中确定各数据组合类型对应的医疗数据中的离群点。 0023 在其中一个实施例中, 根据各离群点的异常度, 确定医疗数据中的异常数据, 包 括: 0024 查询预设的。
14、各数据组合类型分别对应异常因子; 0025 根据异常因子计算对应数据组合类型的离群点的异常度; 0026 根据各离群点的异常度确定医疗数据中的异常数据。 0027 在其中一个实施例中, 根据各离群点的异常度确定医疗数据中的异常数据, 包括: 0028 将对应于同一目标用户标识的各离群点的异常度进行叠加, 得到各目标用户标识 分别对应的用户异常度; 0029 当用户异常度超过异常度阈值时, 确定用户异常度对应目标用户标识的医疗数据 为异常数据。 0030 在其中一个实施例中, 将异常数据反馈至终端, 以在终端进行可视化展示, 包括: 0031 查询预设的异常分级条件; 0032 根据异常分级条件。
15、确定异常数据对应的异常级别; 0033 根据异常级别确定异常数据的可视化展示方式; 0034 将异常数据和可视化展示方式反馈至终端, 以在终端按照可视化展示方式对异常 数据进行可视化展示。 0035 一种基于大数据的医疗数据异常分析装置, 所述装置包括: 0036 医疗数据获取模块, 用于在接收到终端发送的异常分析请求时, 获取对应于相同 病种的待分析的医疗数据; 0037 数据对获得模块, 用于按照预设的数据组合类型, 将医疗数据中各类型的数据进 行组合, 获得各数据组合类型分别对应的医疗数据对; 0038 离群点确定模块, 用于分别对各数据组合类型对应的医疗数据对进行聚类, 根据 聚类结果。
16、确定各数据组合类型对应的医疗数据中的离群点; 0039 异常数据确定模块, 用于根据各离群点的异常度, 确定医疗数据中的异常数据, 并 将异常数据反馈至终端, 以在终端进行可视化展示。 0040 一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 所述处理 器执行所述计算机程序时实现以下步骤: 0041 在接收到终端发送的异常分析请求时, 获取对应于相同病种的待分析的医疗数 据; 0042 按照预设的数据组合类型, 将医疗数据中各类型的数据进行组合, 获得各数据组 合类型分别对应的医疗数据对; 0043 分别对各数据组合类型对应的医疗数据对进行聚类, 根据聚类结果确定各数据组。
17、 说明书 2/14 页 5 CN 112131277 A 5 合类型对应的医疗数据中的离群点; 0044 根据各离群点的异常度, 确定医疗数据中的异常数据, 并将异常数据反馈至终端, 以在终端进行可视化展示。 0045 一种计算机存储介质, 其上存储有计算机程序, 所述计算机程序被处理器执行时 实现以下步骤: 0046 在接收到终端发送的异常分析请求时, 获取对应于相同病种的待分析的医疗数 据; 0047 按照预设的数据组合类型, 将医疗数据中各类型的数据进行组合, 获得各数据组 合类型分别对应的医疗数据对; 0048 分别对各数据组合类型对应的医疗数据对进行聚类, 根据聚类结果确定各数据组 。
18、合类型对应的医疗数据中的离群点; 0049 根据各离群点的异常度, 确定医疗数据中的异常数据, 并将异常数据反馈至终端, 以在终端进行可视化展示。 0050 上述基于大数据的医疗数据异常分析方法、 装置、 计算机设备和存储介质, 按照预 设的数据组合类型, 将对应于相同病种的待分析的医疗数据中各类型的数据进行组合, 并 对获得的医疗数据对进行聚类, 根据聚类结果确定各数据组合类型对应的医疗数据中的离 群点, 再根据各离群点的异常度确定医疗数据中的异常数据。 通过预设的数据组合类型将 医疗数据中各类型的数据进行组合, 并利用对获得的医疗数据进行聚类得到的离群点的异 常度确定异常数据, 可以将多种。
19、类型的医疗数据组合进行异常分析, 有效利用各类型数据 之间的联系, 能够准确确定医疗数据中的异常数据, 提高了医疗数据异常分析的准确度。 附图说明 0051 图1为一个实施例中基于大数据的医疗数据异常分析方法的应用场景图; 0052 图2为一个实施例中基于大数据的医疗数据异常分析方法的流程示意图; 0053 图3为一个实施例中提取医疗数据的流程示意图; 0054 图4为一个实施例中基于大数据的医疗数据异常分析装置的结构框图; 0055 图5为一个实施例中计算机设备的内部结构图。 具体实施方式 0056 为了使本申请的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对 本申请进行进。
20、一步详细说明。 应当理解, 此处描述的具体实施例仅仅用以解释本申请, 并不 用于限定本申请。 0057 本申请提供的基于大数据的医疗数据异常分析方法, 可以应用于如图1所示的应 用环境中。 其中, 终端102与服务器104通过网络进行通信。 终端102向服务器104发送异常分 析请求, 以请求服务器104对医疗数据进行异常分析, 服务器104接收到终端102发送的异常 分析请求时, 服务器104获取对应于相同病种的待分析的医疗数据, 按照预设的数据组合类 型, 将对应于相同病种的待分析的医疗数据中各类型的数据进行组合, 并对获得的医疗数 据对进行聚类, 根据聚类结果确定各数据组合类型对应的医疗。
21、数据中的离群点, 再根据各 离群点的异常度确定医疗数据中的异常数据, 最后由服务器104将获得的异常数据反馈至 说明书 3/14 页 6 CN 112131277 A 6 终端102, 以在终端102进行可视化展示。 其中, 终端102可以但不限于是各种个人计算机、 笔 记本电脑、 智能手机、 平板电脑和便携式可穿戴设备, 服务器104可以用独立的服务器或者 是多个服务器组成的服务器集群来实现。 0058 在一个实施例中, 如图2所示, 提供了一种基于大数据的医疗数据异常分析方法, 以该方法应用于图1中的服务器为例进行说明, 包括以下步骤: 0059 步骤202, 在接收到终端发送的异常分析请。
22、求时, 获取对应于相同病种的待分析的 医疗数据。 0060 其中, 医疗数据可以为与医疗服务相关的信息, 如可以包括就医信息、 费用信息和 医保信息等, 就医信息具体可以包括在医疗过程中的就医医院信息、 疾病信息、 用药信息、 住院信息、 手术信息等; 费用信息可以包括在就医过程中的就医费用, 具体可以包括总费 用、 医保费用、 自费费用等; 医保信息为医疗数据对应病患的医疗保险信息, 如可以包括参 保地点、 参保类型、 医保内容等。 在医保数据中, 由于存在异地就医情况, 则有必要对医疗数 据的真实性和可靠性进行分析, 以确定医疗数据中是否存在异常数据, 从而确保医疗数据 的准确性, 以便医。
23、疗机构可以提供针对性的医疗服务, 提高医疗效果; 另一方面, 确保医疗 数据的真实准确, 还可以防止医保骗保的欺诈行为。 所以, 本申请的医疗数据异常分析方法 还可应用于智慧政务中, 从而推动智慧城市的建设。 异常分析请求由终端向服务器发送, 以 请求服务器对医疗数据进行异常分析, 异常分析请求可以携带有需要进行异常分析的医疗 数据的获取路径, 服务器可以根据该获取路径获得需要进行异常分析的医疗数据。 病种指 疾病的类型, 不同类型的疾病, 即不同的病种可能对应的就医信息和费用信息均不同, 如诊 疗过程中的诊疗手段不同、 用药不同, 则医疗数据需要按照病种进行分类异常分析, 即针对 相同病种的。
24、医疗数据异常分析, 以确保异常分析的准确性。 0061 具体地, 终端向服务器发送异常分析请求, 服务器接收到异常分析请求时, 获取相 同病种的待分析的医疗数据, 以对相同病种的医疗数据进行异常分析, 得到医疗数据中的 异常数据。 0062 步骤204, 按照预设的数据组合类型, 将医疗数据中各类型的数据进行组合, 获得 各数据组合类型分别对应的医疗数据对。 0063 其中, 医疗数据包括各种类型的数据, 如就医信息、 费用信息、 参保信息等, 不同类 型的数据组合后进行异常分析, 可以有效利用各类型数据之间的联系, 提高异常分析的准 确性。 数据组合类型指将医疗数据中需要进行组合的类型, 如。
25、可以为总费用和住院次数, 则 将医疗数据中的总费用信息和住院次数进行组合, 以根据组合结果进行异常分析。 医疗数 据对为医疗数据中不同类型的数据进行组合后得到的数据对, 如医疗数据对可以为(总费 用, 住院次数)。 0064 具体地, 服务器在获得待分析的医疗数据后, 确定预设的数据组合类型, 按照该数 据组合类型将医疗数据中各类型的数据进行组合, 得到与数据组合类型对应的医疗数据 对。 在具体实现时, 医疗数据一般与病患对应, 可以对各病患的医疗数据分别按照数据组合 类型进行组合, 得到各病患的医疗数据对应的医疗数据对。 其中, 数据组合类型可以根据实 际需求进行灵活设置, 以构建包括不同类。
26、型数据的医疗数据对。 如可以将医疗数据中各类 型的数据按照两两类型组合, 得到包括两种类型数据的二维的医疗数据对。 0065 步骤206, 分别对各数据组合类型对应的医疗数据对进行聚类, 根据聚类结果确定 说明书 4/14 页 7 CN 112131277 A 7 各数据组合类型对应的医疗数据中的离群点。 0066 其中, 聚类是一种机器学习技术, 涉及到数据点的分组, 给定一组数据点, 通过聚 类算法将每个数据点划分为一个特定的组, 理论上, 同一组中的数据点应该具有相似的属 性和/或特征, 而不同组中的数据点应该具有高度不同的属性和/或特征。 聚类结果包括对 各医疗数据对进行聚类后形成的各。
27、种组, 称为簇, 聚类结果中包括至少一个簇。 离群点指与 聚类结果中的簇相关性较低的点, 一般为距离簇的距离较远的孤立点。 离群点离聚类获得 的簇距离较远, 表明其与一般的医疗数据对差异较大, 则可能是异常数据。 0067 具体地, 服务器将医疗数据中各类型的数据进行组合后, 服务器分别对各医疗数 据对进行聚类, 如通过密度聚类算法进行聚类, 得到聚类结果, 并根据聚类结果确定各数据 组合类型对应的医疗数据中的离群点, 离群点为疑似异常数据的医疗数据对。 0068 步骤208, 根据各离群点的异常度, 确定医疗数据中的异常数据, 并将异常数据反 馈至终端, 以在终端进行可视化展示。 0069 。
28、其中, 异常度反映了离群点的异常程度, 如可以根据离群点距离聚类结果中的簇 的距离得到。 异常数据为医疗数据中非正常的数据, 异常数据的真实性和可靠性较低, 可能 是数据错误导致。 0070 具体地, 服务器得到各数据组合类型对应的医疗数据中的离群点后, 进一步确定 各离群点对应的异常度, 并根据该异常度确定医疗数据中的异常数据, 再将异常分析得到 的异常数据反馈到终端进行可视化展示, 以便在终端直观地对医疗数据中的异常数据进行 展示。 0071 上述基于大数据的医疗数据异常分析方法中, 按照预设的数据组合类型, 将对应 于相同病种的待分析的医疗数据中各类型的数据进行组合, 并对获得的医疗数据。
29、对进行聚 类, 根据聚类结果确定各数据组合类型对应的医疗数据中的离群点, 再根据各离群点的异 常度确定医疗数据中的异常数据。 通过预设的数据组合类型将医疗数据中各类型的数据进 行组合, 并利用对获得的医疗数据进行聚类得到的离群点的异常度确定异常数据, 可以将 多种类型的医疗数据组合进行异常分析, 有效利用各类型数据之间的联系, 能够准确确定 医疗数据中的异常数据, 提高了医疗数据异常分析的准确度。 0072 在一个实施例中, 在接收到终端发送的异常分析请求时, 获取用户对应于相同病 种的待分析的医疗数据, 包括: 接收终端发送的异常分析请求, 并根据异常分析请求确定目 标用户标识; 从医疗记录。
30、库中获取目标用户标识对应的医疗记录; 从医疗记录中提取对应 于相同病种的待分析的医疗数据。 0073 本实施例中, 根据异常分析请求确定的目标用户标识从医疗记录库中获取医疗记 录, 并从医疗记录中提取待分析的医疗数据。 其中, 目标用户标识指疾病患者的标识信息, 如身份证号、 姓名、 医疗系统账号、 手机号等可以用于标识不同患者的标识信息。 医疗记录 库为存储各种医疗记录的数据库, 医疗记录记录了患者在就医过程中的各种信息, 如病历 信息、 医保信息、 缴费信息等等, 医疗记录库可以设于医疗机构中, 以对患者在就医过程中 的各种信息进行管理。 0074 具体地, 服务器接收终端发送的异常分析请。
31、求, 根据该异常分析请求确定目标用 户标识。 例如, 异常分析请求可以携带目标用户标识, 如可以设置有用户标识字段, 服务器 对接收的异常分析请求进行解析, 如对目标用户标识的各字段进行解析, 读取用户标识字 说明书 5/14 页 8 CN 112131277 A 8 段的内容, 从而可以从异常分析请求中获得目标用户标识。 确定目标用户标识后, 服务器查 询预设的医疗记录库, 从该医疗记录库中获取目标用户标识对应的医疗记录。 例如, 在医疗 记录库中, 可以记录有各目标用户标识与对应医疗记录之间的映射关系, 服务器通过异常 分析请求中的目标用户标识可以根据该映射关系, 从医疗记录库中查询得到目。
32、标用户标识 对应的医疗记录。 得到目标用户标识对应的医疗记录后, 服务器从医疗记录中提取对应于 相同病种的待分析的医疗数据, 如提取与糖尿病对应的医疗数据。 具体实现中, 医疗记录的 数据结构按照医疗机构的管理需求设置, 则需要根据医疗机构对应的医疗记录格式对获得 的医疗记录进行解析, 从而从医疗记录中提取得到对应于相同病种的待分析的医疗数据。 0075 本实施例中, 根据异常分析请求确定的目标用户标识从医疗记录库中获取医疗记 录, 并从医疗记录中提取待分析的医疗数据, 可以响应于终端的异常分析请求对指定的医 疗数据进行异常分析, 提高医疗数据异常分析的针对性。 0076 在一个实施例中, 如。
33、图3所示, 提取医疗数据的处理, 即从医疗记录中提取对应于 相同病种的待分析的医疗数据, 包括: 0077 步骤302, 确定待分析病种, 并从医疗记录中筛选出属于待分析病种的筛选医疗记 录。 0078 其中, 待分析病种为需要异常分析的医疗数据对应的疾病类型, 一般不同病种的 医疗数据差异较大, 无法直接进行有效准确的异常分析。 如对于糖尿病和感冒, 二者病种不 同, 糖尿病的医疗要求高于感冒, 其费用也一般高于感冒, 若将糖尿病和感冒对应的医疗数 据结合进行异常分析, 则难以得到有效准确的异常数据, 导致分析的准确度较低。 筛选医疗 记录为医疗记录中与待分析病种对应的内容。 0079 具体。
34、地, 服务器在从医疗记录中提取医疗数据时, 确定当前的待分析病种, 待分析 病种也可以从终端发送的异常分析请求中对应的病种类型字段提取得到。 服务器对医疗记 录进行筛选, 以获得属于待分析病种的筛选医疗记录。 0080 步骤304, 对筛选医疗记录进行解析, 根据解析结果确定目标用户标识对应于待分 析病种的就医信息、 费用信息和参保地点。 0081 其中, 就医信息具体可以包括在医疗过程中的就医医院信息、 疾病信息、 用药信 息、 住院信息、 手术信息等; 费用信息可以包括在就医过程中的就医费用, 具体可以包括总 费用、 医保费用、 自费费用等; 参保地点为目标用户标识对应的用户参加医疗保险的。
35、地域。 0082 具体地, 在得到筛选医疗记录后, 服务器对筛选医疗记录进行解析, 以对医疗记录 中的内容进行识别, 得到解析结果, 并根据解析结果确定目标用户标识对应于待分析病种 的就医信息、 费用信息和参保地点, 即得到各目标用户标识在待分析病种下的就医信息、 费 用信息和参保地点。 在具体实现时, 服务器可以通过文本识别、 语义识别等对筛选医疗记录 进行解析, 并根据解析结果确定目标用户标识对应于待分析病种的就医信息、 费用信息和 参保地点。 0083 步骤306, 根据参保地点和就医信息中就医医院的位置, 确定异地就医距离。 0084 其中, 就医医院为参与目标用户标识对应的患者诊疗过。
36、程的医院。 服务器根据目 标用户标识对应的患者的参保地点和就医信息中就医医院的位置, 可以确定目标用户标识 对应的患者是否存在异地就医情况, 若存在, 则可以得到具体的异地就医距离。 0085 在一个具体应用中, 确定异地就医距离时, 可以通过爬虫技术, 如使用python 说明书 6/14 页 9 CN 112131277 A 9 scrapy爬虫框架, 从网络中自动爬取所有医院的经纬度初始坐标, 即得到医院的位置, 再根 据目标用户标识对应患者的参保单位地址或家庭地址, 计算该患者到所有异地医院的距离 信息, 计算距离散度(就医距离的发散程度,其中id表示目标用户标 识对应患者, m表示该。
37、患者异地就医的医院数量,表示需要计算的距离个数, dist(p, q) 代表p、 q两家医院的距离, 然后进行距离归一化, Liddistid/max(distid), Lid的范围从0 1, 值越大表明该患者就医的距离散度大, 越可疑, 则其医疗数据的真实性和可靠性越低。 异 地就医距离可以为所有异地就医医院的距离和。 假定最大的距离和为11500km, 距离散度可 以为0.94(该患者共去过5个外地医院, 距离个数为, 为10, 计算公式为2607+1283.3+ 1331.7+559.3+1283.3+1331.7+559.3+1331.7+559.)km/11500km, 高度可疑。 。
38、0086 步骤308, 根据就医信息、 费用信息、 参保地点和异地就医距离得到待分析的医疗 数据。 0087 服务器根据得到的就医信息、 费用信息、 参保地点和异地就医距离得到待分析的 医疗数据, 以便对医疗数据进行异常分析, 判断目标用户标识对应的医疗数据是否存在异 常。 0088 本实施例中, 按照待分析病种对医疗记录进行筛选, 并对筛选后的医疗记录进行 解析, 根据解析结果获得的就医信息、 费用信息、 参保地点和异地就医距离得到待分析的医 疗数据, 从而可以按照病种对不同类型的医疗数据进行异常分析, 确保异常分析的准确度。 0089 在一个实施例中, 分别对各数据组合类型对应的医疗数据对。
39、进行聚类, 根据聚类 结果确定各数据组合类型对应的医疗数据中的离群点, 包括: 通过密度聚类算法分别对各 数据组合类型对应的医疗数据对进行聚类, 得到包括至少一个聚类簇的聚类结果; 基于离 群点检测算法分别确定各数据组合类型对应的医疗数据对中的预备离群点; 根据聚类簇从 预备离群点中确定各数据组合类型对应的医疗数据中的离群点。 0090 其中, 密度聚类算法即为基于密度的聚类算法, 以数据集在空间分布上的稠密度 为依据进行聚类, 无需预先设定聚类簇的数量, 适于未知内容的数据集进行聚类。 对医疗数 据对进行聚类后, 在空间分布上具有较强稠密度关系的医疗数据对会被划分至同一聚类 簇。 离群点检测。
40、算法(Local Outlier Factor, LOF)可以有效检测出与正常数据行为或特征 属性差别较大的异常数据或行为, 这些数据或行为称为离群点。 预备离群点是基于离群点 检测算法进行检测后直接获得的初步结果, 可以进一步结合聚类结果从预备离群点中准确 确定满足需求的离群点。 0091 具体地, 服务器在将医疗数据中各类型的数据进行组合, 得到医疗数据对后, 服务 器通过密度聚类算法, 如DBSCAN(Density-Based Spatial Clustering of Applications with Noise, 基于密度的噪声应用空间聚类)、 OPTICS(Ordering p。
41、oints to identify the clustering structure,排序点以识别聚类结构)等, 分别对各数据组合类型对应的医疗数 据对进行聚类, 得到包括至少一个聚类簇的聚类结果。 相同聚类簇中的医疗数据对之间的 稠密度较高, 具有相同特征, 则表明聚类簇中的医疗数据对属于正常数据。 0092 另一方面, 服务器通过离群点检测算法分别确定各数据组合类型对应的医疗数据 中的预备离群点, 离群点检测算法是一种基于距离的异常点检测算法, 可以检测出各数据 组合类型对应的医疗数据中的预备离群点。 具体可以通过离群点检测算法计算离群因子, 说明书 7/14 页 10 CN 112131。
42、277 A 10 如点p的离群因子, 表示点p的邻域点的局部可达密度与点p的局部可达密度之比的平均数, 通过离群因子可以确定医疗数据中的预备离群点。 0093 得到聚类结果和预备离群点后, 服务器结合聚类结果和预备离群点, 确定各数据 组合类型对应的医疗数据中的离群点。 例如, 服务器可以利用聚类结果对预备离群点进行 判定, 判定各预备离群点在聚类结果中是否对应属于某一个聚类簇, 若是, 则可以判定该预 备离群点不是离群点, 否则判定该预备离群点为离群点。 0094 在一个具体应用中, 医疗数据可以划分为数值型数据(连续型)和类别型数据(非 连续型), 对于数值型数据, 如就医总费用、 医保报。
43、销费用、 自费费用等, 可以进行(0, 1)归一 化处理; 而对于医院等级、 异地就医人员类别等非数值型数据, 可以对其进行编码, 如进行 独热编码(onehot), 如将医院划分为三级, 分别为三级: (1,0,0)、 二级(0,1,0)和一级及其 它(0,0,1)。 0095 在进行密度聚类处理时, 通过距离度量结果确定邻域样本集, 根据邻域样本集确 定核心对象集, 根据核心对象集中的核心对象对医疗数据对进行簇划分, 得到聚类结果。 具 体地, 可以通过DBSCAN算法对各医疗数据对进行聚类。 实现时, 对于医疗数据对的数据集D (x1, x2, ., xm), 邻域参数(, MinPts。
44、), 输出为簇划分C。 其中, xm为第m个医疗数据对, 为在一个点周围邻近区域的半径, MinPts为邻近区域内至少包含点的个数。 进一步地, 如 下步骤: 00961)初始化核心对象集合初始化聚类簇数k0, 初始化未访问样本集合 D, 簇划分 0097 2)对于j1, 2, .m, 按下面的步骤找出所有的核心对象: 0098 a)通过距离度量方式, 找到样本xj的邻域子样本集N(xj); 0099 b)如果子样本集样本个数满足|N(xj)|MinPts, 将样本xj加入核心对象样本 集合: xj; 01003)如果核心对象集合则算法结束, 否则转入步骤4); 0101 4)在核心对象集合中。
45、, 随机选择一个核心对象o, 初始化当前簇核心对象队列 curo, 初始化类别序号kk+1, 初始化当前簇样本集合Cko, 更新未访问样本集合 -o; 01025)如果当前簇核心对象队列则当前聚类簇Ck生成完毕, 更新簇划分C C1, C2, ., Ck, 更新核心对象集合-Ck, 转入步骤3); 0103 6)在当前簇核心对象队列cur中取出一个核心对象o , 通过邻域距离阈值找 出所有的邻域子样本集N(o ), 令N(o ), 更新当前簇样本集合CkCk, 更新未访问样本集合-, 更新curcur()-o , 转入步骤5); 0104 最后输出结果为得到的簇划分CC1, C2, ., Ck。
46、, 从而实现对医疗数据对的聚 类, 得到聚类结果。 0105 此外, 基于离群点算法可有效解决由于密度不同导致的离群, 主要是计算离群因 子: 如果这个比值越接近1, 说明医疗数据对p的其邻域点密度差不多, p可能和邻域同属一 簇; 如果这个比值越小于1, 说明医疗数据对p的密度高于其邻域点密度, p为密集点; 如果这 个比值越大于1, 说明医疗数据对p的密度小于其邻域点密度, p越可能是异常点。 通过对离 说明书 8/14 页 11 CN 112131277 A 11 群点的值进行判断, 例如, 对于医疗总费用, 该维度离群点的医疗总费用明显高于其他同病 种就诊, 存在把一次小病包装成超严重。
47、疾病, 获取高额报销费用; 对于住院次数, 若该维度 离群点表明该患者就诊次数远高于其他患者, 则存在多次购买假发票套取医保基金的可 能; 又如参保地和就医距离, 该维度离群点表明该患者就诊轨迹与别人不同, 则存在一定的 欺诈风险。 0106 本实施例中, 结合密度聚类算法聚类得到的聚类结合, 和离群点检测算法确定的 预备离群点确定各数据组合类型对应的医疗数据中的离群点, 可以有效提高离群点判定的 准确性, 从而提高医疗数据异常分析的准确度。 0107 在一个实施例中, 根据各离群点的异常度, 确定医疗数据中的异常数据, 包括: 查 询预设的各数据组合类型分别对应异常因子; 根据异常因子计算对。
48、应数据组合类型的离群 点的异常度; 根据各离群点的异常度确定医疗数据中的异常数据。 0108 其中, 异常因子为各种数据组合类型的异常权重, 不同的数据组合类型对应不同 的异常权重, 异常因子可以根据实际需求进行灵活设置, 以突出不同数据组合类型对于异 常分享判定的重要程度。 异常度反映了离群点的异常程度, 异常度越高, 则表明对应离群点 异常程度越高, 该离群点越可能是异常数据。 0109 具体地, 在确定医疗数据中的异常数据时, 服务器查询各数据组合类型分别对应 异常因子, 异常因子可以在设置各数据组合类型时对应设定, 以利用异常因子对不同类型 的医疗数据组合的重要程度进行调整, 从而提高。
49、异常分析的准确度。 得到异常因子后, 服务 器根据各异常因子计算对应数据组合类型的离群点的异常度, 具体可以根据异常因子与对 应数据组合类型的离群点的距离的乘积得到异常度, 离群点的距离可以为离群点与聚类结 果中各聚类簇的簇中心的平均距离、 或与最接近的聚类簇的簇中心之间的距离。 得到各数 据组合类型的离群点的异常度后, 综合各数据组合类型的离群点的异常度, 如可以根据数 据组合类型的离群点的异常度的和, 得到各医疗数据分别各自对应异常评估结果, 根据该 异常评估结果判定对应的医疗数据是否为异常数据。 如异常评估结果可以包括异常评分, 将异常评分与预设的评分阈值进行比较, 若异常评分超过评分阈。
50、值, 则认为该异常评分对 应的医疗数据为异常数据。 0110 本实施例中, 通过预先设定的数据组合类型分别对应异常因子确定各离群点的异 常度, 以对各离群点的重要程度进行调整, 可以进一步提高医疗数据异常分析的准确度。 0111 在一个实施例中, 根据各离群点的异常度确定医疗数据中的异常数据, 包括: 将对 应于同一目标用户标识的各离群点的异常度进行叠加, 得到各目标用户标识分别对应的用 户异常度; 当用户异常度超过异常度阈值时, 确定用户异常度对应目标用户标识的医疗数 据为异常数据。 0112 本实施例中, 在根据异常因子计算对应数据组合类型的离群点的异常度后, 服务 器将对应于同一目标用户。
- 内容关键字: 基于 数据 医疗 异常 分析 方法 装置 计算机 设备
养殖禽畜排泄物固液分离处理设备.pdf
铝合金平板加工用夹具.pdf
抗弯抗拉低频闪灯带.pdf
图书馆空气调节装置.pdf
路面高差检测装置.pdf
U肋板转运机器人的行走机构切换装置.pdf
冲压机用的精准送料装置.pdf
茶叶加工用萎凋装置.pdf
糠醛残液回收釜.pdf
蓄电池组中实时时钟芯片供电电路.pdf
水平防跷板调节压轮机构.pdf
高压线圈引出装置.pdf
热管节能型离子溶液碳捕集装置.pdf
工作效率高的多单元碟状容器定量充填装置.pdf
用于散热器铜管的收卷辅助设备.pdf
手提式电动冷烟雾机的驱动式收置结构.pdf
气相三氧化硫磺化反应系统.pdf
基于多频点扫频工作的超声波控藻系统.pdf
改进型太阳能板旋转支架.pdf
基于实时网络的风电场智能图像监控系统.pdf
自动驾驶路线规划方法和系统.pdf
高可靠性的平板探测器数据采集方法、系统及计算机.pdf
多区域虚拟电厂协同优化运行方法.pdf
基于深度学习眼球追踪光斑检测方法及装置.pdf
风电电能质量评估方法及装置.pdf
TBC太阳能电池的制备方法、TBC太阳能电池与光伏系统.pdf
森林冠层高度与地理环境协变量关系确定方法及系统.pdf
基于眼动数据的自动冻屏方法、装置、设备及存储介质.pdf
U形肋焊接定位系统.pdf
太阳能组件撕胶引线点胶一体机及生产方法.pdf
基于辐射传输参数应用卷积神经网络的水深地图反演方法.pdf
化工区域的空气污染溯源方法及装置.pdf
压延机压花辊.pdf
一种设施果树的栽培方法.pdf
溶剂油回收系统.pdf
一种带行程开关的分体式电液动推杆.pdf
汽车门板.pdf
一种锯片角度微调装置.pdf
用于喷墨打印机中的静电致动器的隔膜.pdf
一种分级速钻螺丝.pdf
一种箱式电梯FRP坠落缓冲装置.pdf
一种人体情绪测试仪.pdf
一种烫印机的烫印锁紧装置.pdf
汽车车门未上锁报警系统及其报警方法.pdf
一种餐桌橱柜.pdf
灯壳及其制造方法和包括该灯壳的照明装置.pdf
一种方便驾乘人员出入汽车的踏板.pdf
一种珩磨刀具的涨刀装置.pdf
一种手车刀闸操作轨道固定装置.pdf
打印机取纸机构.pdf
一种印刷用保护垫块.pdf