数据处理方法、系统、设备及可读介质.pdf
《数据处理方法、系统、设备及可读介质.pdf》由会员分享,可在线阅读,更多相关《数据处理方法、系统、设备及可读介质.pdf(20页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202011045135.1 (22)申请日 2020.09.28 (71)申请人 建信金融科技有限责任公司 地址 200120 上海市自由贸易试验区银城 路99号12层、 15层 (72)发明人 戚桂凤陶军程君华来源 刘研 (74)专利代理机构 北京三友知识产权代理有限 公司 11127 代理人 贾磊刘飞 (51)Int.Cl. G06Q 40/08(2012.01) G16H 10/20(2018.01) G06K 9/32(2006.01) G06K 9/00(2006.0。
2、1) G06F 16/36(2019.01) G06N 5/02(2006.01) (54)发明名称 数据处理方法、 系统、 设备及可读介质 (57)摘要 本发明提供了一种数据处理方法、 系统、 设 备及可读介质, 所述方法包括通过交互式健康问 卷获取用户的健康数据; 对用户的证明文件进行 信息提取得到证明文件数据; 根据用户的历史投 保信息、 健康数据、 证明文件数据和知识库数据 形成基础数据, 将基础数据输入预设的核保风险 模型对用户风险进行检测得到检测结果并反馈 给管理人员, 本发明可对客户风险进行智能检 测, 提高客户风险检测的准确度。 权利要求书2页 说明书12页 附图5页 CN 1。
3、12150298 A 2020.12.29 CN 112150298 A 1.一种数据处理方法, 其特征在于, 包括: 通过交互式健康问卷获取用户的健康数据; 对用户的证明文件进行信息提取得到证明文件数据; 根据用户的历史投保信息、 健康数据、 证明文件数据和知识库数据形成基础数据, 将基 础数据输入预设的核保风险模型对用户风险进行检测得到检测结果并反馈给管理人员。 2.根据权利要求1所述的数据处理方法, 其特征在于, 所述通过交互式健康问卷获取用 户的健康数据具体包括: 向用户展示交互式健康问卷, 接收用户基于交互式健康问卷输入的健康告知信息; 若所述健康告知信息包括预设的疾病, 向用户展示。
4、与所述疾病对应的疾病问卷以接收 用户输入的疾病信息; 根据所述健康告知信息和所述疾病信息形成所述健康数据。 3.根据权利要求1所述的数据处理方法, 其特征在于, 所述对用户的证明文件进行信息 提取得到证明文件数据具体包括: 对用户的证明文件通过OCR识别技术进行旋转校正、 倾斜校正、 表与文字框检测、 文字 识别和AI纠错得到识别图像; 对识别图像进行图像去噪、 文字排版处理和表格的处理识别得到文字信息; 对所述文字信息进行实体要素抽取得到证明文件数据。 4.根据权利要求1所述的数据处理方法, 其特征在于, 所述基础数据包括客户信息表、 被保人体检记录、 被保人体检详情表、 被保人病史记录、 。
5、被保人家庭成员病史记录、 理赔记 录、 投保记录、 核保记录、 保险产品表、 医疗机构表、 疾病库、 疾病分类表、 疾病信息表和疾病 因果关系表。 5.根据权利要求1所述的数据处理方法, 其特征在于, 进一步包括预先构建所述核保风 险模型的步骤。 6.根据权利要求5所述的数据处理方法, 其特征在于, 所述构建所述核保风险模型具体 包括: 对历史用户对应的数据进行处理得到历史基础数据; 对历史用户的风险类型进行人工标记; 将历史基础数据和对应的风险类型输入机器学习模型中对模型进行训练得到所述核 保风险模型。 7.根据权利要求5所述的数据处理方法, 其特征在于, 进一步包括: 对基础数据进行实体和。
6、关系提取; 将实体与关系进行关联形成核保知识模型; 对所述核保知识模型的实体进行整合分析构建核保知识图谱。 8.根据权利要求7所述的数据处理方法, 其特征在于, 对所述核保知识模型进行实体整 合分析构建核保知识图谱具体包括: 通过实体消歧、 实体链接和知识合并对核保知识模型的实体进行整合分析以构建核保 知识图谱。 9.一种数据处理系统, 其特征在于, 包括: 用户交互模块, 用于通过交互式健康问卷获取用户的健康数据; 权利要求书 1/2 页 2 CN 112150298 A 2 文件获取模块, 用于对用户的证明文件进行信息提取得到证明文件数据; 风险检测模块, 用于根据用户的历史投保信息、 健。
7、康数据、 证明文件数据和知识库数据 形成基础数据, 将基础数据输入预设的核保风险模型对用户风险进行检测得到检测结果并 反馈给管理人员。 10.根据权利要求9所述的数据处理系统, 其特征在于, 所述用户交互模块具体用于向 用户展示交互式健康问卷, 接收用户基于交互式健康问卷输入的健康告知信息; 若所述健 康告知信息包括预设的疾病, 向用户展示与所述疾病对应的疾病问卷以接收用户输入的疾 病信息; 根据所述健康告知信息和所述疾病信息形成所述健康数据。 11.根据权利要求9所述的数据处理系统, 其特征在于, 所述文件获取模块具体用于对 用户的证明文件通过OCR识别技术进行旋转校正、 倾斜校正、 表与文。
8、字框检测、 文字识别和 AI纠错得到识别图像; 对识别图像进行图像去噪、 文字排版处理和表格的处理识别得到文 字信息; 对所述文字信息进行实体要素抽取得到证明文件数据。 12.根据权利要求9所述的数据处理系统, 其特征在于, 所述基础数据包括客户信息表、 被保人体检记录、 被保人体检详情表、 被保人病史记录、 被保人家庭成员病史记录、 理赔记 录、 投保记录、 核保记录、 保险产品表、 医疗机构表、 疾病库、 疾病分类表、 疾病信息表和疾病 因果关系表。 13.根据权利要求9所述的数据处理系统, 其特征在于, 进一步包括模型构建模块, 用于 预先构建所述核保风险模型。 14.根据权利要求13所。
9、述的数据处理系统, 其特征在于, 所述模型构建模块具体用于对 历史用户对应的数据进行处理得到历史基础数据; 对历史用户的风险类型进行人工标记; 将历史基础数据和对应的风险类型输入机器学习模型中对模型进行训练得到所述核保风 险模型。 15.根据权利要求9所述的数据处理系统, 其特征在于, 进一步包括知识图谱构建模块, 用于对基础数据进行实体和关系提取; 将实体与关系进行关联形成核保知识模型; 对所述 核保知识模型的实体进行整合分析构建核保知识图谱。 16.一种计算机设备, 包括存储器、 处理器以及存储在存储器上并可在处理器上运行的 计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要。
10、求1-8任一项所述方法。 17.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执行时实现如权利要求1-8任一项所述方法。 权利要求书 2/2 页 3 CN 112150298 A 3 数据处理方法、 系统、 设备及可读介质 技术领域 0001 本发明涉及数据处理技术领域, 尤其涉及一种数据处理方法、 系统、 设备及可读介 质。 背景技术 0002 目前, 保险公司核心业务系统中的自动核保规则管理不够合理, 对投保人的风险 校验效率低。 并且规则多以代码形式体现, 改动难度大, 周期长, 不利于灵活化配置。 同时, 现有自动核保流程也不尽合理, 网销等自助渠道客户自动。
11、核保不通过直接拒保, 客户没有 选择的权利, 只能通过代理人完成投保, 费时费力, 降低客户体验。 发明内容 0003 本发明的一个目的在于提供一种数据处理方法, 对客户风险进行智能检测, 提高 客户风险检测的准确度。 本发明的另一个目的在于提供一种数据处理系统。 本发明的再一 个目的在于提供一种计算机设备。 本发明的还一个目的在于提供一种可读介质。 0004 为了达到以上目的, 本发明一方面公开了一种数据处理方法, 包括: 0005 通过交互式健康问卷获取用户的健康数据; 0006 对用户的证明文件进行信息提取得到证明文件数据; 0007 根据用户的历史投保信息、 健康数据、 证明文件数据和。
12、知识库数据形成基础数据, 将基础数据输入预设的核保风险模型对用户风险进行检测得到检测结果并反馈给管理人 员。 0008 优选的, 所述通过交互式健康问卷获取用户的健康数据具体包括: 0009 向用户展示交互式健康问卷, 接收用户基于交互式健康问卷输入的健康告知信 息; 0010 若所述健康告知信息包括预设的疾病, 向用户展示与所述疾病对应的疾病问卷以 接收用户输入的疾病信息; 0011 根据所述健康告知信息和所述疾病信息形成所述健康数据。 0012 优选的, 所述对用户的证明文件进行信息提取得到证明文件数据具体包括: 0013 对用户的证明文件通过OCR识别技术进行旋转校正、 倾斜校正、 表与。
13、文字框检测、 文字识别和AI纠错得到识别图像; 0014 对识别图像进行图像去噪、 文字排版处理和表格的处理识别得到文字信息; 0015 对所述文字信息进行实体要素抽取得到证明文件数据。 0016 优选的, 所述基础数据包括客户信息表、 被保人体检记录、 被保人体检详情表、 被 保人病史记录、 被保人家庭成员病史记录、 理赔记录、 投保记录、 核保记录、 保险产品表、 医 疗机构表、 疾病库、 疾病分类表、 疾病信息表和疾病因果关系表。 0017 优选的, 进一步包括预先构建所述核保风险模型的步骤。 0018 优选的, 所述构建所述核保风险模型具体包括: 说明书 1/12 页 4 CN 112。
14、150298 A 4 0019 对历史用户对应的数据进行处理得到历史基础数据; 0020 对历史用户的风险类型进行人工标记; 0021 将历史基础数据和对应的风险类型输入机器学习模型中对模型进行训练得到所 述核保风险模型。 0022 优选的, 进一步包括: 0023 对基础数据进行实体和关系提取; 0024 将实体与关系进行关联形成核保知识模型; 0025 对所述核保知识模型的实体进行整合分析构建核保知识图谱。 0026 优选的, 对所述核保知识模型进行实体整合分析构建核保知识图谱具体包括: 0027 通过实体消歧、 实体链接和知识合并对核保知识模型的实体进行整合分析以构建 核保知识图谱。 0。
15、028 本发明还公开了一种数据处理系统, 包括: 0029 用户交互模块, 用于通过交互式健康问卷获取用户的健康数据; 0030 文件获取模块, 用于对用户的证明文件进行信息提取得到证明文件数据; 0031 风险检测模块, 用于根据用户的历史投保信息、 健康数据、 证明文件数据和知识库 数据形成基础数据, 将基础数据输入预设的核保风险模型对用户风险进行检测得到检测结 果并反馈给管理人员。 0032 优选的, 所述用户交互模块具体用于向用户展示交互式健康问卷, 接收用户基于 交互式健康问卷输入的健康告知信息; 若所述健康告知信息包括预设的疾病, 向用户展示 与所述疾病对应的疾病问卷以接收用户输入。
16、的疾病信息; 根据所述健康告知信息和所述疾 病信息形成所述健康数据。 0033 优选的, 所述文件获取模块具体用于对用户的证明文件通过OCR识别技术进行旋 转校正、 倾斜校正、 表与文字框检测、 文字识别和AI纠错得到识别图像; 对识别图像进行图 像去噪、 文字排版处理和表格的处理识别得到文字信息; 对所述文字信息进行实体要素抽 取得到证明文件数据。 0034 优选的, 所述基础数据包括客户信息表、 被保人体检记录、 被保人体检详情表、 被 保人病史记录、 被保人家庭成员病史记录、 理赔记录、 投保记录、 核保记录、 保险产品表、 医 疗机构表、 疾病库、 疾病分类表、 疾病信息表和疾病因果关。
17、系表。 0035 优选的, 进一步包括模型构建模块, 用于预先构建所述核保风险模型。 0036 优选的, 所述模型构建模块具体用于对历史用户对应的数据进行处理得到历史基 础数据; 对历史用户的风险类型进行人工标记; 将历史基础数据和对应的风险类型输入机 器学习模型中对模型进行训练得到所述核保风险模型。 0037 优选的于, 进一步包括知识图谱构建模块, 用于对基础数据进行实体和关系提取; 将实体与关系进行关联形成核保知识模型; 对所述核保知识模型的实体进行整合分析构建 核保知识图谱。 0038 本发明还公开了一种计算机设备, 包括存储器、 处理器以及存储在存储器上并可 在处理器上运行的计算机程。
18、序, 0039 所述处理器执行所述程序时实现如上所述方法。 0040 本发明还公开了一种计算机可读介质, 其上存储有计算机程序, 说明书 2/12 页 5 CN 112150298 A 5 0041 该程序被处理器执行时实现如上所述方法。 0042 本发明通过交互式健康问卷、 用户的证明文件得到用户的健康数据和证明文件数 据。 进一步根据用户的历史投保信息和知识库数据形成基础数据, 并通过核保风险模型对 用户信息进行检测, 检测用户是否存在虚假信息等风险, 得到用户的智能化核保结论, 为人 工核保提供核保建议。 本发明综合多方面信息对用户对风险进行智能检测, 提高客户风险 检测的准确度。 附图。
19、说明 0043 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0044 图1示出本发明数据处理方法一个具体实施例的流程图; 0045 图2示出本发明数据处理方法一个具体实施例S100的流程图; 0046 图3示出本发明数据处理方法一个具体实施例交互式健康问卷的示意图; 0047 图4示出本发明数据处理方法一个具体实施例疾病问卷的示意图; 0048 图5示出本发明数据处。
20、理方法一个具体实施例S200的流程图; 0049 图6示出本发明数据处理方法一个具体实施例收入证明的示意图; 0050 图7示出本发明数据处理方法一个具体实施例S000的流程图; 0051 图8示出本发明数据处理方法一个具体实施例S400的流程图; 0052 图9示出本发明数据处理系统一个具体实施例的结构图; 0053 图10示出本发明数据处理系统一个具体实施例包括模型构建模块的结构图; 0054 图11示出本发明数据处理系统一个具体实施例包括知识图谱构建模块的结构图; 0055 图12示出适于用来实现本发明实施例的计算机设备的结构示意图。 具体实施方式 0056 下面将结合本发明实施例中的附。
21、图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0057 传统的保险行业, 在核保过程中, 大多是通过已配置在系统中的核保规则对用户 风险进行校验和检测。 例如, 现有技术中, 基于已配置的核保规则, 前端进件系统将投保数 据提交至核心系统后, 核心系统结合数据库中客户历史保单、 理赔、 保全数据, 通过规则引 擎或数据库中的核保规则进行规则校验, 确定投保数据对应的客户是否存在健康或财产。
22、的 风险。 现有核保流程中, 自动核保功能仅可识别出投保申请中的风险, 无法给出实际结论, 核保结论更多依赖于审核人员的经验。 自核结论较为单一, 大多非标准体的自核结论仅告 知违反哪些规则, 无法为人工核保提供更多帮助与提示。 核保流程简单粗暴, 网销渠道如自 动核保不通过, 直接拒保, 影响客户体验, 降低客户黏性。 0058 由此, 现有的客户风险检测所用的核保规则大多为通用规则, 并未针对特殊场景、 说明书 3/12 页 6 CN 112150298 A 6 客户等维度进行特殊处理, 且自动核保结论仅仅告知已配置的返回话术, 无法为人工核保 提供更多帮助, 大部分专业化的核保结论仍旧主。
23、要依靠人工借助线下手段和既往经验进行 主观判断。 同时在线上化投保过程中, 出现客户不完全符合健康告知的场景时, 因没有有效 的后续处理手段, 导致通常的处理方式为一刀切式的拒保, 极易影响客户体验, 造成客户流 失。 基于此, 本发明通过构建风险数据库和核保知识图谱智能核保决策模型, 借用交互式健 康问卷和ICR(AI+OCR)图像识别技术, 综合多方面数据对客户风险进行智能评估, 给出核保 建议。 0059 在本发明的一个或多个实施方式中, 核保又称为风险选择, 是对投保的保险标的 或被保险人的风险程度进行评估与分类, 并作出是否承保, 适用何种费率或采取什么限制 措施的决定。 核保工作的。
24、目的在于辨别投保风险的优劣, 从而保证业务质量, 保证保险公司 的稳健经营。 0060 在本发明的一个或多个实施方式中, 光学字符识别(OCR)是指针对印刷体字符, 采 用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件, 并通过识别软件将图像 中的文字转换成文本格式, 供文字处理软件进一步编辑加工的技术。 0061 在本发明的一个或多个实施方式中, 智能字符识别(ICR)是在OCR的基础上, 植入 了计算机深度学习的人工智能技术。 提升识别精度; 采用基于NLP等AI技术的纠错模型及领 域词典, 对于OCR未识别的字符进行字符信息补全, 解决OCR技术缺陷。 0062 在本发明的一个或。
25、多个实施方式中, 智能核保是指保险公司通过人工智能技术赋 能核保系统, 问卷流程及其它渠道对投保人的信息进行采集, 形成个人健康数据库及个人 健康知识图谱, 结合多源数据分析及数据核保模型, 输出影响核保结论的风险因子, 然后得 出客户风险评估结果。 0063 在本发明的一个或多个实施方式中, 知识图谱是指将实体、 关系进行抓取, 分析, 关联, 融合后形成的可视化知识结构。 0064 在本发明的一个或多个实施方式中, 交互式健康问卷是指部署在客户应用端的调 查问卷, 当客户存在健康告知时, 可对应已配置好的疾病问卷库, 指引客户填写问卷, 从而 获取客户健康信息。 0065 在本发明的一个或。
26、多个实施方式中, 智能核保风险模型是通过机器学习形成的模 型, 实现客户核保风险监测、 固定场景下的业务辅助判别(次标准体的类别确定、 具体类别 下的核保标准建议)等一体化智能监测与甄别, 对现有基于专家经验或基于规则的核保模 型系统进行替代, 甄别出可投被保人和不可投保人, 以及可投保人中次标准体的投保条件, 提高核保工作的效率。 0066 根据本发明的一个方面, 本实施例公开了一种数据处理方法。 如图1所示, 本实施 例中, 所述方法包括: 0067 S100: 通过交互式健康问卷获取用户的健康数据。 0068 S200: 对用户的证明文件进行信息提取得到证明文件数据。 0069 S300。
27、: 根据用户的历史投保信息、 健康数据、 证明文件数据和知识库数据形成基础 数据, 将基础数据输入预设的核保风险模型对用户风险进行检测得到检测结果并反馈给管 理人员。 0070 本发明通过交互式健康问卷、 用户的证明文件得到用户的健康数据和证明文件数 说明书 4/12 页 7 CN 112150298 A 7 据。 进一步根据用户的历史投保信息和知识库数据形成基础数据, 并通过核保风险模型对 用户信息进行检测, 检测用户将来是否会出现投保项目对应的风险, 得到用户的智能化核 保结论, 为人工核保提供核保建议。 本发明综合多方面信息对用户对风险进行智能检测, 提 高客户风险检测的准确度。 007。
28、1 在优选的实施方式中, 如图2所示, 所述S100通过交互式健康问卷获取用户的健康 数据具体包括: 0072 S110: 向用户展示交互式健康问卷, 接收用户基于交互式健康问卷输入的健康告 知信息。 0073 S120: 若所述健康告知信息包括预设的疾病, 向用户展示与所述疾病对应的疾病 问卷以接收用户输入的疾病信息。 0074 S130: 根据所述健康告知信息和所述疾病信息形成所述健康数据。 0075 具体的, 交互式健康问卷的数据采集方式适用于电子渠道投保的场景, 如图3和图 4所示。 在客户线上投保过程中, 健康告知中如勾选了某一疾病, 则系统根据已配置的疾病 问卷库, 展开详细的疾病。
29、问卷, 并一步步引导客户完成健康告知, 并在必要时可要求客户上 传体检报告、 健康证明、 病例等资料, 作为智能核保模型的输入数据。 不同险种可配置差异 化的交互式健康问卷, 部分风险较低的险种亦可在客户完成交互式问卷后, 形成初步的核 保结论。 这种处理方式可解决既往传统电子投保时 “一刀切” 拒保的核保结论, 保留临界可 保客户的正常投保诉求, 增加客户粘性, 提升客户体验。 0076 在优选的实施方式中, 如图5所示, 所述S200对用户的证明文件进行信息提取得到 证明文件数据具体包括: 0077 S210: 对用户的证明文件通过OCR识别技术进行旋转校正、 倾斜校正、 表与文字框 检测。
30、、 文字识别和AI纠错得到识别图像。 0078 S220: 对识别图像进行图像去噪、 文字排版处理和表格的处理识别得到文字信息。 0079 S230: 对所述文字信息进行实体要素抽取得到证明文件数据。 0080 具体的, 非标准体客户投保时, 保险公司可能会要求提供健康证明、 体检报告、 体 检报告和收入证明等单据作为证明文件。 在整个投保过程中, 会有大量非结构化数据的录 入工作。 由此, 可对视智能ICR数据提取的功能, 在OCR的基础上, 植入深度学习, 通过旋转矫 正、 偏斜矫正等功能提升识别精度, 采用基于NLP等AI技术, 的纠错模型及领域词典, 对于 OCR未识别的字符进行字符信。
31、息补全, 解决OCR技术缺陷。 同时, 通过人工智能NLP、 CV、 知识 图谱等技术的应用, 解决体检报告、 收入证明等无固定格式的影像资料的业务要素智能提 取的难题, 使得影像结构化, 数据资产增值。 0081 在该优选的实施方式中, S210中OCR识别主要包括旋转校正、 倾斜校正、 表与文字 框检测、 文字识别和AI纠错等步骤。 具体的, (1)旋转校正。 作为证明文件的单据图片上传时 可能会出现旋转的情况, 此时就需要检测出图片是否是旋转的, 为了保证文字的识别效果, 需要将图片先进行旋转校正。 (2)倾斜校正。 单据上传的图片文字块可能会出现倾斜的情 况, 为了文字框检测、 文字识。
32、别更加准确, 需要在这之前对文字块进行倾斜校正。 本方案对 文字的方向进行识别, 在得到文本的倾斜角度后, 对图片进行倾斜校正。 (3)表格与文字框 检测。 投保单、 体检报告单、 收入证明单据格式多样, 本方案选用了对复杂单据文字框检测 表现优异的深度学习模型进行检测, 对密集表格内的文字检测率超过99.5。 (4)文字识 说明书 5/12 页 8 CN 112150298 A 8 别。 将纸质单据中的文字信息准确识别并转换成电子版本文本。 对于每次OCR识别的文字信 息, 提供本次识别的置信率。 优选的, 可采用对文字识别表现优异的识别模型, 对文字内容 进行识别。 为提高投保单、 体检报。
33、告、 收入证明文字的识别准确率, 可将客户提供的单据数 据加入识别模型的训练集进行训练, 提升识别模型识别水平。 (5)融入AI纠错的OCR。 在OCR 的基础上, 植入深度学习, 提升识别精度。 采用基于NLP等AI技术的纠错模型及领域词典, 对 于OCR未识别的字符进行字符信息补全, 解决OCR技术缺陷。 0082 在该优选的实施方式中, S220中对识别图像进行图像去噪、 文字排版处理和表格 的处理识别得到文字信息。 具体的, 图像去噪可包括对无关污渍进行剔除、 对返底现象进行 处理、 表格错格的处理以及其他干扰因素的排除等步骤。 在后期进行图像结构化的过程中, 经过OCR识别过后的文档。
34、需要保持原有的位置关系以及文字特征, 文字特征包括文字相对 大小、 文字颜色等。 表格的处理识别可以正确的反应表格之间以及表格内部的位置与包含 关系, 尽可能的还原表格的真实面貌。 0083 在该优选的实施方式中, 对所述文字信息进行实体要素抽取得到的证明文件数据 优选的为HTML文件格式。 为保留原始图片的特征信息, 可将抽取的实体要素的特征信息保 存在html文件中。 特征信息可包含文字框位置信息(左上角点坐标和文字框的宽高)、 文字 内容、 文字置信度、 文字高度和文字颜色等。 0084 其中, 实体要素抽取时, 单据格式多样, 在单据结构化时, 需要对每类单据包含的 业务要素进行实体定。
35、义, 方便在单据要素抽取语义理解时的概念映射。 例如, 如图6所示的 收入证明, 要素实体可定义为如表1所示。 0085 表1 0086 实体名称实体值 Staff张三 Sex男 IdNumber123456789012230226 Job财务 Total_income8000.00 Wage_income7000.00 Other_income1000.00 0087 在一个优选的实施方式中, 可基于机器学习技术进行无固定模板要素抽取。 例如, 对业务涉及到的各类票据进行系统的研究分析, 针对不同的票据制定不同的抽取策略, 训 练不同的抽取模型。 机器学习模型没有抽取到的要素, 可配置规则模。
36、型再次进行抽取。 0088 在其他优选的实施方式中, 当代的信息抽取AI方法通常基于计算机视觉角度或自 然语言处理角度, 或两者结合的的深度神经网络。 大多数先前的方法由两个限制: 依赖于一 些人工标记的训练样本, 然而没有充分探索使用大规模未标记的训练样本的可能性。 其取 决于预训练的CV模型与NLP模型, 但没有考虑文本与布局信息的联合训练。 因此需要研究如 何自监督的预训练文本与布局将有助于信息抽取AI领域。 0089 进一步的, 通过要素抽取模型抽取后的结果, 格式较多。 为减少业务人员审核工作 量, 需对一些要素抽取后的结果进行标准化处理, 例如, 可进行标准化处理的要素可如表2 所。
37、示。 说明书 6/12 页 9 CN 112150298 A 9 0090 表2 0091 要素名要素值标准化后结果 日期2020/4/120200401 金额123323.2123,323.20 0092 在优选的实施方式中, 如果通过抽取模型及规则模型存在未抽出的要素, 或者存 在抽取错误的情况, 在核保人员检查的过程中, 可以通过ICR联机的方式进行抽取, 减少核 保人员手动输入, 即将需抽取的要素在图片上框中, 便可直接进行抽取并且标准化。 对从收 入证明、 投保单、 体检报告中抽取的客户名称、 保险产品名称、 疾病名称等信息进行实体链 接, 完成链接的标记颜色, 未链接上的标记另一种。
38、颜色, 用以提升票据要素抽取的置信度。 0093 在优选的实施方式中, 所述基础数据包括客户信息表、 被保人体检记录、 被保人体 检详情表、 被保人病史记录、 被保人家庭成员病史记录、 理赔记录、 投保记录、 核保记录、 保 险产品表、 医疗机构表、 疾病库、 疾病分类表、 疾病信息表和疾病因果关系表。 0094 可以理解的是, 构建核保风险基础数据是建设智能核保模型的核心与根基, 通过 底层数据库以及库与库之间的关联, 构建起企业级核保风险数据库原型, 并形成智能核保 风险模型的数据源。 风险数据库中的基础数据可以表的形式存储, 例如, 基础数据包括客户 信息表、 被保人体检记录、 被保人体。
39、检详情表、 被保人病史记录、 被保人家庭成员病史记录、 理赔记录、 投保记录、 核保记录、 保险产品表、 医疗机构表、 疾病库、 疾病分类表、 疾病信息表 和疾病因果关系表。 0095 其中, 客户信息表可包括客户标识号、 姓名、 证件类型、 证件号、 性别、 出生日期、 国 籍、 居民类型、 居住地、 职业、 工作单位、 所属行业、 联系电话和年收入金额等数据。 被保人体 检记录可包括体检报告标识号、 被保险人姓名、 身份证号、 体检机构、 体检日期、 报告日期和 报告结论等数据。 被保人体检详情表可包括检查指标标识号、 体检报告标识号、 检查项、 指 标名、 指标值和检查医师等数据。 被保。
40、人病史记录可包括记录标识号、 被保人、 治疗日期、 疾 病、 治疗机构和治疗方式等数据。 被保人家庭成员病史记录可包括记录标识号、 被保人、 家 庭关系、 记录日期和病名等数据。 理赔记录可包括理赔记录标识号、 保单号、 客户标识号、 疾 病、 出险险种、 理赔日期和理赔金额等数据。 投保记录可包括投保记录标识号、 投保单号、 投 保人、 被保人、 投保人与被保人社会关系、 被保人体检报告识别号、 投保险种、 投保日期、 投 保金额和代理人等数据。 核保记录可包括核保记录标识号、 核保日期、 投保单号、 是否标体 承保、 加费比例、 限额和责任免除项等数据。 保险产品表可包括产品名称、 产品编。
41、号、 险种、 高保额和产品政策等数据。 医疗机构表可包括机构识别号、 机构名称、 机构类型和机构地址 等数据。 疾病分类表可包括疾病类型名和疾病上位分类等数据。 疾病信息表可包括疾病识 别号、 疾病名称、 疾病英文名、 别名和疾病描述等数据。 疾病因果关系表可包括疾病名称和 病因等数据。 0096 在优选的实施方式中, 所述方法进一步包括预先构建所述核保风险模型的步骤。 可以理解的是, 当前的核保系统仍然是基于固定核保规则的。 这些核保规则虽然能够帮助 实现核保功能, 但毕竟大多是根据历史数据总结出来的, 过于依赖人工经验, 难免疏漏, 对 于次标准体的准保附加条件, 往往凭借专业人员的主观意。
42、识, 缺乏直观的解释。 除此之外, 由于核保条件涉及投保人信息, 财务状况以及个人身体健康状态, 信息维度太大, 给核保工 作也带来了一定的挑战。 说明书 7/12 页 10 CN 112150298 A 10 0097 为了解决核保系统中所遇到的难题, 本发明结合人工智能技术, 以现有核保系统 中的大数据资源和现有核保数据, 构建人工智能核保模型, 通过机器学习的模型, 构建智能 核保系统体系来解决传统业务专家在逐步审核过程中存在的核保周期过长、 操作复杂度较 高、 人为主观性强等等痛点, 实现客户核保风险监测、 固定场景下的业务辅助判别(次标准 体的类别确定、 具体类别下的核保标准建议)等。
43、一体化智能监测与甄别, 对现有基于专家经 验或基于规则的核保模型系统进行替代, 甄别出可投被保人和不可投被保人, 以及可投被 保人中次标准体的投保条件, 提高核保工作的效率, 减少人工成本, 提高核保的准确性, 降 低投保风险。 同时, 与传统的核保标准相比, 通过机器学习进行数据分析具有更强的稳定性 和标准一致性。 通过持续的学习, 核保风险模型可以高效稳定地提高核保自动化能力, 从而 规避人员流动的风险。 0098 在优选的实施方式中, 如图7所示, 所述S000具体可包括: 0099 S010: 对历史用户对应的数据进行处理得到历史基础数据。 0100 S020: 对历史用户的风险类型进。
44、行人工标记。 其中, 可以理解的是, 风险类型可以 可能存在大病风险、 骗保风险和隐瞒病情风险等类型, 在实际应用中, 可根据业务实践确定 不同的风险类型, 本发明对此并不作限定。 0101 S030: 将历史基础数据和对应的风险类型输入机器学习模型中对模型进行训练得 到所述核保风险模型。 0102 可以理解的是, 可通过对历史用户的风险类型进行人工标记, 并根据相关历史基 础数据进行机器学习建模, 来实现新投保客户的健康风险评估, 以此来提高核保人员的工 作效率, 降低投保风险, 并通过不断学习来提升评估精度, 使其不受核保专家的高流动性的 影响。 模型可输出所有风险等级的评分, 得到对应的。
45、风险类别, 还可输出决定性的风险因 子。 0103 在一个具体例子中, 智能核保风险模型的构建过程主要包括数据准备、 特征工程、 模型构建三个环节。 首先, 将内部数据与外部数据整合(格式、 字段统一、 非结构化数据整理 等等), 再通过不同场景下的所需数据进行下一步获取。 数据准备主要有以下要点: 外部数 据重构: 针对类似医保数据、 医院体检报告等外部信息进行结构化整合。 内部数据: 历史存 量客户的相关信息表。 场景下标签标注: 客户的健康风险评级为模型的标签。 0104 然后, 特征工程包括数据预处理、 特征衍生、 特定场景业务补充、 特征选择和形成 特征库。 其中, 数据预处理对应用。
46、于特征工程的数据集进行数据格式统一(比如时间格式统 一, 码值格式统一等), 数据呈现形式规范(标准接口形式制定等), 必要时进行缺失数据补 充, 脏数据清理等。 特征衍生是基于数据集进行的工程化的, 生成更多具有明显统计意义的 特征变量衍生过程。 特定场景业务补充为业务方参与的, 在通用特征变量集的基础上进行 的, 符合特定业务特点的业务特征构建过程。 特征选择包括对生成的特征进行空值率分析、 相关性分析和主成分分析。 然后从特征集中发现出具有统计意义与业务可解释性意义, 能 够影响模型决策的特征子集, 进行特征筛选的过程。 形成特征库为形成用于人工智能核保 的特征变量库。 0105 模型构。
47、建包括模型选择和模型训练。 其中, 模型选择过程中, 基于智能核保的监测 模型(包括B模型: 投保风险类别监测模型、 C模型: 固定场景下的投保策略模型), 算法选型 依据及标准如下: 问题定位: 投保风险类别监测、 固定场景下的投保策略, 可定位为基于有 说明书 8/12 页 11 CN 112150298 A 11 监督学习的多分类问题。 数据集的规模及维度: 针对不同数据集的规模及维度, 挑选合适的 机器学习算法。 模型对计算性能的要求: 针对核保场景对于模型性能的接受程度, 选择合适 的机器学习算法。 模型的可解释性: 针对核保场景对于模型可解释性的要求, 选择合适的机 器学习算法。 。
48、模型成本: 不同的机器学习模型开发、 部署、 维护成本不同, 基于硬件配置、 网 络架构等环境要求选择合适的机器学习算法。 模型算法选用当前较先进的几种机器学习算 法, 构建智能核保监测模型, 通过模型训练、 模型测试、 模型验证的表现, 最终确定应用于模 型构建的机器学习算法。 0106 模型训练包括数据划分、 训练模型、 数据测试、 模型评估和模型封板或再训练。 其 中, 数据划分包括根据不同应用场景将准备好的数据集, 根据不同时段划分成两部。 训练模 型包括将训练集数据投入至已备选的多个模型中, 通过模型总体效果进行模型选择, 使用 最优模型并通过网格搜索的形式选择最优模型参数进行自学习。
49、, 通过多次迭代直至目标函 数最优化。 数据测试包括利用测试集数据, 对已训练好的模型进行初步测试, 使其在训练集 与测试集上的效果相对契合, 防止过拟合。 模型评估需要使用验证集来验证需要对模型再 次评测, 查看模型在不同时段的效果, 并进行稳定性评估, 确保模型相对稳定。 模型封板或 再训练根据模型在训练集、 测试集、 验证集的效果, 整体评估模型的效果与稳定性, 最后决 定是否重新训练或确定模型。 0107 其中, 模型评估可包括以下过程: 获取某个时间节点的客户; 通过已训练好的智能 模型进行预测; 获取智能模型的预测结果, 契合场景目标, 计算相关业务参数, 并与现有传 统规则模型的。
50、结果进行对比。 其预期效果为: 利用历史存在健康风险的客户建模, 通过模型 的训练、 测试, 评估, 使其在准确率、 AUC等指标上有显著的效果, 并实现线上应用。 输出相应 结果的风险因子(特征判定评分)、 风险评分、 所属类别。 0108 在优选的实施方式中, 如图8所示, 所述方法进一步包括S400: 0109 S410: 对基础数据进行实体和关系提取。 其中, 实体可以为从基础数据中提取的相 关实体, 如客户, 代理人, 国家, 体检项目等。 0110 S420: 将实体与关系进行关联形成核保知识模型。 0111 S430: 对所述核保知识模型的实体进行整合分析构建核保知识图谱。 01。
- 内容关键字: 数据处理 方法 系统 设备 可读 介质
农机动力飞轮喷涂用漆雾废气处理装置.pdf
旁路引流线绝缘防护夹持支架结构.pdf
建筑施工围挡.pdf
推进剂气体浓度监测传感器.pdf
防刺伤采血针.pdf
铸造件快速冷却装置.pdf
工业硅粉制备用研磨装置.pdf
电池盖帽包边用防偏移模具.pdf
拉杆式储能电源箱.pdf
多穴五轴自动光学检测装置.pdf
活塞钻铣床.pdf
混凝土结构表面裂缝检测装置.pdf
羊粪粉碎机的清扫装置.pdf
铁碳微电解填料球.pdf
电感电流过零检测方法及电路.pdf
陶瓷加工的练泥机.pdf
建筑工程用支护装置.pdf
压滤机拉板装置及压滤机.pdf
含油污泥处理水洗装置.pdf
半导体结构及其制备方法.pdf
双环高密度标测消融导管.pdf
洁净手术室用的排风系统.pdf
用于预测转动设备的故障概率的方法、设备和存储介质.pdf
视觉辅助的三极管封装质量检测方法.pdf
可调式肢体活动康复训练装置.pdf
基于分布式光纤声波传感的异常事件识别方法及相关装置.pdf
服装布料用卷绕装置.pdf
鸽子脂肪前体细胞的分离并体外培养方法及培养物和应用.pdf
配置肘式黏滞阻尼器的自复位摇摆结构.pdf
采硐充填方法.pdf
积分球数字仿体系统及成像测评方法.pdf
氯代碳酸乙烯酯的制备方法.pdf
一种暖耳器.pdf
一种可以提高睡眠质量的防噪音耳罩.pdf
一种自动麻将牌及其制作工艺.pdf
工业废水处理系统中的调节池结构.pdf
一种污泥炭催化剂的制备方法及催化剂和应用.pdf
一种内回流式调节池.pdf
一种高分子大豆基板材胶黏剂及其制备方法.pdf
一种辅助学习历史知识的三国棋.pdf
一种泌尿外科术后护理用包扎套.pdf
一种多分子舒适型创口贴.pdf
一种利用了农林废弃物制得的治理水体富营养化漂浮颗粒.pdf
一种桌游器具收纳盒.pdf
抽离式负压医用海绵搅刮器.pdf
碳纤维保健乳胶.pdf
一种氧化铝生产过程中的烧结法赤泥洗涤方法及其系统.pdf
廉耗温灸.pdf
祛火感冒茶配方及其制作方法.pdf
一种具有抑菌功能的卫生巾及药物.pdf
一种消食健胃茶.pdf