事务分类系统.pdf
《事务分类系统.pdf》由会员分享,可在线阅读,更多相关《事务分类系统.pdf(17页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910041521.4 (22)申请日 2019.01.16 (30)优先权数据 62/619,687 2018.01.19 US 15/964,892 2018.04.27 US (71)申请人 埃森哲环球解决方案有限公司 地址 爱尔兰都柏林 (72)发明人 A亚历山大米兰达K马玛斯 (74)专利代理机构 北京市金杜律师事务所 11256 代理人 酆迅辛鸣 (51)Int.Cl. G06F 16/28(2019.01) G06Q 10/06(2012.01) (54)发明。
2、名称 事务分类系统 (57)摘要 本申请的各实施例涉及事务分类系统。 一种 用于处理数字事务的方法, 包括: 从一个或多个 源系统接收多个未分类数字事务; 以及根据每个 未分类数字事务的关键性能指标(KPI)来对未分 类数字事务优先级排序。 向加标签系统传送经优 先级排序的未分类数字事务的子集, 该加标签系 统被配置为将类别标签应用于每个数字事务。 从 加标签系统接收与经优先级排序的未分类数字 事务的子集对应的分类数字事务的子集。 基于分 类数字事务的子集将类别标签和标签置信度值 应用于未分类数字事务的剩余集合的每个事务。 标签置信度值指示给定标签被正确地应用于给 定事务的置信度。 针对具有等。
3、于或高于预定阈值 的标签置信度值的每个分类数字事务, 向目标系 统传送分类数字事务。 针对每个剩余事务, 将事 务视为未分类数字事务, 并且重复上述步骤。 权利要求书4页 说明书8页 附图4页 CN 110059137 A 2019.07.26 CN 110059137 A 1.一种用于处理数字事务的系统, 包括: 输入/输出(I/O)接口, 用于从一个或多个源系统接收未分类数字事务, 并且用于向一 个或多个目标系统传送分类数字事务; 处理器, 其与所述I/O接口通信; 以及 非暂态计算机可读介质, 其与所述处理器通信, 所述非暂态计算机可读介质存储指令 代码, 所述指令代码在由所述处理器执行。
4、时, 使得所述处理器: a)从一个或多个源系统接收多个未分类数字事务; b)根据每个未分类数字事务的关键性能指标(KPI)来对所述未分类数字事务优先级排 序; c)向加标签系统传送经优先级排序的所述未分类数字事务的子集, 所述加标签系统被 配置为将类别标签应用于每个数字事务; d)从所述加标签系统接收与经优先级排序的所述未分类数字事务的所述子集对应的 分类数字事务的子集; e)基于分类数字事务的所述子集, 将类别标签和标签置信度值应用于未分类数字事务 的剩余集合的每个事务, 其中所述标签置信度值指示给定标签被正确地应用于给定事务的 置信度; f)针对具有等于或高于预定阈值的标签置信度值的每个分。
5、类数字事务, 向目标系统传 送所述分类数字事务; 以及 g)针对每个剩余事务, 将所述事务视为未分类数字事务, 并且重复步骤(b)-(g)。 2.根据权利要求1所述的系统, 其中在将类别标签和标签置信度值应用于未分类数字 事务的所述剩余集合的每个事务时, 所述指令代码使得所述处理器: 确定与未分类数字事务的所述剩余集合相关联的一个或多个主题; 将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题; 根据由每个集群表示的总KPI来对事务的集群排序; 选择表示最高KPI的N个集群的子集; 针对所述子集的每个集群, 根据所述事务的KPI来对所述集群的事务排序; 选择具有最高KPI的M。
6、个事务的子集; 以及 将所述类别标签应用于M个事务的所述子集。 3.根据权利要求2所述的系统, 其中由每个集群表示的所述总KPI对应于与属于所述集 群的每个未分类数字事务相关联的KPI的总和。 4.根据权利要求2所述的系统, 其中在确定一个或多个主题时, 所述指令代码使得所述 处理器: 生成与所述未分类数字事务相关联的项目的语料库; 以及 通过隐含狄利克雷分配(LDA)算法来处理项目的所述语料库以确定所述一个或多个主 题。 5.根据权利要求4所述的系统, 其中在将每个未分类数字事务集群化为属于所述一个 或多个主题中的一个或多个主题时, 所述指令代码使得所述处理器: 经由基于分层密度的集群化(H。
7、-DBSCAN)将每个未分类数字事务与一个或多个集群相 关联。 权利要求书 1/4 页 2 CN 110059137 A 2 6.根据权利要求1所述的系统, 其中在将类别标签和标签置信度值应用于未分类数字 事务的剩余集合的每个事务时, 所述指令代码使得所述处理器: 基于分类数字事务的所述子集来生成统计决策树; 以及 通过所述决策树处理每个剩余事务以获取类别标签和与所述类别标签相关联的置信 度值。 7.根据权利要求1所述的系统, 其中所述未分类数字事务对应于金融发票中的行项目。 8.根据权利要求1所述的系统, 其中在将类别标签和标签置信度值应用于未分类数字 事务的所述剩余集合的每个事务时, 所述。
8、指令代码使得所述处理器: 确定P个事务的子集在N个集群的所述子集之外; 以及 选择P个事务的所述子集中具有最高KPI的Q个事务的子集。 9.根据权利要求1所述的系统, 其中所述处理器被配置为基于M个事务的选择的所述子 集和Q个事务的所述子集以及应用的所述类别标签来训练机器学习模型。 10.一种存储用于处理数字事务的指令代码的非暂态计算机可读介质, 所述指令代码 由机器可执行以用于使得所述机器: a)从一个或多个源系统接收多个未分类数字事务; b)根据每个未分类数字事务的关键性能指标(KPI)对所述未分类数字事务优先级排 序; c)向加标签系统传送经优先级排序的所述未分类数字事务的子集, 所述加。
9、标签系统被 配置为将类别标签应用于每个数字事务; d)从所述加标签系统接收与经优先级排序的所述未分类数字事务的所述子集对应的 分类数字事务的子集; e)基于分类数字事务的所述子集, 将类别标签和标签置信度值应用于未分类数字事务 的剩余集合的每个事务, 其中所述标签置信度值指示给定标签被正确地应用于给定事务的 置信度; f)针对具有等于或高于预定阈值的标签置信度值的每个分类数字事务, 向目标系统传 送所述分类数字事务; 以及 g)针对每个剩余事务, 将所述事务视为未分类数字事务, 并且重复步骤(b)-(g)。 11.根据权利要求10所述的非暂态计算机可读介质, 其中在根据关键性能指标(KPI)对。
10、 所述未分类数字事务优先级排序时, 所述指令代码使得所述机器: 确定与所述未分类数字事务相关联的一个或多个主题; 将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题; 根据由每个集群表示的总KPI对事务的集群排序; 选择表示最高KPI的N个集群的子集; 针对所述子集中的每个集群, 根据所述事务的KPI来对所述集群的事务排序; 选择具有最高KPI的M个事务的子集作为要向所述目标系统传送的经优先级排序的所 述未分类数字事务; 向所述加标签系统传送具有最高KPI的M个事务的子集。 12.根据权利要求11所述的非暂态计算机可读介质, 其中由每个集群表示的所述总KPI 对应于与属于所述。
11、集群的每个未分类数字事务相关联的KPI的总和。 权利要求书 2/4 页 3 CN 110059137 A 3 13.根据权利要求11所述的非暂态计算机可读介质, 其中在确定一个或多个主题时, 所 述指令代码使得所述机器: 生成与所述未分类数字事务相关联的项目的语料库; 以及 通过隐含狄利克雷分配(LDA)算法来处理项目的所述语料库以确定所述一个或多个主 题。 14.根据权利要求13所述的非暂态计算机可读介质, 其中在将每个未分类数字事务集 群化为属于所述一个或多个主题中的一个或多个主题时, 所述指令代码使得所述机器: 经由基于分层密度的集群化(H-DBSCAN)将每个未分类数字事务与一个或多个。
12、集群相 关联。 15.一种用于处理数字事务的方法, 包括: a)从一个或多个源系统接收多个未分类数字事务; b)根据每个未分类数字事务的关键性能指标(KPI)来对所述未分类数字事务优先级排 序; c)向加标签系统传送经优先级排序的所述未分类数字事务的子集, 所述加标签系统被 配置为将类别标签应用于每个数字事务; d)从所述加标签系统接收与经优先级排序的所述未分类数字事务的所述子集对应的 分类数字事务的子集; e)基于分类数字事务的所述子集, 将类别标签和标签置信度值应用于未分类数字事务 的剩余集合的每个事务, 其中所述标签置信度值指示给定标签被正确地应用于给定事务的 置信度; f)针对具有等于。
13、或高于预定阈值的标签置信度值的每个分类数字事务, 向目标系统传 送所述分类数字事务; 以及 g)针对每个剩余事务, 将所述事务视为未分类数字事务, 并且重复步骤(b)-(g)。 16.根据权利要求15所述的方法, 根据关键性能指标(KPI)来对所述未分类数字事务优 先级排序还包括: 确定与所述未分类数字事务相关联的一个或多个主题; 将每个未分类数字事务集群化为属于所述一个或多个主题中的一个或多个主题; 根据由每个集群表示的总KPI对事务的集群排序; 选择表示最高KPI的N个集群的子集; 针对所述子集中的每个集群, 根据所述事务的KPI来对所述集群中的事务排序; 选择具有最高KPI的M个事务的子。
14、集作为要向所述目标系统传送的经优先级排序的所 述未分类数字事务; 向所述加标签系统传送具有最高KPI的M个事务的子集。 17.根据权利要求16所述的方法, 其中由每个集群表示的所述总KPI对应于与属于所述 集群的每个未分类数字事务相关联的KPI的总和。 18.根据权利要求16所述的方法, 其中确定一个或多个主题还包括: 生成与所述未分类数字事务相关联的项目的语料库; 以及 通过隐含狄利克雷分配(LDA)算法来处理项目的所述语料库以确定所述一个或多个主 题。 权利要求书 3/4 页 4 CN 110059137 A 4 19.根据权利要求18所述的方法, 其中将每个未分类数字事务集群化为属于所述。
15、一个 或多个主题中的一个或多个主题还包括: 经由基于分层密度的集群化(H-DBSCAN)来将每个未分类数字事务与一个或多个集群 相关联。 20.根据权利要求15所述的方法, 其中将类别标签和标签置信度值应用于未分类数字 事务的剩余集合的每个事务还包括: 基于分类数字事务的所述子集来生成统计决策树; 以及 通过所述决策树处理每个剩余事务以获取类别标签和与所述类别标签相关联的置信 度值。 权利要求书 4/4 页 5 CN 110059137 A 5 事务分类系统 0001 相关申请 0002 本申请要求于2018年4月27日提交的美国专利申请No.15/964,892和于2018年1月 19日提交。
16、的美国临时专利申请No.62/619,687的优先权, 这些申请通过引用整体并入本文。 技术领域 0003 本申请总体上涉及事务处理。 特别地, 本申请描述了一种事务分类系统。 背景技术 0004 通过手动、 半手动和/或自动化计算机过程和逻辑来创建和存储的数字信息的量 不断增加。 标识这样的数字信息内的事务可能非常具有挑战性。 这样的数字信息的变化和 可变性极大地增加了任何形式的自动化事务处理的执行的复杂性。 此外, 这样的数字信息 的管理(诸如通过组织或表征数字信息和/或事务)可能非常复杂, 这不仅是由于数字信息 的庞大数量, 而且也由于这样的信息的可变性和多层面特性。 因此, 需要系统和。
17、方法来标识 和管理与数字信息一起被包含的这样的事务活动。 发明内容 0005 在第一方面中, 一种用于处理数字事务的系统包括: 用于从一个或多个源系统接 收未分类数字事务并且用于向一个或多个目标系统传送分类数字事务的输入/输出(I/O) 接口, 与I/O接口通信的处理器; 以及与处理器通信的非暂态计算机可读介质。 非暂态计算 机可读介质存储指令代码, 指令代码在由处理器执行时, 使得处理器从一个或多个源系统 接收多个未分类数字事务。 处理器根据每个未分类数字事务的关键性能指标(KPI)来对未 分类数字事务优先级排序。 处理器然后向加标签系统传送经优先级排序的未分类数字事务 的子集, 加标签系统。
18、被配置为将类别标签应用于每个数字事务, 并且处理器从加标签系统 接收与经优先级排序的未分类数字事务的子集对应的分类数字事务的完整集合或子集。 处 理器然后基于分类数字事务的子集将类别标签和标签置信度值应用于未分类数字事务的 剩余集合的每个事务。 标签置信度值指示给定标签被正确地应用于给定事务的置信度。 针 对具有等于或高于预定阈值的标签置信度值的每个分类数字事务, 处理器向目标系统传送 分类数字事务。 针对每个剩余事务, 处理器将该事务视为未分类数字事务, 并且重复上述步 骤。 0006 在第二方面中, 提供了一种存储用于处理数字事务的指令代码的非暂态计算机可 读介质。 非暂态计算机可读介质存。
19、储指令代码, 指令代码使得机器从一个或多个源系统接 收多个未分类数字事务。 机器然后根据每个未分类数字事务的关键性能指标(KPI)来对未 分类数字事务优先级排序, 并且向加标签系统传送经优先级排序的未分类数字事务的子 集, 该加标签系统被配置为将类别标签应用于每个数字事务。 机器从加标签系统接收与经 优先级排序的未分类数字事务的子集对应的分类数字事务的子集。 机器基于分类数字事务 的子集来将类别标签和标签置信度值应用于未分类数字事务的剩余集合的每个事务。 标签 说明书 1/8 页 6 CN 110059137 A 6 置信度值指示给定标签被正确地应用于给定事务的置信度。 针对具有等于或高于预定。
20、阈值 的标签置信度值的每个分类数字事务, 机器向目标系统传送分类数字事务。 针对每个剩余 事务, 机器将该事务视为未分类数字事务, 并且重复上述步骤。 0007 在第三方面中, 一种用于处理数字事务的方法包括: 从一个或多个源系统接收多 个未分类数字事务; 以及根据每个未分类数字事务的关键性能指标(KPI)来对未分类数字 事务优先级排序。 该方法包括向加标签系统传送经优先级排序的未分类数字事务的子集, 加标签系统被配置为将类别标签应用于每个数字事务, 并且该方法还包括从加标签系统接 收与经优先级排序的未分类数字事务的子集对应的分类数字事务的子集。 该方法包括基于 分类数字事务的子集来将类别标签。
21、和标签置信度值应用于未分类数字事务的剩余集合的 每个事务。 标签置信度值指示给定标签被正确地应用于给定事务的置信度。 针对具有等于 或高于预定阈值的标签置信度值的每个分类数字事务, 该方法包括向目标系统传送分类数 字事务。 针对每个剩余事务, 该方法包括将该事务视为未分类数字事务, 并且重复上述步 骤。 附图说明 0008 图1示出了包括事务分类系统的示例性环境; 0009 图2示出了由事务分类系统执行的示例性操作; 0010 图3示出了由事务分类系统在对事务优先级排序时执行的示例性操作; 以及 0011 图4示出了可以形成在附图中或在以下段落中被描述的系统的一部分或实现该系 统的示例性计算机。
22、系统。 具体实施方式 0012 下面描述的实施例通过提供一种能够以日志条目的形式处理大量事务数据的事 务分类系统来克服上述问题。 该系统使用一系列技术来执行大文本数据集的自动化优先级 排序, 这些技术可以包括涉及滤波采样、 降维、 集群化和表示性采样的自适应统计技术。 在 该系统内, 可以使用专家系统来执行被包括在事务条目中的自动地经优先级排序的文本的 加标签。 文本样本的加标签可以表示事务条目和异常值事务条目的集群。 大文本数据集的 高效自动化加标签可以由该系统使用被构建在自动地经优先级排序的文本的加标签上的 闭环迭代统计分类执行。 0013 图1示出了示例性环境100, 其包括促进对事务分。
23、类的各种系统/设备。 环境100的 示例性系统/设备包括事务分类系统(TCS)102、 源系统104、 加标签系统105和目标系统106。 事务分类系统102、 源系统104、 加标签系统105和目标系统106可以经由诸如因特网的网络 107彼此通信。 0014各种系统可以对应于计算机系统, 诸如基于或 的计算机系统或不同的计算机系统, 并且可以包括应用特定的计算机系统。 计算机系统可 以包括操作系统, 诸如MicrosoftLinux、或其他操作系统。 终端可 以是台式PC和/或移动终端。 0015 源系统104可以对应于管理任何数目的事务的企业系统。 例如, 在一个实现中, 事 务可以对应。
24、于费用报告事务。 事务可以被存储在源104的数据库中。 被存储在数据库中的示 说明书 2/8 页 7 CN 110059137 A 7 例性记录在下面的表1中被示出。 0016 供应商描述日期金额 ABC公司针对雇员A的计算机设备1/5/2018$10,000 医院A针对雇员A的健康检查1/6/2018$5,000 航空公司X针对雇员A的机票2/1/2018$450 ABC公司针对雇员B的计算机设备1/5/2018$10,000 医院A针对雇员B的健康检查1/6/2018$5,000 航空公司X针对雇员B的机票2/1/2018$450 0017 表1 0018 参考表1, 每个记录可以标识供应。
25、商、 由供应商提供的服务的描述、 提供服务的日 期和与服务相关联的成本。 如上所述, 表1仅是示例性的。 例如, 虽然示出了单个描述字段, 但是可以存在附加的描述性字段和/或描述性字段可以是很多字段的串联。 0019 在其他情况中, 事务可以是不同的, 诸如与安全相关的事务、 与贷款相关的事务 等。 在任何情况中, 每个事务可以包括由TCS 102在执行各种优先级排序操作时使用的关键 性能指标(KPI), 如下所述。 例如, 针对表1的事务, KPI可以对应于针对每个事务的金额值。 在与安全日志相关的事务中, KPI可以对应于针对每个事务的、 指示与事务相关联的安全威 胁级别的值。 因此, K。
26、PI通常被认为是密钥(key)和/或可以是事务记录中的最重要的字段之 一。 在某些情况中,“描述” 字段可能同样重要。 0020 为了促进向TCS 102传送事务, 源系统104可以实现一个或多个API。 例如, 源系统 104可以被配置为经由诸如web服务器API、 基于SOAP的web服务、 RESTful API和/或不同类 型的API的API与TCS 102通信。 0021 加标签系统105被配置为从TCS 102接收未分类事务的子集, 并且确定针对该子集 中的每个事务的类别。 在这方面中, 加标签系统105可以使用各种机器学习技术, 这些技术 可以单独操作或者与加标签系统105的用户。
27、合作地操作, 以向子集中的事务分配类别。 在这 方面中, 加标签系统105可以被配置为促进经由企业系统102的一个或多个API与TCS 102传 送信息。 例如, 加标签系统105可以被配置为经由诸如web服务器API、 基于SOAP的web服务、 RESTful API和/或不同类型的API的API与TCS 102通信。 0022 目标系统106对应于被配置为接收已经被分类的事务的任何系统。 例如, 目标系统 106可以对应于针对在执行诸如账单的核对、 发票的支付等操作时摄取分类事务的组织的 企业计划和资源(ERP)系统。 目标系统106可以被配置为促进经由上述一个或多个API与 TCS10。
28、2传送信息。 0023 TCS 102可以包括处理器125、 输入/输出子系统110和AI子系统115。 TCS 102可以 包括其他子系统。 0024 TCS 102的I/O子系统110被配置为促进与TCS 102外部的实体的通信。 在这方面 中, I/O子系统110可以被配置为动态地确定由环境100的实体利用的通信方法以用于使用 确定的通信方法来向实体传送信息。 例如, I/O子系统110可以确定第一实体利用RESTful API, 并且因此可以使用RESTful通信方法与该实体通信。 说明书 3/8 页 8 CN 110059137 A 8 0025 如下面更详细地描述的, I/O子系统。
29、110可以实现web浏览器以促进生成一个或多 个基于web的接口, 源系统104、 加标签系统105、 目标系统106和/或其他系统的用户可以通 过该接口与TCS 102交互。 web浏览器可以实现web服务接口以促进经由计算机来将基于web 的功能中的一些基于web的功能自动化。 例如, 环境100的实体中的一个或多个实体可以利 用web服务接口来访问由TCS 102存储的信息。 0026 AI子系统115可以对应于被专门地配置为执行或协助执行各种自然语言处理技术 的硬件, 诸如例如用来标识与事务相关联的主题的隐含狄利克雷分配(LDA)、 用来在一个或 多个主题下对事务分组的基于分层密度的集。
30、群分析(H-DBSCAN)、 用来定位和提取事务内的 某些单词的出现的Knuth-Morris-Pratt字符串搜索、 用来挖掘文本数据的可能的线性的集 群化算法和/或其他技术。 如下面更详细被描述的, 这些操作促进生成被定位在所有事务内 的项目的语料库、 生成与语料库相关联的主题、 在一个或多个主题下将事务集群化, 等等。 可以利用其他自然语言和/或机器学习技术来定位个人数据。 0027 CPU 125执行被存储在存储器设备127中的指令代码以用于协调在各个子系统之 间被执行的活动。 处理器125可以对应于独立的计算机系统, 诸如基于 或的计算机系统或不同的计算机系统, 并且可以包括应用特定。
31、的计算机系 统。 计算机系统可以包括操作系统, 诸如MicrosoftLinux、或其他操 作系统。 0028 预期I/O子系统110、 AI子系统115和本文中引用的任何其他子系统可以对应于独 立计算机系统, 诸如基于或的计算机系统或不同的计 算机系统, 并且可以包括应用特定的计算机系统。 计算机系统可以包括操作系统, 诸如 MicrosoftLinux、或其他操作系统。 还预期在各种子系统上被执行 的操作可以被组合成更少或更多数目的子系统以促进速度缩放、 成本降低等。 0029 在图2中示出了由CPU 125和/或TCS(102)的其他模块在对事务分类时执行的示例 性操作。 在这方面中, 。
32、操作可以经由被存储在驻留在子系统内的非暂态计算机可读介质127 中的指令代码而被实现, 该指令代码被配置为使得各个子系统执行附图中所示和本文中讨 论的操作。 0030 参考图2, 在操作200处, TCS 102可以接收未分类事务。 例如, 一个或多个源系统 104可以向TCS 102传送一组事务, 诸如与各种费用相关的事务、 安全相关的事务、 应用日志 事务、 或可以用事务记录的形式而被表达的任何其他类型的信息。 0031 事务可以包括属性或特征, 诸如描述、 时间戳、 序列号、 源标识符等。 事务可以采用 源自例如电子表格、 数据库、 日志文件等的字母数字结构化和/或半结构化和/或平面或分。
33、 层文本的形式。 0032 从源系统104接收的未分类事务可以被存储到TCS 102的数据库120。 例如, 在初始 阶段期间, 1,000,000个事务可以被存储在数据库120中。 0033 可以对被存储在数据库120中的未分类事务执行后处理操作以降低被存储在每个 事务中的信息的复杂性。 例如, 可以校正或消除每个事务的字段中的标点符号。 可以应用拼 写检查和语法检查来校正任何拼写和语法问题。 可以更改事务的字段的短语以删除冗余。 可以移除连接术语以将每个事务减少为名词、 副词、 动词等。 可以执行其他处理操作。 说明书 4/8 页 9 CN 110059137 A 9 0034 在框205。
34、处, 可以向数据库120中的每个事务分配空或通用类别标签和标签置信度 值, 该标签置信度值指示被分配给事务的标签是正确的置信度水平, 如下面的表2中所示。 0035 供应商描述日期金额类别CV ABC公司针对雇员A的计算机设备1/5/2018$10,000空0 医院A针对雇员A的健康检查1/6/2018$5,000空0 航空公司X针对雇员A的机票2/1/2018$450空0 ABC公司针对雇员B的计算机设备1/5/2018$10,000空0 医院A针对雇员B的健康检查1/6/2018$5,000空0 航空公司X针对雇员B的机票2/1/2018$450空0 0036 表2 0037 参考表2, 。
35、初始类别可以被设置为项目 “空” , 并且标签置信度值可以被设置为0以 指示当前被分配的类别是正确的置信度的级别为零。 0038 在操作210处, TCS 102的CPU 125可以确定在数据库120中是否存在任何剩余事务 要向目标系统106传送。 0039 如果在操作210处, 存在剩余事务, 则在操作215处, TCS 102的CPU 125可以向目标 系统106传送具有高于预定阈值的CV值的事务。 例如, 阈值可以是0.8(80), 从而使得具有 高于80的标签置信度值的任何事务被传送给目标系统250并且从数据库120被移除。 剩余 事务(即, 具有低于阈值的CV的事务)在后续操作中被处。
36、理。 0040 如上所述, 针对每个事务的CV值最初被设置为低于阈值的水平。 因此, 在初始传递 期间, 可以在以下操作中处理所有事务。 0041 在框220处, 可以由CPU 125单独地和/或与AI子系统115协作地确定与事务中的全 部事务或子集相关联的项目的语料库。 可以生成诸如所谓的单词或伪单词的矩阵包的语料 库矩阵。 伪单词的包是两个或更多个单词的序列。 有时这被称为n元语法矢量化, 其中使用 多达n个单词序列来构建(伪)单词的包。 0042 矩阵的每个列可以对应于在事务中的一个或多个事务中被找到的单词。 矩阵的每 个行对应于单个事务。 矩阵的每个值可以指示与该列相关联的单词是否出现。
37、在与该行相关 联的事务中。 例如, 为零的值可以指示该单词没有出现在事务中, 并且非零值(例如, 一)可 以指示该单词在事务中出现一次或多次。 在某些情况中, 该值可以对应于该单词的出现次 数。 矩阵的结果是每个事务的向量表示, 其中向量空间具有与在所有事务中被找到的N个不 同单词对应的N个维度。 0043 在操作225处, 可以将事务集群化在一个或多个主题下。 例如, CPU 125可以单独地 和/或与AI子系统115协作地对矢量化的事务执行隐含狄利克雷分配, 或者执行不同过程, 以标识与事务相关联的一个或多个主题。 0044 接下来, 可以经由例如基于分层密度的集群化(H-DBSCAN)或。
38、不同的无监督学习过 程来将事务与不同主题相关联。 集群化的结果可以是具有对应于与事务中的每个事务对应 的每个主题行的列的矩阵。 矩阵的每个值可以指示对应的主题是否与对应的事务相关联。 例如, 为零的值可以指示主题不相关。 为0.5的值可以指示事务与主题相关的概率为50 说明书 5/8 页 10 CN 110059137 A 10 等。 高的值可以指示事务与给定主题相关的更高概率。 0045 在操作230处, 对事务优先级排序, 并且向加标签系统105传送多个最高优先级事 务。 图3示出了被执行用于促进事务的优先级排序的各种操作。 0046 参考图3, 在操作300处, 对与不同主题相关联的集群。
39、排序以标识最重要/相关的集 群。 在一个实现中, 基于落入主题内的所有事务的总KPI值来对主题排序。 例如, 如果表2中 列出的具有部分描述 “针对雇员的计算机设备” 的事务落入同一主题内, 则总KPI将对应于 在这些事务的金额列中被指定的美元金额的总和(即, $20,000)。 0047 在操作305处, 选择排序的集群中的前N个集群。 例如, 可以基于KPI来选择前100个 集群。 0048 在操作310处, 对与前N个集群相关联的事务排序以标识最重要/相关的事务。 在一 个实现中, 基于事务的KPI值来对事务排序。 0049 在操作315处, 可以选择具有最高KPI的分类的事务中的一个或。
40、多个分类的事务。 按照上面的示例, 如果N1, 则可以选择具有部分描述 “针对雇员的计算机设备” 的任一事 务。 0050 在操作320处, 可以向加标签系统传送选择的事务。 例如, 可以向加标签系统105传 送被存储在数据库120中的原始1,000,000个事务的一百个经优先级排序的事务。 0051 返回图2, 在操作235处, 经优先级排序的事务由加标签系统105加标签并且被返回 给TCS 102。 例如, 加标签系统105可以实现各种机器学习技术, 诸如基于规则的技术, 其可 以由用户监督, 以对经优先级排序的事务加标签。 0052 在操作240处, 可以基于加标签的经优先级排序的事务来。
41、生成和/或更新分类模 型, 诸如统计决策树、 机器学习分类器、 预测模型和/或深度学习模型。 示例性模型包括随机 森林、 CHAID或C4.5或统计机器学习分类器, 诸如逻辑回归或支持向量机或人工神经网络。 统计决策树或统计分类器促进确定针对未分类事务的标签和与标签相关联的标签置信度 值。 例如, 决策树可以对应于回归树, 该回归树促进将结果预测为实数(例如, 类别标签正确 的概率)。 0053 在操作245处, 可以利用确定的标签和CV来更新与事务相关联的数据库120中的记 录。 操作可以从操作210重复。 下面的表3示出了被添加到与数据库120中的事务相关联的记 录的示例性标签和CV。 0。
42、054 供应商描述日期金额类别CV ABC公司针对雇员A的计算机设备1/5/2018$10,000资本设备0.9 医院A针对雇员A的健康检查1/6/2018$5,000卫生保健0.5 航空公司X针对雇员A的机票2/1/2018$450旅行0.8 ABC公司针对雇员B的计算机设备1/5/2018$10,000资本设备0.9 医院A针对雇员B的健康检查1/6/2018$5,000卫生保健0.5 航空公司X针对雇员B的机票2/1/2018$450旅行0.8 0055 表3 0056 在第二通过期间, 在操作215处, 向目标系统106传送具有高于预定阈值的CV的事 说明书 6/8 页 11 CN 1。
43、10059137 A 11 务并且将其从数据库120移除。 具有低于预定阈值的CV的那些事务可以经由后续操作而被 处理。 例如, 在阈值被设置为0.8的情况中, 可以向目标系统106传送具有描述 “针对雇员xyz 的计算机设备” 和 “针对雇员xyz的机票” 的事务并且将其从数据库120移除。 具有描述 “针对 雇员xyz的健康检查” 的事务可以经由后续操作而被处理。 0057 利用通过上述操作的每次迭代, 需要附加处理的事务的数目减少。 例如, 在最初已 经被存储在数据库120中的1,000,000个事务中, 在第一迭代之后可以保留800,000个事务。 这意味着基于被优先级排序并且在操作3。
44、20处向加标签系统传送的相对少的(例如, 一百 个)事务, 200,000个事务具有高可能性被自动地加标签。 0058 在第二迭代之后, 可以保留400,000个事务, 标签依此类推, 直到所有事务都已经 利用标签而被分类。 因此, 需要由加标签系统105加标签的事务的总数通常等于在操作230 处向加标签系统105传送的事务的数目乘以通过操作的迭代次数。 例如, 如果事务在五次迭 代之后被完全地处理, 则需要加标签的事务的总数将为500。 0059 因此, 上述操作促进基于相对较少数目的确定的优先级事务来对大量事务分类。 这有利地导致用以单独地对每个事务分类的减小的处理能力, 同时增加了要向目。
45、标系统传 送的、 具有等于或高于预定阈值的标签置信度值的分类数字事务。 0060 图4示出了可以形成上述系统、 环境、 设备等的一部分或实现它们的计算机系统 400。 计算机系统400可以包括一组指令445, 处理器405可以执行指令445以使得计算机系统 400执行上述操作中的任何操作。 计算机系统400可以作为独立设备操作, 或者可以例如使 用网络而被连接到其他计算机系统或外围设备。 0061 在联网部署中, 计算机系统400可以在服务器客户端网络环境中以服务器的身份 或作为客户端计算机操作, 或者在对等(或分布式)环境中作为对等计算机系统操作。 计算 机系统400还可以被实现为或并入到能。
46、够执行使得设备执行一个或多个动作的指令445(顺 序或其他)的各种设备中, 这些设备诸如个人计算机或移动设备。 此外, 描述系统中的的每 个系统可以包括子系统的集合, 这些子系统单独地或联合地执行一组或多组指令以执行一 个或多个计算机操作。 0062 计算机系统400可以包括被通信地耦合到总线420以用于传送信息的一个或多个 存储器设备410。 另外, 可操作以使得计算机系统执行上述操作的代码可以被存储在存储器 410中。 存储器410可以是随机存取存储器、 只读存储器、 可编程存储器、 硬盘驱动或任何其 他类型的存储器或存储设备。 0063 计算机系统400可以包括显示器430, 诸如液晶显。
47、示器(LCD)、 阴极射线管(CRT)或 适于传送信息的任何其他显示器。 显示器430可以用作用于用户查看由处理器405产生的处 理结果的界面。 0064 附加地, 计算机系统400可以包括被配置为允许用户与系统400的组件交互的输入 设备425, 诸如键盘或鼠标或触摸屏。 0065 计算机系统400还可以包括盘或光学驱动单元415。 驱动单元415可以包括其中可 以存储指令445的计算机可读介质440。 在由计算机系统400执行期间, 指令445可以完全或 至少部分地驻留在存储器410内和/或处理器405内。 存储器410和处理器405还可以包括如 上所述的计算机可读介质。 0066 计算机。
48、系统400可以包括用以支持经由网络450的通信的通信接口435。 网络450可 说明书 7/8 页 12 CN 110059137 A 12 以包括有线网络、 无线网络或它们的组合。 通信接口435可以支持经由任何数目的通信标准 (诸如802.11、 802.12、 802.20、 WiMAX、 蜂窝电话标准或其他通信标准)的通信。 0067 因此, 本文中描述的方法和系统可以在硬件、 软件或硬件和软件的组合中被实现。 这些方法和系统可以按照集中的方式在至少一个计算机系统中被实现, 或者以分布式方式 被实现, 在分布式方式中, 不同的元件跨互连的计算机系统分散。 可以采用适于执行本文中 描述的。
49、方法的任何种类的计算机系统或其他装置。 0068 本文中描述的方法和系统还可以被嵌入在计算机程序产品中, 该计算机程序产品 包括能够实现本文中描述的操作的所有特征并且在被加载到计算机系统中时能够执行这 些操作。 本文中使用的计算机程序是指按照机器可执行语言、 代码或符号的一组机器可执 行指令的表达, 这些指令旨在使得设备直接地或在以下中的一个或多个之后执行特定功 能: a)将第一语言、 代码或符号转换为另一种语言、 代码或符号; b)复制第一语言、 代码或符 号。 0069 虽然已经参考某些实施例描述了方法和系统, 但是本领域技术人员将理解, 在不 脱离权利要求的范围的情况下, 可以各种改变并且可以替换等同物。 因此, 旨在于本方法和 系统不限于所公开的特定实施例, 而是所公开的方法和系统包括落入所附权利要求的范围 内的所有实施例。 说明书 8/8 页 13 CN 110059137 A 13 图1 说明书附图 1/4 页 14 CN 110059137 A 14 图2 说明书附图 2/4 页 15 CN 110059137 A 15 图3 说明书附图 3/4 页 16 CN 110059137 A 16 图4 说明书附图 4/4 页 17 CN 110059137 A 17 。
- 内容关键字: 事务 分类 系统
集成热烟雾激发模块的超低容喷雾机构.pdf
射孔弹用药型罩压制防护装置.pdf
摆动出水结构及出水装置.pdf
片材送片装置.pdf
园林节水灌溉装置.pdf
液液非均相物料混合装置.pdf
茶叶包装用的称量装置.pdf
新型的托料块的调节结构.pdf
寡核苷酸检测用振荡混合装置.pdf
钢筋弯曲装置.pdf
建筑检测用贯入式砂浆强度检测仪.pdf
西药剂分类存放装置.pdf
具有辅助支撑结构的绘图尺.pdf
建筑工程基桩检测装置.pdf
水利施工用挖方设备.pdf
用于柴油发电机组的安装结构.pdf
便于布线的智能化弱电箱.pdf
二氧化碳排放用定期采样监测装置.pdf
钢丝网架固定结构.pdf
高精度高压力气体安全阀.pdf
茶叶加工用滚筒干燥装置.pdf
活塞加工用夹持工装.pdf
生活垃圾发酵堆肥处理设备.pdf
刀塔旋转分度摆线马达.pdf
基于自适应周期发现的工业母机加工工件质量预测方法.pdf
烹饪信息的分享方法、装置、设备及存储介质.pdf
高压厚壁球壳内壁裂纹应力强度因子的计算方法.pdf
电芬顿法预处理水环境微塑料样品的装置.pdf
扩膜后晶圆检查测试一体机及检查方法.pdf
基于量子密码设备的文件系统流加解密方法及系统.pdf
显示基板和显示装置.pdf
高收率节能球形石墨深加工设备.pdf
醋酸乙烯存储装置及粗醋酸乙烯的报警及控制方法.pdf
一种超高分子量聚乙烯纤维的制备方法.pdf
硬币坯饼边部滚边和滚槽(字)加工的送饼定位装置.pdf
悬浮液连续可调浓缩系统.pdf
一种大口径U形管开口尺寸校形模具.pdf
成对锯片.pdf
一种彩色再生雪花混纺工艺.pdf
一种晶锭的运输装置.pdf
发动机冷却通道.pdf
一种三维磁性甲油的制备方法及制品.pdf
一种紫外光固化材料.pdf
一种电脑横机的中山三角.pdf
锉刀杆装置.pdf
图像处理方法及装置.pdf
一种曳引机制动器力矩监测装置.pdf
一种高碳钢的冶炼连铸方法.pdf
一种电脑针织横机的中山三角.pdf
经编机的舌针.pdf
机器蛇绳的摩擦驱动装置及其机器蛇绳.pdf