用于处理数据的方法和装置.pdf
《用于处理数据的方法和装置.pdf》由会员分享,可在线阅读,更多相关《用于处理数据的方法和装置.pdf(22页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910401497.0 (22)申请日 2019.05.14 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 贾丹陈俊代小亚黄海峰 陆超 (74)专利代理机构 北京英赛嘉华知识产权代理 有限责任公司 11204 代理人 王达佐马晓亚 (51)Int.Cl. G06F 16/9535(2019.01) (54)发明名称 用于处理数据的方法和装置 (57)摘要 本公开的实施例公开了用于处理数据的方 法和装置。
2、, 该方法的一具体实施方式包括: 利用 预先设置的至少两个基于概率图的模型, 分别确 定关联度序列, 其中, 关联度序列用于表征预先 生成的关键字和预先获取的对象集合中的对象 的关联度; 对所确定的关联度序列进行融合, 得 到融合关联度序列; 基于融合关联度序列, 从对 象集合中确定出关键字的关联对象。 该用于处理 数据的方法可以提高确定关键字的关联对象的 准确率, 避免仅利用一个基于概率图的模型进行 数据处理而出现不合理的预测结果, 进一步地, 可以利用得到的关联对象进行信息推送, 从而方 便终端用户获取数据处理结果, 提高用户体验。 权利要求书3页 说明书12页 附图6页 CN 11011。
3、0235 A 2019.08.09 CN 110110235 A 1.一种用于处理数据的方法, 包括: 利用预先设置的至少两个基于概率图的模型, 分别确定关联度序列, 其中, 所述关联度 序列用于表征预先生成的关键字和预先获取的对象集合中的对象的关联度; 对所确定的关联度序列进行融合, 得到融合关联度序列; 基于所述融合关联度序列, 从所述对象集合中确定出所述关键字的关联对象。 2.根据权利要求1所述的方法, 其中, 在所述利用预先设置的至少两个基于概率图的模 型, 分别确定关联度序列之前, 所述方法还包括: 对预先生成的关键字分类, 获得第一类关键字和第二类关键字, 以使得基于概率图的 模型。
4、以所述第一类关键字和所述第二类关键字为输入参数, 确定所述关联度序列。 3.根据权利要求2所述的方法, 其中, 在所述利用预先设置的至少两个基于概率图的模 型, 分别确定关联度序列之前, 所述方法还包括: 获取所述对象合集中的对象的先验概率, 以使得基于概率图的模型以所述对象的先验 概率为输入参数, 确定所述关联度序列。 4.根据权利要求3所述的方法, 其中, 所述预先设置的至少两个基于概率图的模型包 括: 串联的两个概率图模型或并联的两个概率图模型; 以及 所述利用预先设置的至少两个基于概率图的模型, 分别确定关联度序列, 包括: 将所述第一类关键字和所述先验概率输入串联的两个概率图模型中的。
5、第一个进行计 算, 将该第一个概率图模型的输出结果和所述第二类关键字输入串联的两个概率图模型中 的第二个进行计算, 以获得第一关联度序列; 将所述第一类关键字和第二类关键字中一者、 所述先验概率输入并联的两个概率图模 型中一者进行计算, 将所述第一类关键字和第二类关键字中另一者、 所述先验概率输入并 联的两个概率图模型中另一者进行计算, 对两个概率图模型的输出结果进行求和, 并对所 述求和结果归一化以获得第二关联度序列。 5.根据权利要求4所述的方法, 其中, 所述对所确定的关联度序列进行融合, 得到融合 关联度序列, 包括: 确定所述第一关联度序列和所述第二关联度序列中对应同一对象的关联度的。
6、平均值 或者加权平均值, 将所确定的平均值或者加权平均值作为融合关联度, 得到融合关联度序 列。 6.根据权利要求4所述的方法, 其中, 所述对所确定的关联度序列进行融合, 得到融合 关联度序列, 包括: 统计所述第一关联度序列和所述第二关联度序列中指示任一所述对象的关联度的数 量, 将所述数量作为融合关联度, 得到融合关联度序列。 7.根据权利要求5或6所述的方法, 其中, 所述基于所述融合关联度序列, 从所述对象集 合中确定出所述关键字的关联对象, 包括: 确定所述融合关联度的最大值对应的对象为所述关键字的关联对象。 8.根据权利要求1-6中任意一项所述的方法, 其中, 在所述从所述对象集。
7、合中确定出所 述关键字的关联对象之后, 所述方法还包括: 基于预设规则对确定出的所述关键字的关联对象进行过滤。 9.一种用于处理数据的装置, 包括: 权利要求书 1/3 页 2 CN 110110235 A 2 关联度确定单元, 被配置成利用预先设置的至少两个基于概率图的模型, 分别确定关 联度序列, 其中, 所述关联度序列用于表征预先生成的关键字和预先获取的对象集合中的 对象的关联度; 融合单元, 被配置成对所确定的关联度序列进行融合, 得到融合关联度序列; 关联对象确定单元, 被配置成基于所述融合关联度序列, 从所述对象集合中确定出所 述关键字的关联对象。 10.根据权利要求9所述的装置,。
8、 其中, 所述装置还包括: 关键字分类单元, 被配置成对预先生成的关键字分类, 获得第一类关键字和第二类关 键字, 以使得基于概率图的模型以所述第一类关键字和所述第二类关键字为输入参数, 确 定所述关联度序列。 11.根据权利要求10所述的装置, 其中, 所述装置还包括: 先验概率获取单元, 被配置成获取所述对象合集中的对象的先验概率, 以使得基于概 率图的模型以所述对象的先验概率为输入参数, 确定所述关联度序列。 12.根据权利要求11所述的装置, 其中, 所述预先设置的至少两个基于概率图的模型包 括: 串联的两个概率图模型或并联的两个概率图模型; 以及 所述关联度确定单元进一步被配置成: 。
9、将所述第一类关键字和所述先验概率输入串联的两个概率图模型中的第一个进行计 算, 将该第一个概率图模型的输出结果和所述第二类关键字输入串联的两个概率图模型中 的第二个进行计算, 以获得第一关联度序列; 将所述第一类关键字和第二类关键字中一者、 所述先验概率输入并联的两个概率图模 型中一者进行计算, 将所述第一类关键字和第二类关键字中另一者、 所述先验概率输入并 联的两个概率图模型中另一者进行计算, 对两个概率图模型的输出结果进行求和, 并对所 述求和结果归一化以获得第二关联度序列。 13.根据权利要求12所述的装置, 其中, 所述融合单元进一步被配置成: 计算所述第一关联度序列和所述第二关联度序。
10、列中对应同一对象的关联度的平均值 或者加权平均值, 将所述平均值或者加权平均值作为融合关联度, 得到融合关联度序列。 14.根据权利要求12所述的装置, 其中, 所述融合单元进一步被配置成: 统计所述第一关联度序列和所述第二关联度序列中指示任一所述对象的关联度的数 量, 将所述数量作为融合关联度, 得到融合关联度序列。 15.根据权利要求13或14所述的装置, 其中, 所述关联对象确定单元进一步被配置成: 确定所述融合关联度的最大值对应的对象为所述关键字的关联对象。 16.根据权利要求9-14中任意一项所述的装置, 其中, 所述装置还包括: 过滤单元, 被配置成基于预设规则对确定出的所述关键字。
11、的关联对象进行过滤。 17.一种服务器, 包括: 一个或多个处理器; 存储装置, 其上存储有一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1-8中任一所述的方法。 18.一种计算机可读介质, 其上存储有计算机程序, 其中, 所述程序被处理器执行时实 权利要求书 2/3 页 3 CN 110110235 A 3 现如权利要求1-8中任一所述的方法。 权利要求书 3/3 页 4 CN 110110235 A 4 用于处理数据的方法和装置 技术领域 0001 本公开的实施例涉及计算机技术领域, 具体涉及用于处理数据的方法和装置。 背景技术。
12、 0002 基于概率图的模型进行数据处理适用于多种技术领域, 影响数据处理的准确率的 主要因素包括: 基于概率图的模型的算法结构和输入参数的类型, 相关技术中, 基于概率图 的模型的算法结构单一、 并且输入参数未分类, 导致数据处理的结果准确率较低。 发明内容 0003 本公开的实施例提出了用于处理数据的方法和装置。 0004 第一方面, 本公开实施例提供一种用于处理数据的方法, 该方法包括: 利用预先设 置的至少两个基于概率图的模型, 分别确定关联度序列, 其中, 该关联度序列用于表征预先 生成的关键字和预先获取的对象集合中的对象的关联度; 对所确定的关联度序列进行融 合, 得到融合关联度序。
13、列; 基于融合关联度序列, 从对象集合中确定出关键字的关联对象。 0005 在一些实施例中, 在利用预先设置的至少两个基于概率图的模型, 分别确定关联 度序列之前, 方法还包括: 对预先生成的关键字分类, 获得第一类关键字和第二类关键字, 以使得基于概率图的模型以第一类关键字和第二类关键字为输入参数, 确定关联度序列。 0006 在一些实施例中, 在利用预先设置的至少两个基于概率图的模型, 分别确定关联 度序列之前, 方法还包括: 获取对象合集中的对象的先验概率, 以使得基于概率图的模型以 对象的先验概率为输入参数, 确定关联度序列。 0007 在一些实施例中, 预先设置的至少两个基于概率图的。
14、模型包括: 串联的两个概率 图模型或并联的两个概率图模型; 以及利用预先设置的至少两个基于概率图的模型, 分别 确定关联度序列, 包括: 将第一类关键字和先验概率输入串联的两个概率图模型中的第一 个进行计算, 将该第一个概率图模型的输出结果和第二类关键字输入串联的两个概率图模 型中的第二个进行计算, 以获得第一关联度序列; 将第一类关键字和第二类关键字中一者、 先验概率输入并联的两个概率图模型中一者进行计算, 将第一类关键字和第二类关键字中 另一者、 先验概率输入并联的两个概率图模型中另一者进行计算, 对两个概率图模型的输 出结果进行求和, 并对求和结果归一化以获得第二关联度序列。 0008 。
15、在一些实施例中, 对所确定的关联度序列进行融合, 得到融合关联度序列, 包括: 确定第一关联度序列和第二关联度序列中对应同一对象的关联度的平均值或者加权平均 值, 将所确定的平均值或者加权平均值作为融合关联度, 得到融合关联度序列。 0009 在一些实施例中, 对所确定的关联度序列进行融合, 得到融合关联度序列, 包括: 统计第一关联度序列和第二关联度序列中指示任一对象的关联度的数量, 将数量作为融合 关联度, 得到融合关联度序列。 0010 在一些实施例中, 基于融合关联度序列, 从对象集合中确定出关键字的关联对象, 包括: 确定融合关联度的最大值对应的对象为关键字的关联对象。 说明书 1/。
16、12 页 5 CN 110110235 A 5 0011 在一些实施例中, 在从对象集合中确定出关键字的关联对象之后, 方法还包括: 基 于预设规则对确定出的关键字的关联对象进行过滤。 0012 第二方面, 本公开的实施例提供一种用于处理数据的装置, 包括: 关联度确定单 元, 被配置成利用预先设置的至少两个基于概率图的模型, 分别确定关联度序列, 其中, 关 联度序列用于表征预先生成的关键字和预先获取的对象集合中的对象的关联度; 融合单 元, 被配置成对所确定的关联度序列进行融合, 得到融合关联度序列; 关联对象确定单元, 被配置成基于融合关联度序列, 从对象集合中确定出关键字的关联对象。 。
17、0013 在一些实施例中, 装置还包括: 关键字分类单元, 被配置成对预先生成的关键字分 类, 获得第一类关键字和第二类关键字, 以使得基于概率图的模型以第一类关键字和第二 类关键字为输入参数, 确定关联度序列。 0014 在一些实施例中, 装置还包括: 先验概率获取单元, 获取对象合集中的对象的先验 概率, 以使得基于概率图的模型以对象的先验概率为输入参数, 确定关联度序列。 0015 在一些实施例中, 预先设置的至少两个基于概率图的模型包括: 串联的两个概率 图模型或并联的两个概率图模型; 以及关联度确定单元进一步被配置成: 将第一类关键字 和先验概率输入串联的两个概率图模型中的第一个进行。
18、计算, 将该第一个概率图模型的输 出结果和第二类关键字输入串联的两个概率图模型中的第二个进行计算, 以获得第一关联 度序列; 将第一类关键字和第二类关键字中一者、 先验概率输入并联的两个概率图模型中 一者进行计算, 将第一类关键字和第二类关键字中另一者、 先验概率输入并联的两个概率 图模型中另一者进行计算, 对两个概率图模型的输出结果进行求和, 并对求和结果归一化 以获得第二关联度序列。 0016 在一些实施例中, 融合单元进一步被配置成: 计算第一关联度序列和第二关联度 序列中对应同一对象的关联度的平均值或者加权平均值, 将平均值或者加权平均值作为融 合关联度, 得到融合关联度序列。 001。
19、7 在一些实施例中, 融合单元进一步被配置成: 统计所述第一关联度序列和所述第 二关联度序列中指示任一对象的关联度的数量, 将所述数量作为融合关联度, 得到融合关 联度序列。 0018 在一些实施例中, 关联对象确定单元进一步被配置成: 确定融合关联度的最大值 对应的对象为关键字的关联对象。 0019 在一些实施例中, 装置还包括: 过滤单元, 被配置成基于预设规则对确定出的关键 字的关联对象进行过滤。 0020 第三方面, 本公开的实施例提供一种服务器, 包括: 一个或多个处理器; 存储装置, 其上存储有一个或多个程序; 当一个或多个程序被一个或多个处理器执行, 使得一个或多 个处理器实现如。
20、第一方面的方法。 0021 第四方面, 本公开的实施例提供一种计算机可读介质, 其上存储有计算机程序, 该 程序被处理器执行时实现如第一方面的方法。 0022 本公开的实施例提供的用于处理数据的方法和装置, 首先, 利用预先设置的至少 两个基于概率图的模型, 分别确定关联度序列, 可以获得基于相同原始数据的多个关联度 序列预测结果, 然后, 对所确定的关联度序列进行融合, 得到融合关联度序, 最后, 基于融合 关联度序列, 从对象集合中确定出关键字的关联对象, 可以提高确定关键字的关联对象的 说明书 2/12 页 6 CN 110110235 A 6 准确率, 避免仅利用一个基于概率图的模型进。
21、行数据处理而出现不合理的预测结果, 进一 步地, 可以利用得到的关联对象进行信息推送, 从而方便终端用户获取数据处理结果, 提高 用户体验。 附图说明 0023 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本公开的其它 特征、 目的和优点将会变得更明显: 0024 图1是本公开的一些实施例可以应用于其中的示例性系统架构图; 0025 图2是根据本公开的用于处理数据的方法的一个实施例的流程图; 0026 图3是根据本公开的用于处理数据的方法的又一个实施例的流程图; 0027 图4是根据本公开的用于处理数据的方法的又一个实施例的流程图; 0028 图5是根据本公开的实施例的用于处理。
22、数据的方法的基于概率图的模型的一个实 施例的示意图; 0029 图6是根据本公开的实施例的用于处理数据的方法的基于概率图的模型的另一个 实施例的示意图; 0030 图7是根据本公开的实施例的用于处理数据的方法的一个应用场景的流程图; 0031 图8是根据本公开的用于处理数据的装置的一个实施例的结构示意图; 0032 图9是适于用来实现本公开的实施例的电子设备的结构示意图。 具体实施方式 0033 下面结合附图和实施例对本公开作进一步的详细说明。 可以理解的是, 此处所描 述的具体实施例仅仅用于解释相关发明, 而非对该发明的限定。 另外还需要说明的是, 为了 便于描述, 附图中仅示出了与有关发明。
23、相关的部分。 0034 需要说明的是, 在不冲突的情况下, 本公开中的实施例及实施例中的特征可以相 互组合。 下面将参考附图并结合实施例来详细说明本公开。 0035 图1示出了可以应用本公开的实施例的用于处理数据的方法或用于处理数据的装 置的示例性系统架构100。 0036 如图1所示, 系统架构100可以包括终端设备101、 102、 103, 网络104和服务器105。 网络104用以在终端设备101、 102、 103和服务器105之间提供通信链路的介质。 网络104可以 包括各种连接类型, 例如有线、 无线通信链路或者光纤电缆等等。 0037 用户110可以使用终端设备101、 102。
24、、 103通过网络104与服务器105交互, 以接收或 发送消息等。 终端设备101、 102、 103上可以安装有各种通讯客户端应用, 例如搜索引擎类应 用、 购物类应用、 即时通信工具、 邮箱客户端、 社交平台软件、 视频播放类应用等。 0038 终端设备101、 102、 103可以是硬件, 也可以是软件。 当终端设备101、 102、 103为硬 件时, 可以是具有显示屏的各种电子设备, 包括但不限于智能手机、 平板电脑、 电子书阅读 器、 膝上型便携计算机和台式计算机等等。 当终端设备101、 102、 103为软件时, 可以安装在 上述所列举的电子设备中。 其可以实现成多个软件或软。
25、件模块(例如用来提供分布式服务 的多个软件或软件模块), 也可以实现成单个软件或软件模块。 在此不做具体限定。 0039 服务器105可以是提供各种服务的服务器。 例如服务器105可以是对终端设备101、 说明书 3/12 页 7 CN 110110235 A 7 102、 103提供支持的后台服务器。 后台服务器可以对终端提交的数据进行分析、 存储或计算 等处理, 并将采用基于概率图的模型确定的数据预测结果推送给终端设备101、 102、 103。 0040 通常情况下, 本公开的实施例所提供的用于处理数据的方法一般由服务器105执 行, 相应地, 用于处理数据的装置一般设置于服务器105中。
26、。 0041 应该理解, 图1中的终端设备、 网络和服务器的数目仅仅是示意性的。 根据实现需 要, 可以具有任意数目的终端设备、 网络和服务器。 0042 继续参考图2, 示出了根据本公开的用于处理数据的方法的一个实施例的流程 200。 该用于处理数据的方法, 包括以下步骤: 0043 在步骤210中, 利用预先设置的至少两个基于概率图的模型, 分别确定关联度序 列, 其中, 关联度序列用于表征预先生成的关键字和预先获取的对象集合中的对象的关联 度。 0044 在本实施例中, 用于处理数据的方法200的算法中包括至少两个基于概率图的模 型(运行该算法的执行主体可以是如图1所示的服务器105),。
27、 每个基于概率图的模型以预先 生成的关键字和预先获取的对象集合中的对象作为输入参数, 计算对象合集中的对象在关 键字条件下的条件概率, 条件概率即为关联度。 0045 作为本实施例的一种实施方式, 对对象合集中的对象的数量不做限制, 即对象可 以为一个, 也可以为多个。 相应的, 对预设关键字的数量也不做限制, 即关键字可以为一个, 也可以为多个。 基于上述实施方式, 条件概率可以为对象在多个关键字同时发生条件下的 联合概率分布, 并且, 多个对象所计算得到的条件概率形成关联度序列。 0046 其中, 基于概率图的模型的计算原理是贝叶斯概率公式, 具体地, 获取关键字在对 象条件下的条件概率,。
28、 以及对象的先验概率, 然后基于贝叶斯公式经过一系类公式推导, 计 算出对象在关键字条件下的条件概率或者条件概率的联合分布, 由于具体的公式推导过程 并非本公开的重点, 在此不赘述。 0047 在步骤220中, 对所确定的关联度序列进行融合, 得到融合关联度序列; 0048 在本实施例中, 融合例如可以是将由不同的基于概率图的模型计算得到的关联度 序列中, 用于指示同一个对象的关联度进行融合。 0049 例如, 假设有两个关联度序列Aa1, a2, a3; Bb1, b2, b3, 其中, a1、 b2为对应对 象c1的关联度, a2、 b1为对应对象c2的关联度, a3、 b3为对应对象c3。
29、的关联度。 0050 由于关联度为条件概率, 因此, 在一些可选的实施方式中, 融合可以为概率融合, 即对象c1的融合关联度可以为(a1+b2)/2, 对象c2的融合关联度可以为(a2+b1)/2, 对象c1的 融合关联度可以为(a3+b3)/2, 则融合关联度序列为(a1+b2)/2, (a2+b1)/2, (a3+b3)/2。 0051 在另一些可选的实施方式中, 以上述两个关联度序列Aa1, a2, a3; Bb1, b2, b3为例, 其中, a1、 b1为对应对象c1的关联度, a2为对应对象c2的关联度, b2为对应对象c3的关 联度, a3为对应对象c4的关联度, b3为对应对象。
30、c5的关联度。 则融合可以为统计每一个对象 对应的关联度数量, 具体地, 对象c1的融合关联度为2, 对象c2c5的融合关联度均为1, 则融 合关联度序列为2, 1, 1, 1, 1。 0052 在步骤230中, 基于所述融合关联度序列, 从所述对象集合中确定出所述关键字的 关联对象。 0053 在本实施例中, 可以选取融合关联度序列中的关联度的最大值作为筛选规则, 确 说明书 4/12 页 8 CN 110110235 A 8 定出关键字的关联对象。 0054 参考步骤220中的实施方式, 假设融合关联度序列为(a1+b2)/2, (a2+b1)/2, (a3+ b3)/2中, 融合关联度(。
31、a1+b2)/2最大, 则对应融合关联度(a1+b2)/2的对象c1就被确定为关 键字的关联对象。 0055 或者, 统计融合关联度序列中, 指示任一对象的关联度的数量, 将数量最多的对象 确定为关键字的关联对象。 0056 继续参考步骤220中的实施方式, 假设融合关联度序列为2, 1, 1, 1, 1, 则对应融 合关联度2的对象c1被确定为关键字的关联对象。 0057 此外, 在一些可选的实现方式中, 除上述步骤210至步骤230以外, 本公开的用于处 理数据的方法还可以包括: 基于确定出的关键字的关联对象进行信息推送。 0058 在这些可选的实现方式中, 执行主体可以将确定的关键字的关。
32、联对象以信息推送 的形式反馈给终端设备。 进一步地, 执行主体还可以根据所确定出的关联对象向终端设备 推送与该关联对象相关的推送信息。 进而, 由于利用本实施例的方法能够确定出与关键字 关联的关联对象, 使得基于关联对象生成的推送信息的针对性更强, 从而尽可能地避免向 终端推送关联度不高的信息所可能导致的网络资源浪费的问题。 0059 下面以汽车故障诊断为例, 对本公开的实施例的用于处理数据的方法进行说明。 0060 汽车故障诊断的应用场景描述如下: 0061 预先生成的关键字为汽车出现的故障, 例如, 关键字k1: 行驶中熄火; 关键字k2: 再 次启动打不上火。 预先获取的对象为造成汽车故。
33、障的原因, 例如, 对象ob1: 水温传感装置温 度环境异常; 对象ob2: 汽油泵异常; 对象ob3: 节气门的位置传感器异常; 对象ob4: 正时皮带 断裂。 利用现有汽车技术领域的先验知识, 确定出对象集合OBob1, ob2, ob3, ob4中任意 一者的先验概率, 即不考虑任何条件的概率, 获取对象先验概率集合Prpr1, pr2, pr3, pr4, 然后获取故障原因对故障的诱发概率Pinpin11, pin12, pin13, pin14, pin21, pin22, pin23, pin24, 其中, pin11(k1|ob1), pin12(k1|ob2), pin13(k。
34、1|ob3), pin14(k1|ob4); pin21(k2|ob1), pin22(k2|ob2), pin23(k2|ob3), pin24(k2|ob4)。 0062 执行主体执行步骤210, 将先验概率Pr、诱发概率Pin分别输入至少两个基于概率图 的模型中进行计算, 获取到对象合集中的对象在关键字条件下的条件概率p(obi|kj), 其中, obiOB, i1, 2, 3, 4, j1, 2。 0063 进一步地, 执行主体利用基于概率图的模型以条件概率p(obi|kj)为参数进行计 算, 获得对象集合中的对象在多个关键字条件下的条件概率联合分布p(obi|k1, k2), 即关联。
35、 度, 多个关联度构成关联度序列。 0064 执行主体依次执行步骤220、 步骤230, 对基于不同概率图的模型获得的联合概率 分布p(obi|k1, k2)进行融合, 获得融合关联度序列, 然后, 根据融合关联度序列, 确定出从对 象集合中确定出关键字的关联对象, 即, 确定出导致汽车故障的原因。 0065 本公开的实施例提供的用于处理数据的方法, 首先, 利用预先设置的至少两个基 于概率图的模型, 分别确定关联度序列, 可以获得基于相同原始数据的多个关联度序列预 测结果。 然后, 对所确定的关联度序列进行融合, 得到融合关联度序列。 最后, 基于融合关联 度序列, 从对象集合中确定出关键字。
36、的关联对象。 可以提高确定关键字的关联对象的准确 率, 避免仅利用一个基于概率图的模型进行数据处理而出现不合理的预测结果。 进一步地, 说明书 5/12 页 9 CN 110110235 A 9 可以利用得到的关联对象进行信息推送, 从而方便终端用户获取数据处理结果, 提高用户 体验。 0066 进一步参考图3, 其示出了根据本公开的用于处理数据的方法的又一个实施例的 流程300。 该用于处理数据的方法的流程300, 包括以下步骤: 0067 在步骤310中, 对预先生成的关键字分类, 获得第一类关键字和第二类关键字。 0068 在本实施例中, 可以由执行主体(例如, 如图1所示的服务器105。
37、)中的自然语言处 理单元, 对用户通过终端设备输入的文本信息进行预处理(例如, 文本解析、 识别、 特征提取 等), 以获取预先生成的关键字。 进一步地, 还可以由自然语言处理单元对预生成的关键字 进行分类, 获得第一类关键字和第二类关键字, 基于概率图的模型以第一类关键字、 第二类 关键字为输入参数, 确定关联度序列。 0069 在步骤320中, 获取对象合集中的对象的先验概率。 0070 在本实施例中, 对象的先验概率表示对象在没有其他条件限制下的概率, 以对象 为某种疾病为例, 对象的先验概率可以为该疾病的发病率。 0071 对象的先验概率也用作基于概率图的模型的输入参数, 即基于概率图。
38、的模型以第 一类关键字、 第二类关键字中至少一者和先验概率为输入参数进行计算, 以从对象集合中 确定出关键字的关联对象。 0072 对象的先验概率可以存储于执行主体(例如, 图1中的服务器105)上, 也可以存储 于与执行主体通信连接的其他电子设备上, 当对象的先验概率存储于与执行主体通信连接 的其他电子设备上时, 执行主体可以通过向该电子设备发送数据请求指令, 以获得相应的 对象的先验概率。 0073 在步骤330中, 利用预先设置的至少两个基于概率图的模型, 分别确定关联度序 列, 其中, 关联度序列用于表征预先生成的关键字和预先获取的对象集合中的对象的关联 度。 0074 在步骤340中。
39、, 对所确定的关联度序列进行融合, 得到融合关联度序列。 0075 在步骤350中, 基于所述融合关联度序列, 从所述对象集合中确定出所述关键字的 关联对象。 0076 上述步骤330步骤350可以按照与图2所示实施例中的步骤210步骤230类似的 方式执行, 在此不再赘述。 0077 本公开的上述实施例提供的用于处理数据的方法, 通过对预生成的关键字进行分 类, 利用分类的关键字作为基于概率图的模型进行输入参数, 能够实现基于概率图的模型 的分层计算, 从而实现基于不同类型的关键字确定关联度序列, 进一步提高确定关键字关 联对象的准确率。 0078 进一步参考图4, 其示出了根据本公开的用于。
40、处理数据的方法的又一个实施例的 流程400。 该用于处理数据的方法的流程400, 包括以下步骤: 0079 在步骤410中, 利用预先设置的至少两个基于概率图的模型, 分别确定关联度序 列, 其中, 关联度序列用于表征预先生成的关键字和预先获取的对象集合中的对象的关联 度。 0080 在步骤420中, 对所确定的关联度序列进行融合, 得到融合关联度序列; 0081 在步骤430中, 基于所述融合关联度序列, 从所述对象集合中确定出所述关键字的 说明书 6/12 页 10 CN 110110235 A 10 关联对象。 0082 上述步骤410步骤430可以按照与图2所示实施例中的步骤210步骤。
41、230类似的 方式执行, 在此不再赘述。 0083 在步骤441中, 将第一类关键字和先验概率输入串联的两个概率图模型(PGM, probabilistic graphical model)中的第一个进行计算, 将该第一个概率图模型的输出结 果和第二类关键字输入串联的两个概率图模型中的第二个进行计算, 以获得第一关联度序 列。 0084 在本实施例中, 运行于执行主体(例如, 如图1所示的服务器105)中的基于概率图 的模型包括串联的两个概率图模型, 参考图5所示, 基于概率图的模型中附图标记510示出 的概率图模型可以称为父PGM, 附图标记520示出的概率图模型可以称为子PGM。 0085。
42、 在执行主体执行关联度计算时, 作为本实施例的一种实施方式, 概率图模型510以 第一类关键字和先验概率为输入参数, 确定出第一关键字与对象集合中的对象的关联度。 概率图模型520将概率图模型510确定出的第一关键字与对象集合中的对象的关联度、 以及 第二类关键字作为输入参数, 确定出第一类关键字、 第二类关键字和对象集合中对象的关 联度, 从而得到第一关联度序列。 0086 该步骤441实现了分层次的PGM模型, 后续的子PGM以父PGM的输出结果作为先验概 率, 提高基于此第一关联度序列, 确定关键字关联的对象的准确率。 0087 在步骤442中, 将第一类关键字和第二类关键字中一者、 先。
43、验概率输入并联的两个 概率图模型中一者进行计算, 将第一类关键字和第二类关键字中另一者、 先验概率输入并 联的两个概率图模型中另一者进行计算, 对两个概率图模型的输出结果进行求和, 并对求 和结果归一化以获得第二关联度序列。 0088 在本实施例中, 运行于执行主体(例如, 如图1所示的服务器105)中的基于概率图 的模型包括并联的两个概率图模型, 参考图6所示, 作为本实施例的一种实施方式, 附图标 记610示出的概率图模型以第一类关键字和先验概率为输入参数, 确定出第一关键字与对 象集合中的对象的关联度; 附图标记620示出的概率图模型620以第二类关键字和先验概率 为输入参数, 确定出第。
44、二类关键字与对象集合中的对象的关联度, 然后, 执行主体将第一关 键字与对象集合中的对象的关联度与第二类关键字与对象集合中的对象的关联度进行求 和, 并对求和结果进行归一化, 从而得到第二关联度序列。 0089 该步骤442也实现了分层次的概率图模型, 通过多个PGM基于不同类别的关键字确 定出的关联度, 对多个PGM确定的关联度结果的求和、 归一化处理, 可消除单个PGM由不确定 因素造成的结果偏差, 提高确定关键字关联的对象的准确率。 0090 需要说明的是, 上述步骤441和步骤442仅为本公开实施例的两种优选实施方式, 并不对本公开的技术方案构成任何限制。 0091 在步骤451中, 。
45、计算第一关联度序列和第二关联度序列中对应同一对象的关联度 的平均值或者加权平均值, 将平均值或者加权平均值作为融合关联度, 得到融合关联度序 列。 0092 在本实施例中, 运行于执行主体(例如, 如图1所示的服务器105)中的用于处理数 据的方法还包括对多个基于概率图的模型确定的关联度序列进行融合, 以消除不同的基于 概率图的模型的误差, 降低不确定因素对确定关键字关联的对象的准确率的影响。 说明书 7/12 页 11 CN 110110235 A 11 0093 如本公开的前述实施例中, 关联度为对象集合中的对象在关键字的条件下的条件 概率, 因此, 计算第一关联度序列和第二关联度序列中对。
46、应同一对象的关联度的平均值或 者加权平均值, 实际上, 就是计算两个关联度序列中对应同一个对象的条件概率的平均值 或者加权平均值。 0094 其中, 在计算加权平均值时, 权重的取值根据基于概率图的模型的数量而定, 具体 地, 本实施例中, 基于概率图的模型的数量为两个, 那么权重的取值就在(0,2)之间, 精确度 为小数点后一位。 0095 在步骤452中, 统计第一关联度序列和第二关联度序列中指示任一对象的关联度 的数量, 将数量作为融合关联度, 得到融合关联度序列。 0096 在本实施例中, 以统计的关联度的数量的作为融合关联度, 在统计意义上具有可 信度和可行性性, 并且计算成本较低。。
47、 0097 在步骤460中, 确定融合关联度的最大值对应的对象为关键字的关联对象。 0098 在本实施例中, 作为一种实施方式, 关联度的平均值或者加权平均值的最大值, 即, 对应某一对象的条件概率的最大值, 该最大值表示该对象在对象合集中与关键字关联 的可能性最大。 0099 作为另一种实施方式, 某一对象对应的关联度数量最大, 从统计意义上表明, 该对 象与关键字关联的可能性最大。 0100 在步骤440中, 基于预设规则对确定出的关键字的关联对象进行过滤。 0101 利用预设规则对确定出的对象过滤, 可以进一步过滤掉基于概率图的模型确定的 对象中出现的不合理结果, 从而提高对象集合中确定。
48、出关键字的关联对象的准确性, 即, 提 高预测结果的准确性。 0102 需要说明书的是, 预设规则为相关领域专家根据其所属领域的知识预先设定, 该 预设规则可程序化, 以运行于执行主体(例如, 如图1所示的服务器105)中。 0103 作为一种可选地实施方式, 本公开的用于处理数据的方法可应用于辅助医疗诊 断, 预设规则可以是医学专家根据医学知识预先设定, 用于过滤强症状排除类疾病, 例如, 男性不可能患妇科疾病, 咳嗽20年不可能是急性支气管炎等。 0104 本公开的实施例提供的用于处理数据的方法, 基于概率图的模型可实现分层概率 图模型计算, 并且将不同概率图模型确定出的关联度序列进行融合。
49、, 可以消除个别概率图 的模型存在的误差, 提高确定关键字的关联对象的准确率, 此外还包括对确定出的关联对 象进行基于预设规则的过滤, 以过滤掉对象中的不合理结果, 以进一步提高预测的准确率。 0105 继续参见图7, 图7是根据本实施例的用于处理数据的方法的应用场景的一个流程 700。 该应用场景的流程700, 包括以下步骤: 0106 步骤701、 接收病历文本。 0107 执行主体(例如, 如图1所示的服务器105)接收终端发送的病历文本。 用户(例如, 医生)通过终端(例如图1所示的终端101、 102、 103)输入病历文本, 该病历可以为电子病历。 0108 步骤702、 自然语言。
50、处理。 0109 执行主体包括自然语言处理单元, 自然语言处理单元内集成智能算法, 执行主体 利用该自然语言处理单元对接收到的病历文本进行解析, 并基于解析结果提取病症。 0110 步骤703步骤704。 说明书 8/12 页 12 CN 110110235 A 12 0111 执行主体的自然语言处理单元执行步骤703和步骤704, 对病症分类, 获得正向病 症和负向病症, 即, 实现正向病症提取和负向病症的提取。 其中, 正向病症为患者已经出现 的病症, 负向病症为患者未出现的病症。 0112 例如, 病历输入如下: 间歇性右上腹痛十余年, 复发加重两个月; 伴有恶心、 呕吐; 无发热、 寒。
- 内容关键字: 用于 处理 数据 方法 装置
快装预应力锚索.pdf
电池级碳酸锂制备用的烧结设备.pdf
研磨用高效除尘装置.pdf
新型罩杯间距可调的文胸.pdf
防卡板结构.pdf
卧式微波辅助酸碱预处理秸秆的装置.pdf
建筑工程用混凝土回弹仪的弹击杆校准装置.pdf
转移基膜纸及其制备系统、包装膜及其制备系统.pdf
防水卷材成卷后的捆扎装置.pdf
介质加载腔体滤波器.pdf
乳制品自动检测系统与智慧实验室.pdf
屠宰刀具全方位消毒器.pdf
循环气幕集气装置.pdf
含油污泥处理加药装置.pdf
Z轴带双R轴切换作业机构及点胶机.pdf
急诊实验室自动化样本处理及检测系统.pdf
零件3D扫描辅助旋转台.pdf
圆柱电池盖帽焊接工装.pdf
建筑施工土方开挖基坑防护装置.pdf
睡眠感知音乐理疗系统.pdf
自动计数立盒机.pdf
扬声器.pdf
电池钢壳清洗用滚筒机构.pdf
便携式应急LED灯.pdf
超声手术器械.pdf
胸腔镜镜头清洁装置.pdf
工业硅破碎除杂装置.pdf
具有多环境模拟功能的混凝土性能检测装置.pdf
自动纠偏修正的防水卷材绕卷装置.pdf
基于离心过滤洗涤的碳酸锂回收设备.pdf
绝缘电缆料生产设备.pdf
电厂脱硫废水的处理方法.pdf
罐式矢量无负压供水设备.pdf
护栏墩.pdf
一种混合动力清扫车.pdf
进步警卫门.pdf
压裂抽汲联作排液泵密封装置.pdf
格构式单排配筋异形截面混凝土柱墙板减震房屋.pdf
一种多功能梯子.pdf
一种木塑门框型材.pdf
一种带有预埋件的混凝土预制共同沟.pdf
钢丝网片弯折成型式配筋十字形截面混凝土柱.pdf
桩基钢筋笼及砼灌注料斗的固定装置.pdf
一种脚手架快速连接件.pdf
自调角度螺旋肋注浆锚索总成.pdf
电力维修现场用安全围栏.pdf
自动落水箱.pdf
模块式多向变位梳齿形桥梁伸缩装置.pdf
一种高效电磁防蜡处理器.pdf
建筑外墙用的超轻发泡水泥保温装饰一体板.pdf
超薄超大室内装饰板的装饰墙体.pdf