《对准文档的字段的注解.pdf》由会员分享,可在线阅读,更多相关《对准文档的字段的注解.pdf(18页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103999079 A (43)申请公布日 2014.08.20 C N 1 0 3 9 9 9 0 7 9 A (21)申请号 201180075990.X (22)申请日 2011.10.27 G06F 17/21(2006.01) G06F 17/00(2006.01) (71)申请人惠普发展公司,有限责任合伙企业 地址美国德克萨斯州 (72)发明人 S.戈兰 O.巴科尔 R.伯格曼 I.科亨 G.诺伊 (74)专利代理机构中国专利代理(香港)有限公 司 72001 代理人张凌苗 胡莉莉 (54) 发明名称 对准文档的字段的注解 (57) 摘要 本发明提供了对准。
2、文档的字段的注解的方法 和系统。访问训练信息,该训练信息包括关于与针 对文档类型的文档的训练群集相关联的多个字段 中的每个的特征的第一测量信息的。以第一名称 对第一训练群集进行注解并且以第二名称对第二 训练群集进行注解。基于训练信息生成电子分类 模型。访问用于与新文档的新群集相关联的字段 的特征的第二测量信息。基于第二测量信息使用 分类模型对新群集中的每个自动地注解。例如,以 第一名称对具有第一字段类型的字段的第一新群 集进行注解并且以第二名称对具有第二字段类型 的字段的第二新群集进行注解。 (85)PCT国际申请进入国家阶段日 2014.06.27 (86)PCT国际申请的申请数据 PCT/。
3、US2011/058043 2011.10.27 (87)PCT国际申请的公布数据 WO2013/062550 EN 2013.05.02 (51)Int.Cl. 权利要求书2页 说明书11页 附图4页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书11页 附图4页 (10)申请公布号 CN 103999079 A CN 103999079 A 1/2页 2 1. 一种对准文档的字段的注解的方法,所述方法包括: 访问包括关于与针对文档类型的文档的训练群集相关联的多个字段中的每个的特征 的第一测量信息的训练信息,其中以第一名称对与第一字段类型相关联的第一训练群。
4、集进 行注解,并且以第二名称对与第二字段类型相关联的第二训练群集进行注解; 基于训练信息生成电子分类模型; 访问针对与新文档的新群集相关联的字段的特征的第二测量信息;以及 基于第二测量信息使用分类模型由计算机系统执行对新群集中的每个进行自动地注 解,其中以第一名称对具有第一字段类型的字段的第一新群集进行注解并且以第二名称对 具有第二字段类型的字段的第二新群集进行注解。 2. 如权利要求1所述的方法,其中所述方法进一步包括: 基于在与新文档相关联的字段之间的相似性测量生成新群集。 3. 如权利要求2所述的方法,其中生成新群集进一步包括: 基于表示包括针对与新文档相关联的字段中的每个的子树的新文档。
5、的分层树结构生 成新群集。 4. 如权利要求2所述的方法,其中新群集的生成进一步包括: 基于针对与新文档相关联的字段中的每个的特征的测量生成新群集。 5. 如权利要求1所述的方法,其中所述方法进一步包括: 访问针对与附加的新文档的附加新群集相关联的字段的特征的第三测量信息;以及 基于第三测量信息使用分类模型由计算机系统执行对附加新群集中的每个进行自动 地注解,其中以第一名称对具有第一字段类型的字段的第一附加新群集进行注解,并且以 第二名称对具有第二字段类型的字段的第二附加新群集进行注解。 6. 一种用于对准文档的字段的注解的系统,所述系统包括: 计算机处理器; 字段特征测量部件,其被配置用于访。
6、问群集并且被配置用于生成关于与群集相关联的 多个字段中的每个的特征的测量信息,其中每个群集与同文档类型的文档相关联的字段的 不同类型相关联; 群集分类部件,其被基于训练信息生成的分类模型配置,其中训练信息包括关于与针 对文档类型的训练文档的注解的训练群集相关联的多个字段中的每个的特征的第一测量 信息,其中以第一名称对第一注解的训练群集进行注解,因为第一注解的训练群集的字段 与第一字段类型相关联,并且以第二名称对第二注解的训练群集进行注解,因为第二注解 的训练群集的字段与第二字段类型相关联;以及 群集分类部件,其被配置用于访问针对与文档类型的新文档的第一与第二新群集相关 联的字段的特征的第二测量。
7、信息,并且被配置用于基于第二测量信息使用分类模型自动地 注解新群集中的每个,其中以第一名称对具有第一字段类型的字段的第一新群集进行注解 并且以第二名称对具有第二字段类型的字段的第二新群集进行注解。 7. 如权利要求6所述的系统,其中系统进一步包括字段到群集分配部件,其被配置用 于基于在字段之间的相似性测量生成与文档相关联的群集。 8. 如权利要求7所述的系统,其中字段到群集分配部件进一步被配置用于基于在针对 与新文档相关联的字段中的每个的子树之间的相似性测量生成新群集,其中子树与表示新 权 利 要 求 书CN 103999079 A 2/2页 3 文档的分层树结构相关联。 9. 如权利要求8所。
8、述的系统,其中相似性测量是在子树中的两个之间的编辑距离。 10. 如权利要求7所述的系统,其中字段到群集分配部件进一步被配置用于基于针对 与新文档相关联的字段中的每个的特征的测量生成新群集。 11. 如权利要求6所述的系统,其中所述系统进一步包括信息提取部件,其被配置用于 从与第一名称以及第二名称相关联的新文档提取信息。 12. 非瞬时性计算机可读存储介质,其具有存储在其上的用于使得计算机系统来执行 对准文档的字段的注解的方法的计算机可执行指令,所述方法包括: 访问包括关于与针对文档类型的文档的训练群集相关联的多个字段中的每个的特征 的第一测量信息的训练信息,其中以第一名称对与第一字段类型相关。
9、联的第一训练群集进 行注解,并且以第二名称对与第二字段类型相关联的第二训练群集进行注解; 基于训练信息生成电子分类模型; 访问针对与新文档的新群集相关联的字段的特征的第二测量信息;以及 基于第二测量信息使用分类模型由计算机系统执行对新群集中的每个进行自动地注 解,其中以第一名称对具有第一字段类型的字段的第一新群集进行注解并且以第二名称对 具有第二字段类型的字段的第二新群集进行注解。 13. 如权利要求12所述的非瞬时性计算机可读存储介质,其中新群集的生成进一步包 括: 基于在针对与新文档相关联的字段中的每个的子树之间的相似性测量生成新群集,其 中子树与表示新文档的分层树结构相关联。 14. 如。
10、权利要求13所述的非瞬时性计算机可读存储介质,其中相似性测量是在子树对 之间的编辑距离。 15. 如权利要求12所述的非瞬时性计算机可读存储介质,其中新群集的生成进一步包 括: 基于针对与新文档相关联的字段中的每个的特征的测量生成新群集。 权 利 要 求 书CN 103999079 A 1/11页 4 对准文档的字段的注解 背景技术 0001 存在用于以适当名称对文档中对信息进行注解的自动或人工的各种类型的技术。 例如,存在对来自单个站点的信息进行定位、对来自单个站点的定位的信息进行分析和注 解的自动技术。然后针对第二web站点再次重复整个过程。然而,这些自动化技术导致不 同的名称用于相同类型。
11、的字段,因为它们在web站点中使用提示来确定名称。例如,一个 web站点可以将一个类型的字段当作用户,另一web站点可以将相同类型的字段当作作者, 并且第三web站点可以将相同类型的字段当作发帖者(poster)。在另一示例中,一个web 站点可以将字段当作标题并且另一web站点可以将相同类型的字段当作主题。 0002 也存在依赖于人工过程的技术。例如,个人可以人工地考察web站点并且找到到 作者的web页面的链接以及到作者的名称的另一链接。 附图说明 0003 图1描绘了根据一个实施例的、在一个时段上与组织相关联的多个用户生成的历 史事件数据。 0004 图1描绘了根据一个实施例的、用于对准。
12、文档的字段的注解的系统。 0005 图2描绘了根据一个实施例的、针对web站点的论坛发帖(post)以及相关联的 DOM。 0006 图3描绘了根据各种实施例的三个图。 0007 图4描绘了根据一个实施例的、对准文档的字段的注解的方法的流程图。 0008 除非特别注明,在该简短描述中参考的图不应被理解为按比例绘制。 具体实施方式 0009 现在将详细地做出对主题的各种实施例的参考,在附图中图示其示例。虽然本文 讨论了各种实施例,但是将理解不意图将它们限制到这些实施例。反之,意图使呈现的实施 例涵盖可以被包括在如通过所附权利要求书限定的各种实施例的精神与范围之内的替代、 修改以及等同。更进一步地。
13、,在下文的实施例的描述中,记载了许多具体的细节以便提供本 主题的实施例的彻底的理解。然而,可以在没有这些具体细节的情况下实行实施例。在其 他情况下,没有详细描述众所周知的方法、过程、部件以及电路,从而没有不必要地模糊描 述的实施例的方面。 0010 除非特别声明,否则如从以下讨论显而易见的那样,应理解贯穿实施例的描述,利 用诸如“检测”、“确定”、“操作”、“使用”、“访问”、“比较”、“相关联”、“删除”、“添加”、“更新”、 “接收”、“传输”、“输入”、“输出”、“创建”、“获得”、“执行”、“存储”、“生成”、“注解”、“提取”、 “引起”、“变换数据”、“修改数据来变换计算机系统的状。
14、态”等等的术语的讨论是指计算机系 统、数据存储系统、存储系统控制器、微控制器、处理器或者类似的电子计算设备或者这样 的电子计算设备的组合的动作和过程。计算机系统或类似的电子计算设备被表示为在计算 机系统的/设备的寄存器和存储器之内的物理(电子)量的数据进行操纵以及变换成类似地 说 明 书CN 103999079 A 2/11页 5 被表示为在计算机系统的/设备的存储器或寄存器或其他这样的信息存储、传输或显示设 备之内的物理量的其他数据。 0011 综述 根据各种实施例,提供了用于对准文档的字段的注解的一种方法与系统。例如,属于相 同类型的文档的多个文档被用于基于通过分析文档获得的训练信息来生成。
15、电子分类模型。 文档类型的示例包括新闻、游戏、发票以及信息技术。在该情况下,针对CNN、BBC以及纽约 时报的文档是相同类型的文档的示例,因为它们全部是新闻类型文档。 0012 如本文讨论的,页面可以具有与字段相关联的名称。如在以下的表1中描绘的。 0013 表1描绘了训练web页面的字段类型 第一训练web页面第二训练web页面第三训练web页面第四训练web页面 第一字段类型用户作者发帖者 第二字段类型主题标题标题 第三字段类型消息体帖子 0014 例如,参考表1,第一web页面可以将第一类型的字段当作标题,并且第二web页面 可以将相同类型的字段当作主题。因此,第一类型的字段将被当作“标。
16、题/主题”类型字段。 在另一示例中,第一web页面可以将第二类型的字段当作消息,第二web页面可以将第二类 型的字段当作体,并且第三web页面可以将第二类型的字段当作帖子(post)。因此,该第 二类型的字段将被当作“消息/体/帖子”类型的字段。在又一示例中,第一web页面可以 将第三类型的字段当作用户,第二web页面可以将第三类型的字段当作作者,并且第三web 页面可以将第三类型的字段当作发帖者。因此,该第三类型的字段将被当作“用户/作者/ 发帖者”类型的字段。在又一个示例中,第四web页面可以包括“消息/体/帖子”、“标题/ 主题”以及“用户/作者/发帖者”类型的字段中的任何一个或多个,但。
17、是可以不包括针对 那些字段的名称的任何提示。 0015 根据各种实施例,与文档的训练集合相关联的字段被分配到群集(cluster),使得 每个群集针对字段的类型。例如,可以存在针对用户/作者/发帖者类型字段的第一训练 群集、针对标题/主题类型字段的第二训练群集以及针对消息/体/帖子类型字段的第三 训练群集。然后,可以由人根据群集的字段类型对群集进行注解。例如,人可以以“作者”对 第一训练群集进行注解,以“标题”对第二训练群集进行注解,并且以“消息”对第三训练群 集进行注解。 0016 可以测量与训练群集相关联的每个字段的特征。群集中每个的字段的特征的测量 也被称作“训练信息”。根据一个实施例,。
18、基于学习的分类器接收训练信息并且基于训练信 息生成电子分类模型。 0017 例如,可以通过将新web页面的字段分配到群集(本文也称作“新群集”)、测量新 群集中每个的字段的特征并且基于新群集中每个的字段的特征测量信息使用分类模型来 对新群集进行注解来对新web页面的字段进行注解。例如,假设新web页面具有新web页 面分别地当作用户、主题以及体的字段。针对新群集中每个的字段的特征测量可以与针对 训练群集中每个的字段的特征测量比较,来对准新群集的注解与训练群集的注解。更具体 地,用于新web页面的新群集可以被注解为作者、标题以及消息,而不是用户、主题以及体。 0018 虽然训练web页面与新we。
19、b页面可以包括字段的名称或者关于字段的名称的提 示,但是各种实施例不使用或者要求字段名称或者提示。继续示例,虽然新web页面可以包 说 明 书CN 103999079 A 3/11页 6 括指示该字段是针对用户、主题以及标题的字段的提示或名称,但各种实施例不使用或者 要求与新web页面相关联的字段名称或者提示,而是基于相似性测量使新web页面的字段 聚集(cluster),对新web页面的字段进行分类并且基于人分配到训练web页面的字段的字 段名称对新web页面的字段进行注解,这将变得更明显。 0019 虽然在是web页面的文档的上下文中将描述许多实施例,但是在诸如纸质文档、 字文档(word。
20、 document)或web页面的许多不同类型的文档的上下文中,可以使用各种实施 例。根据一个实施例,不要求被注解的文档具有相同的格式。例如,除其他之外,在两个不 同文档中的用户/作者/发帖者类型字段可以位于各个文档上的不同位置。进一步地,文 档可以来自不同的源。 0020 系统 图1描绘了根据一个实施例的、用于对准文档的字段的注解的系统100。在图1中的表 示特征的块可以被布置得不同于如图示的,并且可以实现附加的特征或者少于本文描述的 特征的特征。进一步地,可以以各种方式组合由在图1中的块表示的特征。可以使用硬件、 硬件以及软件、硬件以及固件或者它们的组合来实现系统100。 0021 出于说。
21、明系统100的目的,文档是web页面。然而,除其他以外,各种实施例良好 地适合于其他类型的文档,诸如纸质文档、字文档。 0022 系统100包括字段到群集分配部件110、字段特征测量部件120以及群集分类部件 130。 0023 在1处,字段到群集分配部件110接收是相同类型的文档的训练web页面141。如 在图1中描绘的,存在四个训练web页面141A、141B、141C、141D。为了简单,将在四个训练 web页面141A-141D的上下文中描述各种实施例。在实际实践中,可以使用来自每个web站 点的大数量的web页面。例如,可以存在来自5个或更多web站点的大约100个web页面。 训练。
22、web页面141A-141D中的每个都包括三个类型的字段,所述三个类型的字段包括关于 如在以下表2中描绘的那些字段名称的提示。 0024 表2描绘了训练web页面的字段类型 训练web页面141A训练web页面141B训练web页面141C训练web页面141D 第一字段类型用户作者发帖者 第二字段类型主题标题标题 第三字段类型消息体帖子 0025 虽然四个训练web页面141A-D具有相同类型的字段,但是训练web页面141A-D 包括针对相同类型的字段的不同提示。例如,假设训练web页面141A-141C将第一字段类 型分别当作用户、作者以及发帖者。在另一示例中,训练web页面141A-1。
23、41C将第二字段类 型分别当作主题、标题以及标题。在又一示例中,训练web页面141A-141C将第三字段类型 分别当作消息、体以及帖子。针对与训练web页面141D相关联的三个字段类型的字段是空 白的,因为训练web页面141D不包括字段的提示或名称。 0026 字段到群集分配部件110如本文讨论的那样生成训练群集143。例如,根据一个 实施例,来自训练web页面141A-141D的针对第一类型的字段与第一训练群集相关联,来 自web页面141A-141D的针对第二类型的字段与第二训练群集相关联,并且来自web页面 141A-141D的针对第三字段类型的字段与第三训练群集相关联。 0027 。
24、根据一个实施例,在2处,人类训练者150接收训练群集143并且对训练群集 说 明 书CN 103999079 A 4/11页 7 143进行注解,从而产生注解的训练群集144。出于说明的目的,假设人类训练者150将 第一训练群集注解为作者,将第二训练群集注解为标题,并且将第三训练群集注解为信使 (messenger)。 0028 在3处,字段特征测量部件120接收注解的训练群集144并且生成以及输出训练 信息145。 0029 在4处,基于学习的分类器160接收训练信息并且生成电子分类模型147。基于学 习的分类器160的示例是唤醒(Wake Up)。 0030 在5处,群集分类部件130接收。
25、并且被配置有分类模型147。根据一个实施例,在 该点处,系统100被配置成自动地对新web页面142进行注解,并且因此不要求就人类而言 的人工干预。 0031 在6处,字段到群集分配部件110接收新web页面142。出于说明的目的假设新 web页面142包括第一字段类型是“用户”、第二字段类型是“主题”以及第三字段类型是 “体”的提示。根据各种实施例,字段到群集分配部件110针对新web页面142生成新群集 149,如本文讨论的那样。 0032 在7处,字段特征测量部件120接收新群集149,分析与新群集149相关联的字段 来确定与新web页面142的字段相关联的测量信息146。如本文讨论的那。
26、样,除其他之外, 测量信息146可以是每字段的或者每页的。 0033 在8处,群集分类部件130接收针对新web页面142的测量信息146,并且使用测 量信息146来对新web页面142进行注解,从而产生在9处的注解的新web页面148,所述 注解的新web页面148与训练web页面141对准。例如,以与注解的训练群集144相同的 名称“作者”、“标题”以及“消息”注解经注解的新web页面。 0034 虽然图1描绘了训练群集143在被分类之前被注解,但是训练群集143可以在被 注解之前被分类。 0035 根据一个实施例,诸如训练web页面141与新web页面142的训练文档以及新文 档是非结构。
27、化(unstructured)或者半结构化的。根据一个实施例,结构化的文档是所有的 字段都具有诸如“作者”、“日期”、“体”等等的名称的文档。根据各种实施例,不使用或者不 要求通过文档指定的字段的名称。例如,如本文讨论的那样,各种实施例例如基于相似性测 量将群集中的字段分组并且然后对群集分类,而不是使用文档自身指定或提示的字段的名 称。进一步地,各种实施例良好地适合于训练web页面141或者没有指定或暗示字段名称 的新web页面142,这将变得更明显。 0036 例如,根据一个实施例,训练web页面141D具有与字段类型相关联的空白。进一步 地,各种实施例良好地适合于对不具有字段的名称或者针对。
28、字段的提示的新web页面142 进行注解。例如,根据各种实施例,即使不存在与新web页面142相关联的、指示各个字段 被命名如在图1中描绘的用户、主题、体的提示或字段名称,各种实施例也良好地适合于基 于字段名称“作者”、“标题”以及“消息”,例如通过聚集、分类以及注解来对新web页面142 的各个字段进行注解。 0037 系统100也可以包括信息提取部件,其用于从与名称相关联的web页面142提取 信息,系统100以所述名称对web页面142进行注解。 0038 根据一个实施例,文档可以来自不同的源。例如,web页面141、142中的两个或更 说 明 书CN 103999079 A 5/11页。
29、 8 多可以来自不同的源。根据一个实施例,不使用、不知道或者不要求web页面141、142的源。 0039 聚集 如本文讨论的,根据一个实施例,训练web页面141以及新web页面142的字段在群集 中被分组。根据一个实施例,基于相似性测量将字段分配到群集。除其他之外,相似性测量 可以基于在编辑距离中的相似性或者在特征的测量中的相似性。 0040 根据一个实施例,域对象模型(DOM)可以被用作获得在字段之间的编辑距离的一 部分。DOM是表示web页面的分层结构,也被称作“树”。每个DOM具有单个根以及子树,其 中子树中的每个都表示DOM表示的web页面的字段。可以针对相似性分析子树来定位类似 。
30、的字段。 0041 图2描绘了根据一个实施例的、针对web站点的论坛帖子以及相关联的DOM。如 在图2中描绘的,论坛帖子210A、210B针对相同web站点的两个web页面,其中每个论坛帖 子210A、210B都具有相关联的DOM 220A、220B。论坛帖子210A具有DOM 220A并且论坛帖 子210B具有DOM 220B。DOM 220A、220B两者都具有通过位于各个DOM 220A、220B的顶部的 TR标记表示的根。论坛帖子210A、210B两者都分别地包括三个类型的字段,其继续说明是 针对字段210U、210V的用户/作者/发帖者类型字段,针对字段210W、210X的日期/时间。
31、 戳类型字段以及针对字段210Y、210Z的消息/体/帖子类型字段。 0042 各个DOM 220A、220B中的每个都具有表示三个字段类型的三个子树。例如,子树 220U与220V分别表示字段210U、210V,子树220W与220X分别表示字段210W、210X,并且子 树220Y、220Z分别表示字段210Y、210Z。 0043 根据一个实施例,编辑距离是被用于将一个子树变换成另一子树的编辑操作的最 小数量。可以取决于应用,使用用于确定编辑距离的规则。例如,根据一个实施例,编辑操 作的允许的类型包括在没有改变树的根的情况下添加标签、删除标签、替换标签。例如,为 了将子树220U转变成子。
32、树220V,可以使用两个编辑操作来删除IMG与BR标签。因此,根据 一个实施例,在子树220U与220V之间的编辑距离是二。在另一示例中,子树220W与220X 是相同的。因此,在子树220W与220X之间的编辑距离是零。 0044 根据一个实施例,当两个子树完全不同时,使用非常大的编辑距离。例如,根据一 个实施例,子树220U完全不同于子树220Z。因此,根据一个实施例,它们之间的编辑距离是 非常大的。 0045 根据一个实施例,比较所有的子树对。例如,每个节点可以作为其自己的子树的 “根”来对待。如在图2中描绘的,DOM 220A包括大约17个子树并且表示3个字段。根据 一个实施例,比较了。
33、子树。根据一个实施例,在找到树群集之后,每个群集成员可以作为字 段被对待。 0046 出于说明的目的,假设字段210U与210V将被分配到第一群集,字段210W与210X 将被分配到第二群集并且字段210Y与210Z将被分配到第三群集。 0047 根据一个实施例,虽然可以将DOM用作将字段分组成群集的一部分,但是根据一 个实施例,在已经将字段分组成群集之后不使用或要求DOM。例如,根据一个实施例,如本文 描述的,不使用或要求DOM用于分类、用于注解或者用于提取。 0048 也可以出于将字段分配到群集的目的使用确定在字段之间的相似性测量的其他 方法。例如,可以测量字段的特征来确定在字段之间的相似。
34、性。针对字段的特征测量可以 说 明 书CN 103999079 A 6/11页 9 以每字段为基础或者以每页为基础。每字段的特征测量的示例包括字段的长度、字段的垂 直位置、字段的水平位置、字段的区域、字段的字体大小、字段的散列值、诸如除其他之外的 图像或日期的字段的元素类型以及字段位于的页码。每页的特征测量的示例包括平均值、 最小值、最大值、熵、不同值(distinct value)的数量以及不同值的百分比。特征的其他示 例包括字段的可视结构以及字段的值。例如,除其他之外,值是量、日期或者地址可以是明 显的。 0049 根据一个实施例,阈值用作将字段分配到群集的一部分。例如,阈值可以是被用于 。
35、将一个子树变换成另一子树的编辑操作的数量。如果在两个子树之间的编辑距离在阈值之 下,则将针对各个子树的字段分配到相同的群集。在另一示例中,阈值可以是针对一个字段 的特征测量与另一字段的特征测量有多相似的测量。 0050 根据一个实施例,相同的阈值用于针对web站点类型的所有群集的所有字段。例 如,相同的阈值可以被用于涉及新闻的web站点,并且另一阈值可以被用于涉及游戏的web 站点。然而,相同的阈值可以被用于新闻相关的web站点和游戏相关的web站点。 0051 根据一个实施例,经验的方法被用作确定阈值的一部分。例如,人类训练者150可 以确定与训练web页面141相关联的训练群集143。因为。
36、人类训练者150确定了群集143, 所以可以假设群集143已经被准确地确定。然后可以使用阈值来基于该阈值而查看自动化 聚集过程如何分配群集以将训练web页面141输入到诸如系统100的自动化的聚集过程。 如果自动化的聚集过程将相似的字段分配到不同于人类训练者150确定的群集,则阈值可 以被调整并且可以对训练web页面141再次执行该自动化的过程。可以以不同的阈值迭代 地执行过程直到通过自动化聚集过程确定的群集与由人类训练者150确定的那些群集相 同或几乎相同为止。 0052 生成用于训练的群集 根据一个实施例,基于训练信息145生成分类模型147。根据一个实施例,训练信息145 包括以每web。
37、页面每群集为基础的字段的特征的测量。例如,训练web页面141可以包括 具有每web站点大约100个web页面的5个web站点。 0053 根据各种实施例,可以将与训练web页面142相关联的字段自动地分配到训练群 集143,使得每个训练群集143都包括一个类型的字段。更具体地,假设存在具有如在表2 中描绘的三个类型的字段的在图1中描绘的四个训练web页面141A-141D。 0054 虽然四个训练web页面141A-D具有相同类型的字段,但是训练web页面141A-D包 括针对相同类型的字段的不同提示。例如,假设训练web页面141A-141C将第一字段类型 分别当作用户、作者以及发帖者。在。
38、另一示例中,训练web页面141A-141C将第二字段类型 分别当作主题、标题以及标题。在又一示例中,训练web页面141A-141C将第三字段类型分 别当作消息、体以及帖子。针对与训练web页面141D相关联的三个字段类型的字段是空白 的,因为训练web页面141D不包括字段的提示或名称。根据一个实施例,来自训练web页 面141A-141D的针对第一类型的字段与第一训练群集相关联,来自web页面141A-141D的 针对第二类型的字段与第二训练群集相关联,并且来自web页面141A-141D的针对第三类 型的字段类型与第三训练群集相关联。 0055 注解训练群集 根据一个实施例,人类训练者。
39、150可以将名称分配(也被称作“注解”)到训练群集 说 明 书CN 103999079 A 7/11页 10 143中的每个。例如,人类训练者可以决定将“作者”分配到第一训练群集,将“标题”分配 到第二训练群集,并且将“消息”分配到第三训练群集,因此,对准针对四个训练web页面 141A-141D的字段的注解。 0056 根据一个实施例,对训练信息进行注解不是人工密集(manually intense)的。例 如,人类训练者150可以将名称与群集相关联并且然后可以将该名称自动地与群集相关联 的每个字段相关联。这大大减少人类训练者150将执行的人工工作量。 0057 针对训练群集的特征的测量 根。
40、据一个实施例,确定针对在训练群集143中的字段中每个的特征的测量,从而产生 训练信息145。可以每字段地或者每web页面地测量特征。除其他之外,针对字段的特征测 量的示例包括字段的长度、字段的垂直位置、字段的水平位置、字段的区域、字段的字体大 小。除其他之外,特征测量的示例包括平均值、最小值、最大值。 0058 图3描绘了根据各种实施例的三个图。根据各种实施例,它们是针对与训练群集 143相关联的字段的特征的测量的图310、针对与新群集149相关联的字段的特征的测量的 图320(也被称作“基于群集的分类”)以及在图320中的相同字段在没有聚集的情况下的 图330(也被称作“基于元素的分类”)。。
41、 0059 根据一个实施例,图310描绘了针对训练群集143的特征的测量。如在图310中 描绘的,每个记号表示字段。每个记号与一个类型的记号相关联。如在图C上描绘的,存在 两个类型的记号,圆圈以及十字。因此,每个记号都是圆圈或者十字。记号的类型表示群集 143A、143B以及记号与其相关联的相关联的字段类型。 0060 出于简单的目的,如在图310中描绘的,存在两个轴,x轴与y轴,因为训练信息 145将包括每字段两个测量。然而,根据各种实施例,实施例良好地适合于测量为了出于分 类群集的目的生成分类模型147将适合的那样多的针对字段中每个的特征。 0061 根据一个实施例,由人类训练者150来对。
42、训练群集143A与143B进行注解,从而产 生注解的训练群集144。出于说明的目的,假设通过圆圈表示的训练群集143A被注解为“标 题”,并且通过十字表示的训练群集143B被注解为“作者”。 0062 分类模型 参考图1,根据一个实施例,基于学习的分类器160接收训练信息145并且生成分类模 型147。除其他之外,基于学习的分类器160的示例包括唤醒。根据一个实施例,基于包括 关于与训练web页面141的训练群集143相关联的每个字段的特征的测量的训练信息145 生成分类模型147。因此,根据一个实施例,除其他之外,分类模型147具有关于训练群集 143的信息、对训练群集143中的每个进行注解。
43、的名称以及针对训练群集143中的每个的特 征测量。 0063 生成新群集 通过以分类模型147配置群集分类部件130,系统100准备接收新web页面142来自动 地生成针对新web页面的新群集149、自动地分类那些新群集149并且自动地对新web页面 142进行注解。如本文讨论的,可以使用使用相似性测量的各种实施例,相似性测量诸如编 辑距离或者在特征测量中的相似性。 0064 根据一个实施例,通过检验来自相同web站点的web页面来获得群集。然而,实施 例也良好地适合于针对来自多于一个web站点的web页面生成群集。 说 明 书CN 103999079 A 10 8/11页 11 0065 分。
44、类新群集 已被以分类模型147配置的分类模型147可以用于分类与新web页面142相关联的新 群集149。 0066 根据一个实施例,在分类之前,字段类型未知。然而,根据一个实施例,在分类之前 已知新群集149中的每个都表示不同类型的字段。根据一个实施例,可以使用分类来确定 与新群集149中的每个相关联的字段类型。 0067 更具体地,如本文讨论的,可以测量针对新web页面142的新群集149的字段的特 征,从而产生测量信息146。可以通过分类模型147来接收针对新web页面142的新群集 149的字段的测量信息146。例如包括新群集149中每个的字段的特征测量的测量信息146 可以与针对注解。
45、的训练群集144中每个的字段的特征测量比较,来确定新群集149如何与 训练群集143相互关联。 0068 图3描绘了根据一个实施例的、针对新群集149A、149B的特征的测量的图320。每 个记号表示字段并且与记号的类型相关联。如在图320上描绘的,存在两个类型的记号,正 方形以及三角形。因此,每个记号是正方形或者三角形。记号的类型表示群集149A、149B 并且表示记号与之相关联的相关联的字段类型。 0069 出于简单的目的,如在图320中描绘的,存在两个轴,x轴与y轴,因为针对新web 页面142的测量信息146将包括每字段两个测量。然而,根据各种实施例,实施例良好地适 合于测量将适合于分。
46、类新群集149的目的那样多的针对每个字段的特征。 0070 如在图320中描绘的,不同类型的某些记号是紧靠在一起的。例如,正方形以及三 角形中的某些是紧靠在一起的。根据一个实施例,这指示基于每个单独的字段的特征来单 独地确定针对每个单独的字段的分类(在本文中也被称作“基于元素的分类”)可能是困难 的。图330描绘了表示相同字段的记号,所述表示相同字段的记号在图320中被描绘,除了 在图330中的所有记号全是点以外,图示了在基于每个单独的字段的特征来单独地分类字 段中涉及的困难。 0071 然而,根据一个实施例,字段在被分类之前被聚集。因此,根据一个实施例,两个新 群集149A、149B中的每个。
47、与不同类型的字段相关联。根据一个实施例,分类字段的群集比 分类单独的字段容易,其中每个群集包括一个类型的字段。例如,虽然如在图320中所示, 某些正方形与三角形是紧靠在一起的,但是正方形记号是进一步向左的,并且三角形记号 是进一步向右的。该模式可以和与图310相关联的模式比较,所述图310与训练信息145相 关联。因此,在新群集149A、149B已被分类以后,根据一个实施例,已知正方形新群集149A 与圆圈训练群集143A相关,因为它们两者都被定向为更朝向左,并且三角形新群集149B与 十字训练群集143B相关,因为它们两者都被定向为更朝向右。 0072 如在图320中图示的,群集的分类也被称。
48、作“基于群集的分类”。 0073 自动注解 根据一个实施例,在已经使用分类确定新群集149如何对应于训练群集145之后,可以 基于与注解的训练群集144相关联的名称对新群集149进行注解。根据一个实施例,以与 训练群集143的名称对准的名称对新web页面142自动地进行注解。例如,如在图1中描 绘的,假设新web页面142具有字段,其中新web页面142将各个字段当作用户、主题以及 体。根据各种实施例,新web页面142的字段可以被自动地聚集。继续示例,假设以作者、 说 明 书CN 103999079 A 11 9/11页 12 标题以及消息对注解的训练群集144进行注解,并且原始的新web页。
49、面142包括指示其字 段类型被命名为用户、主题以及体的信息,可以以作者、标题以及消息,而不是用户、主题以 及体对针对新web页面142的新群集149进行注解。 0074 参考图3,如本文讨论的,正方形新群集149A以及圆圈训练群集143A两者都定向 为更朝向左,并且三角形新群集149B以及十字训练群集143B两者都定向为更朝向右。可 以使用该模式来对正方形新群集149A以及三角形新群集149B自动地进行注解。例如,圆 圈训练群集143A被注解“标题”并且十字训练群集143B被注解“作者”。因此,根据一个实 施例,正方形新群集149A将被注解“标题”并且三角形新群集149B将被注解“作者”,因此, 将新群集149A、149B的注解与训练群集143A、143B对准。 0075 如可见的那样,如果接收到附加的新web页面142,则附加的新web页面142的注 解也将与训练群集143的注解以及先前注解的新web页面142对准。 0076 根据一个实施例,可以使用对准的名称来从新web页面14。