词汇标签的确定方法及系统和查询语句的生成方法及系统.pdf

上传人:倪** 文档编号:14526557 上传时间:2024-05-19 格式:PDF 页数:17 大小:910.98KB
收藏 版权申诉 举报 下载
词汇标签的确定方法及系统和查询语句的生成方法及系统.pdf_第1页
第1页 / 共17页
词汇标签的确定方法及系统和查询语句的生成方法及系统.pdf_第2页
第2页 / 共17页
词汇标签的确定方法及系统和查询语句的生成方法及系统.pdf_第3页
第3页 / 共17页
文档描述:

《词汇标签的确定方法及系统和查询语句的生成方法及系统.pdf》由会员分享,可在线阅读,更多相关《词汇标签的确定方法及系统和查询语句的生成方法及系统.pdf(17页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410001166.9(22)申请日 2024.01.02(71)申请人 北京华顺信安信息技术有限公司地址 100010 北京市东城区建国门南大街7号C座11层1105/1106室 申请人 北京华顺信安科技有限公司(72)发明人 丁若谷孟庆顺麻志辉赵武张钊源(74)专利代理机构 北京维正专利代理有限公司 11508专利代理师 王婉芬(51)Int.Cl.G06F 16/35(2019.01)G06F 16/33(2019.01)G06F 18/2337(2023.01)(54)发明名称词汇标。

2、签的确定方法及系统和查询语句的生成方法及系统(57)摘要本申请涉及一种词汇标签的确定方法及系统和查询语句的生成方法及系统,属于自然语言处理领域。其中,词汇标签的确定方法,应用于在数据库中的词汇,包括:将词汇组拆解,获得N个词汇;获取N个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;响应于所述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签。本申请能够确保输出结果语法的准确性,降低对大语言模型的依赖,可以一定程度上弥补模型能力缺陷。权利要求书3页 说明书9页 附图4页CN 11。

3、7493574 A2024.02.02CN 117493574 A1.一种词汇标签的确定方法,应用于在数据库中的词汇,其特征在于,包括:将词汇组拆解,获得N个词汇;获取N个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;响应于所述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签。2.一种词汇标签的确定方法,应用于在数据库中的词汇,其特征在于,包括:将词汇组拆解,获得M个词汇;获取M个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大。

4、标签;所述相同类别的标签具有隶属于所述大标签的关系;响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签。3.一种查询语句的生成方法,其特征在于,包括:通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;将所述用户输入的自然语言规范化处理获得词汇组;将词汇组拆解,获得N个词汇;获取N个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大标签;所述相同。

5、类别的标签具有隶属于所述大标签的关系;响应于所述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签;将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。4.一种查询语句的生成方法,其特征在于,包括:通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;将所述用户输入的自然语言规范化处理获得词汇组;将词汇组拆解,获得M个词汇;获取M个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一。

6、标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;权利要求书1/3 页2CN 117493574 A2响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签;将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。5.一种词汇标签的确定系统,应用于在数据库中的词汇,其特征在于,包括:第一拆分单元,用于将词汇组拆解,获得N个词汇;第一获取单元,用于获取N个词汇各自的已有标签;第一集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第一聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属。

7、于所述大标签的关系;第一确定单元,用于响应于所述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签。6.一种词汇标签的确定系统,应用于在数据库中的词汇,其特征在于,包括:第二拆分单元,用于将词汇组拆解,获得M个词汇;第二获取单元,用于获取M个词汇各自的已有标签;第二集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第二聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第三获取单元,用于响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签。

8、的集合;第二确定单元,用于响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签。7.一种查询语句的生成系统,其特征在于,包括:第一判断单元,用于通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;第一规范化单元,用于将所述用户输入的自然语言规范化处理获得词汇组;第三拆分单元,用于将词汇组拆解,获得N个词汇;第四获取单元,用于获取N个词汇各自的已有标签;第三集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第三聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第三确定单元,用于响应于所。

9、述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签;第一生成单元,用于将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。8.一种查询语句的生成系统,其特征在于,包括:第二判断单元,用于通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;第二规范化单元,用于将所述用户输入的自然语言规范化处理获得词汇组;权利要求书2/3 页3CN 117493574 A3第四拆分单元,用于将词汇组拆解,获得M个词汇;第五获取单元,用于获取M个词汇各自的已有标签;第四集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第四聚类单元,用于将相同类别的标签模糊聚类。

10、为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第六获取单元,用于响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;第四确定单元,用于响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签;第二生成单元,用于将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。权利要求书3/3 页4CN 117493574 A4词汇标签的确定方法及系统和查询语句的生成方法及系统技术领域0001本申请涉及自然语言处理的领域,尤其是涉及一种词汇标签。

11、的确定方法及系统和查询语句的生成方法及系统。背景技术0002目前,查询语句是用于从数据库中检索数据的命令。它们允许用户根据特定条件过滤、排序和组织数据,从而获得所需的信息。通过合理运用数据库查询语句,用户可以快速访问大规模数据集中的特定信息,从而支持决策制定、分析和业务运营等方面的工作。信息提取是一种自然语言处理技术,旨在从结构化或非结构化的文本数据中,抽取出特定事实、关系或实体的相关信息。这种技术通过分析文本,识别其中的关键信息和语义关系,然后将其转化为易于理解和利用的结构化形式。0003当使用者对数据库查询语法不熟悉时,利用大型语言模型对用户的自然语言进行转译,生成与之对应的标准查询语句是。

12、现阶段一种强大的方法,因为这些模型能够理解和处理自然语言的语义和上下文关系,从而将用户的查询意图转化为数据库可以理解的形式。这种方法可以帮助那些不熟悉语法的用户更轻松地与数据库进行交互,而无需深入学习复杂的查询语法。0004由于整个查询语句生成过程完全依赖于大模型的表现,模型的质量、训练效果以及适应能力将直接影响生成结果的准确性和可靠性。发明内容0005为了减轻对大模型的依赖,从而提高信息提取的准确性和可靠性,本申请提供了一种词汇标签的确定方法及系统和查询语句的生成方法及系统。0006本申请提供的一种词汇标签的确定方法,采用如下的技术方案:第一方面,提供一种词汇标签的确定方法,应用于在数据库中。

13、的词汇,包括:将词汇组拆解,获得N个词汇;获取N个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;响应于所述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签。0007第二方面,还提供一种词汇标签的确定方法,应用于在数据库中的词汇,包括:将词汇组拆解,获得M个词汇;获取M个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标说明书1/9 页5CN 117493574 A5签的关系;响应于所述大标。

14、签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签。0008第三方面,还提供一种查询语句的生成方法,包括:通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;将所述用户输入的自然语言规范化处理获得词汇组;将词汇组拆解,获得N个词汇;获取N个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;响应于所述大标签和所。

15、述已有标签重合,则确定所述大标签或所述已有标签为词汇标签;将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。0009第四方面,还提供一种查询语句的生成方法,包括:通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;将所述用户输入的自然语言规范化处理获得词汇组;将词汇组拆解,获得M个词汇;获取M个词汇各自的已有标签;将所述已有标签中的具有相同类别的标签集合在一起;将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相。

16、同类别的标签的集合;响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签;将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。0010第五方面,还提供一种词汇标签的确定系统,应用于在数据库中的词汇,包括:第一拆分单元,用于将词汇组拆解,获得N个词汇;第一获取单元,用于获取N个词汇各自的已有标签;第一集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第一聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第一确定单元,用于响应于所述大标签和所述已有标签重合,则确定所述大标签或所。

17、述已有标签为词汇标签。0011第六方面,还提供一种词汇标签的确定系统,应用于在数据库中的词汇,包括:第二拆分单元,用于将词汇组拆解,获得M个词汇;说明书2/9 页6CN 117493574 A6第二获取单元,用于获取M个词汇各自的已有标签;第二集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第二聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第三获取单元,用于响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;第二确定单元,用于响应于在所述。

18、第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签。0012第七方面,还提供一种查询语句的生成系统,包括:第一判断单元,用于通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;第一规范化单元,用于将所述用户输入的自然语言规范化处理获得词汇组;第三拆分单元,用于将词汇组拆解,获得N个词汇;第四获取单元,用于获取N个词汇各自的已有标签;第三集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第三聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第三确定单元,用于响应于所述大标签和所述已有标签重合,则。

19、确定所述大标签或所述已有标签为词汇标签;第一生成单元,用于将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。0013第八方面,还提供一种查询语句的生成系统,包括:第二判断单元,用于通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;第二规范化单元,用于将所述用户输入的自然语言规范化处理获得词汇组;第四拆分单元,用于将词汇组拆解,获得M个词汇;第五获取单元,用于获取M个词汇各自的已有标签;第四集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第四聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第六获取单元,用于。

20、响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;第四确定单元,用于响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签;第二生成单元,用于将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。0014综上所述,本申请包括以下至少一种有益技术效果:说明书3/9 页7CN 117493574 A71、相对于传统的动态端到端语句生成方法,本方法稳定性更好,可以确保输出结果语法的准确性。00152、本方案对大语言模型的依赖降低,可以一定程度。

21、上弥补模型能力缺陷的情况。附图说明0016图1是一种词汇标签的确定方法的流程示意图。0017图2是另一种词汇标签的确定方法的流程示意图。0018图3是一种查询语句的生成方法的流程示意图。0019图4是另一种查询语句的生成方法的流程示意图。具体实施方式0020为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1附图4及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。0021术语解释:大语言模型:(Large Language Model)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型。

22、可以处理多种自然语言任务,如文本分类、问答、对话等,是人工智能领域的一条重要途径。0022由于整个查询语句生成过程完全依赖于大模型的表现,模型的质量、训练效果以及适应能力将直接影响生成结果的准确性和可靠性。这种不可控性可能导致以下问题:提取质量波动:如果大模型的性能不稳定,提取结果可能会出现显著的波动,有时可能表现出很高的准确性,而在其他情况下则可能出现错误或不完整的生成结果。0023对模型能力的依赖:训练一个高质量的大型模型需要巨大的时间和资源成本,这使得许多研究机构和企业难以承担。因此,若模型的能力有欠缺,很难通过技术手段调整。0024人工干预受限:在端到端的处理方式中,很难进行人为干预和。

23、调整以修正生成错误或改进结果。这使得在模型性能不佳时,很难采取措施来纠正输出。0025本申请的技术方案的目的,就是为了减少对大语言模型的依赖;在大语言模型输入、输出端加入额外的处理步骤保证精确度,将大语言模型的任务由语法生成,简化为信息提取以便更好的适应模型能力。0026第一方面,如图1所示,提供一种词汇标签的确定方法,应用于在数据库中的词汇,包括:S101:将词汇组拆解,获得N个词汇;其中,用户的输入在很多时候与用户的查询目的有偏差,还经常引入一些不规范的表达或字符,所以我们在输入模型前要对用户的输入进行处理。0027在一些实施例中,首先通过自然语言中的关键词判断用户是否存在真实的查询需求,。

24、如存在“查询”、“查找”、“我想找”等词时,我们判断我们通过接下来的步骤处理用户的输入,否则认为用户的输入与查询无关,抛弃本次流程并重新请求用户输入以减轻错误导致的算力开销。成功判断用户存在查询需求后我们对用户输入规范化,包括处理多余空格、换行,统一全半角字符等。确定词汇标签的目的是为了给词汇分类,词汇标签类似于词汇的说明书4/9 页8CN 117493574 A8属性。例如,“山东”,即具有“华北”的属性,又具有“省份”的属性。也即,“山东”具有“华北”的标签,也具有“省份”的标签。0028S102:获取N个词汇各自的已有标签;其中,针对一个数据库的查询来说,这些可查询的标签是有限的。因此,。

25、我们使用大语言模型去帮我们从自然语言输入中提取这些信息。这种任务相比端到端生成查询语法来说要简单不少,大语言模型也更擅长更难以出错。0029S103:将所述已有标签中的具有相同类别的标签集合在一起;在本技术方案中,例如以下标签:省份、县市、乡镇;这些标签都属于“地区”的类别。0030S104:将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;如前所述,“地区”的类别里面包含了省份、县市、乡镇;即,省份隶属于“地区”;县市也隶属于“地区”;乡镇也隶属于“地区”。如果,某词汇标签,直接就是“地区”,没有隶属于其他标签,那么,就没有将相同类别的标签模糊聚类为大标签这个步。

26、骤。0031S105:响应于所述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签。0032如前所述,没有经过模糊聚类的标签,就是该词汇标签。即大标签和已有标签重合。0033上述实施方式中,通过对词汇和标签的处理,实现了对词汇标签的确定,并提高了系统对数据库中词汇的理解能力,从而为后续的自然语言处理和数据库查询语句生成提供了技术支持。通过这种方法,可以更准确地将用户的自然语言查询转化为数据库可以理解的形式,提高了系统的智能化程度和用户体验。0034第二方面,如图2所示,还提供另一种词汇标签的确定方法,应用于在数据库中的词汇,包括:S201:将词汇组拆解,获得M个词汇;在本实施例。

27、中,将词汇组“淄博在山东”拆解为:“山东”、“淄博”两个词汇。0035S202:获取M个词汇各自的已有标签;其中,“山东”的标签为“省份”;“淄博”的标签为“县市”。0036S203:将所述已有标签中的具有相同类别的标签集合在一起;例如,将“省份”、“县市”集合在一起。0037S204:将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;例如,相同类别的标签包括:“省份”、“县市”;这两个相同类别的标签都隶属于大标签“地区”。0038S205:响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具。

28、有相同类别的标签的集合;具体地,所述大标签和已有标签不重合,即不一样,则表明前述的将相同类别的标签模糊聚类为大标签是起了作用的。例如,将“省份”、“县市”,模糊聚类为“地区”。则大标签说明书5/9 页9CN 117493574 A9“地区”和已有标签“省份”、“县市”就不重合。那么可以获取“地区”标签下的所有第一标签的集合。意思是,“地区”这个大标签可以包括更多的隶属于自身的第一标签构成,例如,“地区”可以包含:“省份”、“县市”、“华北”、“华东”、“西南”等等。显然,第一标签的集合是大于前述的具有相同类别的标签的集合。前述的相同类别的标签的集合,仅仅包括:“省份”、“县市”。0039S20。

29、6:响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签。0040其中,在所述第一标签的集合中,搜索所述词汇,例如,在第一标签的集合中搜索“淄博”,发现,在“县市”里面,搜索到“淄博”,那么“淄博”的标签就是“县市”。0041上述实施方式中,通过获取数据库中隶属于大标签的所有第一标签的集合,并在该集合中搜索词汇对应的第一标签,进一步提高了词汇标签的准确性和系统的智能化程度,为后续的自然语言处理和数据库查询语句生成提供了更强大的技术支持。0042第三方面,如图3所示,还提供一种查询语句的生成方法,包括:S301:通过用户输入的自然语言中的关键词,判。

30、断用户是否具有查询需求;可以理解的是,首先通过自然语言中的关键词判断用户是否存在真实的查询需求,如存在“查询”、“查找”、“我想找”等词时,我们判断我们通过接下来的步骤处理用户的输入,否则认为用户的输入与查询无关,抛弃本次流程并重新请求用户输入以减轻错误导致的算力开销。0043S302:将所述用户输入的自然语言规范化处理获得词汇组;例如,用输入如下语句:“我想查询在淄博的,,ip是1.1.1.1的资产?”。那么利用自然语言规范化处理后获得的词汇组为:“我想查询在淄博的,ip是1.1.1.1的资产”。0044S303:将词汇组拆解,获得N个词汇;其中,拆分上述词汇组后,获得的词汇为:“淄博”,“。

31、ip”,“1.1.1.1”。0045S304:获取N个词汇各自的已有标签;例如,“淄博”的标签为“县市”。0046S305:将所述已有标签中的具有相同类别的标签集合在一起;S306:将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;例如,模糊聚类“省份”、“县市”等相同类别的标签,可得到大标签为“地区”。0047S307:响应于所述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签;例如,如果仅仅是“淄博”的标签,则为“县市”,那么“淄博”的标签模糊聚类为“县市”,则大标签为“县市”,已有标签也为“县市”,那么大标签和已有标签重合,则词汇“淄博”的。

32、标签就为“县市”。0048S308:将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。0049具体地,例如:县市=“淄博”&ip=“1.1.1.1”。0050上述实施方式中,通过词汇标签的确定和查询语句的生成,实现了对用户自然语言查询的理解和转化,为用户提供了更便捷的数据库查询方式。同时,通过词汇标签的确说明书6/9 页10CN 117493574 A10定,提高了系统对用户查询意图的理解能力和查询结果的准确性,从而提高了系统的智能化程度和用户体验。0051第四方面,如图4所示,还提供另一种查询语句的生成方法,包括:S401:通过用户输入的自然语言中的关键词,判断用户是否具。

33、有查询需求;S402:将所述用户输入的自然语言规范化处理获得词汇组;例如,用输入如下语句:“我想查询在山东淄博的,,ip是1.1.1.1的资产?”,那么利用自然语言规范化处理后获得的词汇组为:“我想查询在山东淄博的,ip是1.1.1.1的资产”。0052S403:将词汇组拆解,获得M个词汇;具体地,拆分上述词汇组后,获得的词汇为:“山东”,“淄博”,“ip”,“1.1.1.1”S404:获取M个词汇各自的已有标签;例如:“山东”的已有标签为“省份”,“淄博”的已有标签为“县市”。0053S405:将所述已有标签中的具有相同类别的标签集合在一起;S406:将相同类别的标签模糊聚类为大标签;所述相。

34、同类别的标签具有隶属于所述大标签的关系;例如,将“省份”、“县市”模糊聚类为大标签为“地区”。显然,“省份”、“县市”均隶属于“地区”。0054S407:响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;例如,“地区”与“省份”不重合,“地区”与“县市”也不重合,那么获取在数据库中的“地区”这个大标签下的所有第一标签的集合。例如,“地区”包括:“省份”、“县市”、“华北”、“华南”、“西南”等等。0055S408:响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标。

35、签为所述词汇标签;在上述的第一标签的集合中,搜索“淄博”,则有“县市”这个标签下有“淄博”这个词汇;搜索“山东”,则有“省份”这个标签下有“山东”这个词汇。0056S409:将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句;例如:省份=“山东”&县市=“淄博”&ip=“1.1.1.1”。0057上述实施方式中,通过获取数据库中隶属于大标签的所有第一标签的集合,并在该集合中搜索词汇对应的第一标签,进一步提高了词汇标签的准确性和系统的智能化程度,为后续的自然语言处理和数据库查询语句生成提供了更强大的技术支持。0058第五方面,还提供一种词汇标签的确定系统,应用于在数据库中的词汇。

36、,包括:第一拆分单元,用于将词汇组拆解,获得N个词汇;第一获取单元,用于获取N个词汇各自的已有标签;第一集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第一聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第一确定单元,用于响应于所述大标签和所述已有标签重合,则确定所述大标签说明书7/9 页11CN 117493574 A11或所述已有标签为词汇标签。0059第六方面,还提供另一种词汇标签的确定系统,应用于在数据库中的词汇,包括:第二拆分单元,用于将词汇组拆解,获得M个词汇;第二获取单元,用于获取M个词汇各自的已有标签;第二集合单元,用。

37、于将所述已有标签中的具有相同类别的标签集合在一起;第二聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第三获取单元,用于响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;第二确定单元,用于响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为所述词汇标签。0060第七方面,还提供一种查询语句的生成系统,包括:第一判断单元,用于通过用户输入的自然语言中的关键词,判断用户是否具有查询需求;第一规范化单元,用于将所述用户输入。

38、的自然语言规范化处理获得词汇组;第三拆分单元,用于将词汇组拆解,获得N个词汇;第四获取单元,用于获取N个词汇各自的已有标签;第三集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第三聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第三确定单元,用于响应于所述大标签和所述已有标签重合,则确定所述大标签或所述已有标签为词汇标签;第一生成单元,用于将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。0061第八方面,还提供另一种查询语句的生成系统,包括:第二判断单元,用于通过用户输入的自然语言中的关键词,判断用户是否具有查询。

39、需求;第二规范化单元,用于将所述用户输入的自然语言规范化处理获得词汇组;第四拆分单元,用于将词汇组拆解,获得M个词汇;第五获取单元,用于获取M个词汇各自的已有标签;第四集合单元,用于将所述已有标签中的具有相同类别的标签集合在一起;第四聚类单元,用于将相同类别的标签模糊聚类为大标签;所述相同类别的标签具有隶属于所述大标签的关系;第六获取单元,用于响应于所述大标签和所述已有标签不重合,则获取数据库中隶属于所述大标签的所有第一标签的集合;所述第一标签的集合大于或等于所述具有相同类别的标签的集合;第四确定单元,用于响应于在所述第一标签的集合中搜索到所述词汇,则确定所述词汇对应的第一标签的集合中的标签为。

40、所述词汇标签;说明书8/9 页12CN 117493574 A12第二生成单元,用于将每一个词汇标签的格式化结果,用约定的逻辑连接符连接起来生成查询语句。0062在本申请所提供的几个实施例中,应该理解到,所提供的方法和系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的;例如,某个模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。0063需要说明的是,在上述实施例中,对各个实施例的描述各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。0064以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。说明书9/9 页13CN 117493574 A13图 1说明书附图1/4 页14CN 117493574 A14图 2说明书附图2/4 页15CN 117493574 A15图 3说明书附图3/4 页16CN 117493574 A16图 4说明书附图4/4 页17CN 117493574 A17。

展开阅读全文
内容关键字: 词汇 标签 的确 方法 系统 查询 语句 生成
关于本文
本文标题:词汇标签的确定方法及系统和查询语句的生成方法及系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/14526557.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1