文档检索和分类方法及其装置 本发明涉及一种从贮存一系列电子文件数据的数据库中搜索所需文件的文档检索及其分类方法。此外,本发明还涉及执行本发明中的文档检索及其分类方法的一种文档检索及其分类系统。
本发明适用于储存在数据库中的不同种类的文档信息,例如装配在字处理器上的存储设备、办公计算机、个人计算机等等,以及可加载到它们上的信息存储媒体。
数据通信领域最近的发展,包括电子邮件、电子目录和电子出版物,为用户提供了大量的文档信息。此外,互联网用户的数目也在急剧增长。这样,从如此巨大的数据库中搜索或收集所需文件的要求便不断增长。同时,对精选出地所需文件进行分类的需要也在增长。
然而根据传统的文档检索和分类系统,检索条件和分类标准通常是预先固定的或根据用户的喜好确定。在这方面,传统的文档检索和分类系统在检索条件和分类标准的立足点上是固定不变的。
本发明的目的之一在于提高文档检索和分类的灵活性。
本发明的另一个目的是允许用户任意改变检索条件和分类标准的立足点。
本发明的另一个目的是允许用户根据他们对检索结果的即刻判断来执行检索和分类操作。
本发明的另一个目的是实现自动分类来支持用户的智力活动。
为完成上述及其他相关的目标,本发明提供第一类文档检索和分类系统,它包括允许用户输入检索条件和分类标准的输入输出装置。检索装置用于在文件数据库中根据包含任意字的检索条件执行检索操作,以及计算由检索操作和检索条件检索到的文件之间的相似性。检索结果存储装置用于存储由检索操作所检索到的文件。分类标准转换装置用来将分类标准转换为检索条件。分类标准由一组任意字来表达。检索结果分类装置用来按照多个分类标准对由检索操作检索到的文件进行分类。
这样,本发明就能够提供一种灵活的文档检索和分类系统,从而可以协助文档检索和分类期间的智力活动。
根据本发明的最佳实施例,检索装置响应用户通过输入/输出装置输入的检索条件,并根据用户输入的检索条件在文件数据库中执行检索操作。检索结果存储装置存储通过检索装置的检索操作所检索到的文件。分类标准转换装置响应用户通过输入/输出装置输入的多个分类标准,并根据输入的分类标准产生转换所得的检索条件。检索装置计算转换所得的检索条件和通过检索操作所检索到的并储存在检索结果存储装置中的文件之间的相似性。而且,检索结果分类装置参考检索装置根据每一分类标准所计算出的相似性,计算每一个通过检索操作所检索到的文件的属性,从而进行文献分类。
通过这种安排,当用户在检索操作时脑中出现这样的词时,他们就能够任意地输入检索条件。而且,用户能够随心所欲地对检索结果进行任意分类。
根据本发明的最佳实施例,输入/输出装置允许用户输入多个分类标准,每一个都包含一组任意字,然后分类标准转换装置将这一组任意字转换成检索条件。
通过这种安排,用户能够输入脑中出现的任意字作为分类标准(也就是分类立足点)。这样,设置分类立足点就有了很大的灵活性。
根据本发明的最佳实施例,文档检索和分类系统又进一步包含了一种关键字查找装置,来将关键字从一个任意的句子或文件中提取出来。在这种情况下,关键字查找装置响应用户通过输入/输出装置输入的任意的句子所表达的多个分类标准,并将关键字从输入的句子中提取出来。然后分类标准转换装置将提取出来的那一组关键字转换成检索条件。
通过这种安排,用户能够直接输入属于有意作为分类标准字段的任意一个句子,这使得表达多个分类立足点成为可能。这样,分类立足点多方面的设置就能够灵活地实现。
根据本发明的最佳实施例,指定/输出装置允许用户指定多个文件作为分类标准。这些指定文件从通过检索操作所检索到的文件中选出。关键字查找装置将关键字从这些指定文件中提取出来。然后,分类标准转换装置将提取出来的这组关键字转换成检索条件。
通过这种安排,当用户已经证实了通过检索操作所检索到的文件后,用户就能够选择检索到的文件的全部或部分来表达分类立足点。这样,分类立足点的设置就可以轻易实现。
此外,本发明提供第二类文档检索和分类系统,它包含一个允许用户输入检索条件的输入/输出装置。检索装置用于在文件数据库中根据包含任意字的检索条件执行检索操作,以及计算由检索操作和检索条件所检索到的文件之间的相似性。检索结果存储装置用于存储由检索操作所检索到的文件。关键字查找装置用于将关键字从通过检索操作所检索到的文件中提取出来。关键字自动分类装置用于将提取出的关键字分到一系列群中去。分类标准转换装置用来将分类标准转换为检索条件。每一项分类标准都是一组分到各个群中去的关键字。检索结果分类装置用来按照多个分类标准对由检索操作所检索到的一组文件进行分类。
这样,本发明就能够提供一个自动文档检索和分类系统,从而可以协助文档检索和分类期间的智力活动。
根据本发明的最佳实施例,检索装置响应用户通过输入/输出装置输入的检索条件,并根据用户输入的检索条件在文件数据库中执行检索操作。检索结果存储装置存储检索装置通过检索操作所检索到的文件。关键字查找装置用于将关键字从通过检索操作所检索到的文件中提取出来。关键字自动分类装置自动将提取出来的关键字分到一系列群中去。分类标准转换装置产生由分类标准修改所得的检索条件,各个分类标准都是一组分到各个群中的关键字。检索装置计算转换所得的检索条件和通过检索操作所检索到的并储存在检索结果存储装置中的文件之间的相似性。然后,检索结果分类装置参考检索装置根据每一分类标准所计算的相似性,计算每个通过检索操作所检索到的文件的属性,从而进行文献分类。
通过这种安排,可以自动将检索结果中内在的分类立足点提取出来,而不用依赖用户输入分类标准。用户可以自动获得意想不到的分类立足点,不需要特别的努力。结果便可以有效地协助文献分类工作。
此外,本发明提供第一类文档检索和分类方法,它包含以下几步:在文件数据库中根据用户输入的检索条件执行检索操作,从而可以获得想要检索到的文件;允许用户根据通过检索操作所检索到的文件输入多个分类的分类标准;将分类标准转换成检索条件;计算由分类标准和通过检索操作所检索到的文件得到的转换所得的检索条件之间的相似性;以及参考此相似性,计算通过检索操作所检索到的文件的属性,从而对各检索到的文件进行分类,使之具备最高的属性。
通过这种方法,当用户在检索操作时脑中出现这样的词时,他们就能够任意地输入检索条件。而且,用户能够随心所欲地对检索结果进行任意分类。这样,本发明就能够支持文档检索和分类期间的智力活动。
根据本发明的最佳实施例,当用户为了各个分类的分类标准而输入一组任意字时,输入的该任意字就被转换成检索条件,而且转换所得的检索条件和通过检索操作所检索到的文件之间的相似性也会被计算。
通过这种方法,用户能够输入脑中出现的任意字作为分类标准(也就是分类立足点)。这样,设置分类立足点就有了很大的灵活性。
根据本发明的最佳实施例,用户输入一个任意的句子作为各个分类的分类标准时,该句子中的关键字就被提取出来,提取出来的该组关键字被转换成检索条件,然后计算转换所得的检索条件和通过检索操作所检索到的文件之间的相似性。
通过这种方法,用户能够直接输入属于有意作为分类标准的字段的任意一个句子,这使得表达多个分类立足点成为可能。这样,分类立足点多方面的设置就能够灵活地实现。
根据本发明的最佳实施例,用户在通过检索操作所检索到的文件之中指定多个文件作为各个分类的分类标准。然后,从提取出来的文件中提取关键字。提取出来的该组关键字被转换成检索条件。然后计算转换所得的检索条件和通过检索操作所检索到的文件之间的相似性。
通过这种安排,当用户证实通过检索操作所检索到的文件后,用户就能选择检索到的文件的全部或部分来表达分类立足点。这样,分类立足点的设置就可以轻易实现。
此外,本发明提供第二类文档检索和分类方法它包含以下几步:在文件数据库中根据用户输入的检索条件执行检索操作,从而可以获得想要检索到的文件;将关键字从通过检索操作所检索到的文件中提取出来;将提取出来的关键字分到一系列群中去:将提取出来的属于各个群的该组关键字转换成检索条件;计算由提取出来的关键字和通过检索操作所检索到的文件转换所得的检索条件之间的相似性;然后参考此相似性,计算各个通过检索操作所检索到的各种文件的属性,从而对检索到的各文件进行分类,使之具备最高的属性。
通过这种安排,就可以自动将检索结果中内在的分类立足点提取出来,而不用依赖用户输入分类标准。用户可以自动获得意想不到的分类立足点,不需要特别的努力。结果便可以有效地协助文献分类工作。
本发明上述的和其他的目标、特征和优点将随下列详细的描述变得更加明了,请参看附图阅读此描述。
图1为本发明第一个实施例的文档检索和分类系统的图解排列功能方框图;
图2显示本发明第一个实施例中通过文档检索和分类系统得到的检索结果;
图3显示本发明第一个实施例中根据分类标准得到的检索结果;
图4显示本发明第一个实施例中的属性计算;
图5显示本发明第一个实施例中的文献分类结果;
图6为本发明第二个实施例的文档检索和分类系统的图解排列功能方框图;
图7为本发明第三个实施例的文档检索和分类系统的图解排列功能方框图;
在下文中,将参考所述附图说明本发明的最佳实施例。在所有的图中,相同的部分将用同样的参考编号来表示。本发明的实施例以含有日本语的文件为基础。这样,下面的说明包括日文汉字和或片假名,后面的括号内为英语翻译。
第一个实施例
图1为显示本发明第一个实施例中用来实施文档检索和分类方法的文档检索和分类系统的图解排列的功能方框图;
在图1显示的文档检索和分类系统中,输入/输出部分21允许用户输入检索条件和分类标准,也可以输出检索结果和分类结果。文件存储部分24存储文件。检索部分23计算检索到的文件和检索条件之间的相似性。检索结果存储部分25存储检索结果,例如检索到的文件。分类标准转换部分22接收由输入/输出部分21提供的分类标准,并将输入的分类标准转换成检索部分23可处理的检索条件。检索结果分类部分26参考检索部分23计算出的相似性,根据分类标准对检索到的文件进行分类。
第一个实施例的文档检索和分类处理细节将在下文中加以说明。
首先用户将检索条件输入到输入/输出部分21中。例如下列逻辑(布尔)表达式1可以作为检索条件。
(米ORコメOR政策)-------------(1)日文汉字“米”代表大米,片假名コメ代表大米,日文汉字“政策”代表政策。
检索部分23根据检索条件检索储存在文件存储部分24中的文件。检索部分23可以根据包含任意字(即字符串)的检索条件进行检索。此外检索部分23可以计算检索结果和检索条件之间的相似性。
这类检索部分可能包括能够查找所有带有指定字的文件的整句检索部分,如同已出版的日文专利申请No.9-319766中所公开的一样。
检索条件和检索到的文件(即检索结果)Dj之间的相似性可用下列公式来表达。
S(Dj)=∑{fij×(1-log(di/N))}其中,∑为随变量″i″不同而变化的总和,″fij″代表每个字″ti″在文件Dj中出现的频率(或程度),″di″代表出现字″ti″的文件的数目,″N″代表检索到的这种文件的总数。
上述公式表达产生检索条件涉及的各字的相似性总和。
这通常被称为以″TFIDF″方法为基础的字加权和以内积等级为基础的相似性计算。
假设在特定的检索到的文件中,现有的检索字出现频率如下。换句话说,″fij″如下。
米(rice(日文汉字)) 3
コメ(rice(片假名)) 2
政策(policy) 1
同时,所有储存在文件存储部分24中的文件中,包含每个检索字的文件数目如下。换句话说,″di″如下。
米(rice(日文汉字)) 5000
コメ(rice(片假名)) 1250
政策(policy) 2500
当N=10000时,Dj的相似性S(Dj)按下列方法进行计算。
S(Dj)=3×(1-log(5000/10000))
+2×(1-log(1250/10000))
+1×(1-log(2500/10000))
=6+8+3=17
图2显示检索结果的详细资料,其中每个检索到的文件的编号都与各检索到的文件的相似性和内容一起显示。根据图2,根据上述检索条件总共有10个文件被选出来,并依照相似性进行排列。各文件的相似性通过指定最大值为100被标准化。检索结果被储存在检索结果存储部分25中,而用户可以通过输入/输出部分21知道检索结果。
用户在查看检索结果之后,可以进行新的寻找或对现在得到的检索结果进行分类。
当用户想要对图2显示的检索结果进行分类时,用户可以通过输入/输出部分21输入多个分类标准。根据第一个实施例,分类标准为表示分类立足点的文字。例如,用户可以通过输入/输出部分21输入下列字作为分类标准。
分类标准1:コメ(rice;片假名),米價(rice price),新食糧法(new Staple FoolContlol Act)
分类标准2:北朝鮮(North Korea),中国(China),米朝協議(U.S.-North KoreaTalk)
分类标准3:米国(U.S.),米軍(U.S.force)
分类标准转换部分22将输入的分类标准转换成检索部分23可处理的检索条件。
例如,通过充分组合作为分类标准输入的字可以更好地产生逻辑表达式,然后运用AND来将所得的逻辑表达式与上述作为最新检索条件的逻辑表达式1连接起来。下面是转换后的检索条件实例。
检索条件1:(コメOR米價)AND(米ORコメOR政策)
检索条件2:(北朝鮮OR中国)AND(米ORコメOR政策)
检索条件3:(米国OR米軍)AND(米ORコメOR政策)
通过AND将最新检索条件(即逻辑表达式1)与分类标准连接起来有利于减少要检索的数目等级。
接下来,检索部分23根据上述检索条件1到3进行搜索,并得到图3显示的检索结果。
如图3所示,通过检索条件1到3得到的该检索结果为图2显示的检索到的全套文件的子集。在图3中,检索到的各文件所附的相似性显示了根据对应的检索条件计算出的相似性值。假定S(i,j)代表文件″i″到检索条件(即分类标准)″j″的相似性。
接下来,检索结果分类部分26计算文件″i″到分类际准″j″的属性T(i,j)。例如,使用下面的公式来该属性T(i,j)。
T(i,j)=C*S(i,j)+(1-C)*100(S(i,j)/∑S(i,k))-------(2)∑随变量″k″不同而变化的总和,C为常量,范围为O<C<1。
上述公式2只是得到属性T(i,j)的一个例子。这种计算属性T(i,j)的方法并不只限于公式2。
图4显示根据上述公式2,在C=0.5用于文件1-10和分类1到3的条件下所计算出的属性T(i,j)。
检索结果分类部分26运用下面的公式3来识别各文件″i″的具备最高属性T(i,j)的分类。
C(i)=max(T(i,j))------------(3)″max″为与变量″j″相关的最大值。
最后,检索结果分类部分26输出结论,即文件″i″属于分类c(i)。这个结论通过输入/输出部分21显示给或通知用户。
图5显示以图4显示的实例为基础的最终分类输出实例。
如上所述,显示在图2中的检索结果(即检索到的整套文件)可以根据用户输入的分类标准1至3被分到多个子集中去。
根据上述实例,日文汉字″米″为逻辑表达式1给出的检索元素之一。然而,日文字″米″有不同的含义。这样,在图2显示的检索到的文件中,一些文件(doc.#6和#10)包含代表″大米″的″米″字,而另一些文件(doc.#3、#4、#5、#7和#9)包含代表美国(即the United States)的″米″字。然而,用户可以通过输入适当的分类标准将这些文件分成不同的类别。
此外,当用户输入该检索条件或该分类标准时,用户可以任意选择检索字,而不必对复合词特别注意,例如“新食糧法”和“米朝協議”,它们由多个单字构成。
此外,根据给定的分类标准完成分类后,用户可以指定对应于某个分类标准的一个子集作为新的一组,以进行又一次分类(即精细分类)。
如上所述,本发明的第一个实施例提供了灵活的文档检索和分类方法和系统。根据第一个实施例,在文件数据库中根据用户输入的检索条件执行检索操作,从而可以获得想要检索到的文件;允许用户根据通过检索操作所检索到的文件输入多个分类的分类标准;该分类标准被转换成检索条件。计算由分类标准转换而来的检索条件和由通过检索操作所检索到的文件之间的相似性。然后,参考相似性计算每一个通过检索操作所检索到的文件的属性,从而对各检索到的文件进行分类,使之具有最高的属性。
根据本发明的第一个实施例,当用户在检索操作时脑中出现这样的词时,他们就能够任意地输入检索条件。而且,用户能够随心所欲地对检索结果进行任意分类。这样,第一个实施例就能够协助文档检索和分类期间的智力活动。
此外,根据本发明第一个实施例,当用户为了各个分类的分类标准而输入一组任意字时,输入的该组任意字就被转换成检索条件,然后转换所得的检索条件和通过检索操作所检索到的文件之间的相似性也会被计算。
这就使用户可以输入其脑中出现的任意字作为分类标准(也就是分类立足点)。这样,设置分类立足点就有了很大的灵活性。
第二个实施例
第二个实施例提供了一个文档检索和分类系统,其特点在于从表达分类立足点的句子中选择分类标准。
图6为本发明第二个实施例的文档检索和分类系统的图解排列功能方框图;
在图6显示的文档检索和分类系统中,输入/输出部分26允许用户输入检索条件和分类标准,也可以输出检索结果和分类结果。文件存储部分15存储文件。检索部分14计算检索到的文件和检索条件之间的相似性。检索结果存储部分16存储检索结果,例如检索到的文件。关键字查找部分12接收用户通过输入/输出部分11输入的表达分类立足点的句子,并从接收到的这些句子中查找关键字。查找到的关键字成为分类标准。分类标准转换部分13接收从关键字查找部分12传来的关键字(即分类标准),并将输入的关键字转换成检索部分14可处理的检索条件。检索结果分类部分17参考检索部分14计算出的相似性,根据分类标准对检索到的文件进行分类。
第二个实施例的文档检索和分类处理细节将在下文中加以说明。
首先用户将检索条件输入到输入/输出部分11中。假定如同第一类实施例,输入由逻辑表达式1定义的检索条件,然后得到如图2显示的检索结果。
当用户想对图2显示的检索结果进行分类时,用户可以通过输入/输出部分11输入多个分类标准。根据第二个实施例,分类标准为表达分类立足点的句子,参考编号识别检索到的文件或者检索到的文件的重要部分。
例如,用户可以通过输入/输出部分11输入下面的句子作为分类标准。
分类标准4:ユメ市場ゃ政府の米價政策について(Regarding the rice marketand the rice price policy of the government)
分类标准5:北朝鮮ヤ中国などに对する米国の对?(attitude of U.S.againstNorth Korea and China)
分类标准6:韓国ゃ日本にぉける米軍問題(Problems of U.S.forces in Koreaand Japan)
第二个实施例的文档检索和分类系统响应所输入的这样的句子,执行下面的操作。
关键字查找部分12根据形态学分析通过一个字典数据库(图中未示)提取各句子中出现的字,然后选择各句子的关键字(即重要的字)。
关于每个句子的关键字选择,最好预先核对每个字在储存于文件存储部分15中的所有文件中出现的频率(或者程度),然后再根据″TFIDF″字加权方法等选择关键字。这样的字加权方法,比方说,已在《乌米诺,图书馆和信息科学》中的″根据出现频率信息进行字加权的原则″(No.26,1988)一文中公布。
此外,作为选择关键字的另一个方法,对于日文文件来说,从句子中提取字(即字符串)时,最好考虑字符类型的差异,比如片假名、平假名和日文汉字。这样便能有效的查找字典中没有注册的新字或复合词。
不必说,最好充分结合上述两种方法。
根据第二个实施例,参考字典数据库选择每个句子的关键字。现在假定下面的字是从上述分类标准4到6中提取出来的。
分类标准4:ユメ(rice),市場(market),政府(governmen),米價政策(rice pricepolicy)
分类标准5:北朝鮮(North Korea),中国(China),米国(U.S.)
分类标准6′:韓国(Korea),日本(Japan),米軍(U.S.force),問题(Problem)
此后,分类标准转换部分13用与第一类实施例中分类标准转换部分22相同的处理方法,将分类标准4到6转换成检索部分14可处理的检索条。此外,当用户查看图2显示的检索结果后,用户就可以用下面的方法指定检索到的文件的文件号作为分类示准。
分类标准7:1,2
分类标准8:4,5
分类标准9:9
第二个实施例的文档检索和分类系统响应所输入的此种参考编号,执行下面的处理。
关键字查找部分12读取通过文件存储部分15的参考编号(即分类标准)所指定的文件正文,并提取这些指定文件所涉及的关键字。
关键字的提取可以用上述实例中提取关键字同样的方法。另—个办法是,最好预先从每个文件中提取出关键字,并将提取出的这些关键字与文件存储部分15中对应的文件储存在一起。在这种情况下,关键字查找部分12参考指定文件(即分类际准)的参考编号读取储存在文件存储部分15中的关键字。
现在假定下面的字是从上述分类标准7到9中提取出来的。
分类标准7:ュメ(rice)儲蓄(stock),食糧(food),米價(rice price),農協(agricultural cooperative association),農家(farmer),消费者(consumer),米(rice)
分类标准8:北朝鮮(North Korea),会談(conference),韓(Korea),協議(talk),米(U.S.),米韓(U.S.-Korea),問題(problem),南北(north-south),朝鮮半岛(KoreanPeninsula),米軍(U.S.force)
分类际准9:沖縄(Okinawa),米国(U.S),連邦(Federation),調查(investigation),返還(return),公文書(official document),資料(material),反处分?(provisional disposition),地裁(district court),決定(decision)
此后,分类标准转换部分13用与第—类实施例中分类标准转换部分22相同的处理方法,将分类标准7到9转换顾检索部分17可处理的检索条件。
将分类标准转换成检索条件后,第二个实施例的文档检索和分类系统执行第
类实施例所公布的同样的操作。
如上所述,图2显示的检索结果(即检索到的全部文件)可以根据分类标准4到6(或7到9)被分成多个子集,这些标准为表达分类立足点的句子、识别检索到的文件的参考编号或用户输入的检索到的文件的重要部分。这样,用户就可以用各种方式进行分类。例如,用户可以灵活地而且有选择性的运用多个立足点或简单化的立足点对检索到的文件进行分类。
如上所述,根据本发明第二个实施例用户输入一个任意的句子作为各个分类的分类标准时,该句子中的关键字就被提取出来,提取出来的该组关键字被换成检索条件,然后计算转换了的检索条件和通过检索操作所检索到的文件之间的相似性。
根据本发明的第二个实施例,用户能够直接输入属于有意作为分类标准的字段的任意一个句子,这使得表达多个分类立足点成为可能。这样,分类立足点的多方面的设置就能够灵活地实现。
此外,根据本发明第二个实施例,用户指定通过检索操作所检索到的文件之中多个文件作为各个分类的分类标准。然后,从提取出的文件中提取关键字。提取出的该组关键字被转换成检索条件。然后计算转换所得的检索条件和通过检索操作所检索到的文件之间的相似性。
当用户已经证实通过检索操作所检索到的文件后,用户就能够选择检索到的文件的全部或部分来表达分类立足点。这样,分类立足点的设置就可以轻易实现。
第三个实施例
第三个实施例提供一种文档检索和分类系统,其特点为自动决定分类标准,而且检索到的文件被自动分类。
图7为本发明第三个实施例的文档检索和分类系统的图解排列功能方框图;
在图7显示的文档检索和分类系统中,输入/输出部分71允许用户输入检索条件和分类标准,也可以输出检索结果和分类结果。文件存储部分76存储文件。检索部分75计算检索到的文件和检索条件之间的相似性。检索结果存储部分77存储检索结果,例如检索到的文件。关键字查找部分72从储存在检索结果储存部分77中的已检索到的文件中查找关键字。关键字自动分类部分73将一组查找到的关键字分到多个群中去。分到各个群中的关键字成为分类标准。分类际准转换部分74接收从关键字自动分类部分73传来的关键字(即分类标准),然后将输入的关键字转换成检索部分75可处理的检索条件。检索结果分类部分78参考检索部分75计算出的相似性,根据分类标准对检索到的文件进行分类。
第三个实施例的文档检索和分类处理细节将在下文中加以说明。
首先用户将检索条件输入到输入/输出部分71。现在假定,如同第一类实施例,输入由逻辑表达式1定义的检索条件。然后得到图2显示的检索结果。
第三个实施例和上述第一第二个实施例的不同之处在于,自动决定分类标准,而不必依赖用户输入分类标准。
在下文中将详细说明第三个实施例的自动分类。首先,关键字查找部分72查找储存在检索结果储存部分77中的各个已检索到的文件的关键字。关键字提取的详细资料已在上述本发明的第二个实施例中透露。也可以运用一种已出版的日本专利申请No.9-176822中所公布的关键字提取方法。
接下来,关键字自动分类部分73将一组查找到的关键字分到多个子集中去。关于关键字自动分类,将使用下面的方法。
现在假定文件存储部分76储存从D1到Dn的n个文件,其中分别出现了从W1到Wm的m个词,在这种情况下,对每一个字Wj可以引入下面的nth-次序向量Vj。
Vj=(e1,e2,e3,---------,en)下列公式4显示每一个向量元素ei(i=1,---,n)的计算。
ei=TFi(Wj)×log(n/DF(Wj))------------(4)其中TFi(Wj)代表字Wj在文件Di中的出现频率(或程度),DF(Wj)代表出现字Wj的文件数目。
最好使向量Vj标准化,以使它的长度变成1。
照这样,可以分别得到m个字的向量V1到Vm。
接下来,将考虑G1到Gp的多个字组。每个字组都包含频繁出现在某一特殊领域的文件中的特殊的字。每个字组都可以手动产生,或通过利用字在字典或大规模的文件中的出现分布自动产生。
在这种情况下,可以为每个字组Gk引入下列nth-次序向量VGk。
VGk=(e′1,e′2,e′3,---------,e′n)
下面公式5显示各向量元素e′i(i=1,----,n)的计算。
e′i=TFi(Gj)×log(n/DF(Gj))-----------(5)其中TFi(Gj)代表文件Di中属于群组Gj的字的出现频率(或程度)总数,自由度(Gj)代表任何属于群组Dj的字都出现的文件的数目。
最好让向量VGL标准化,以使它的长度变成1。
这样就可以分别得到p字组的向量VG1到VGp。
每个字Wj和字组Gk之间的相似性Sjk可以通过向量Vj和向量VGk的内积得到。
利用上述向量和相似性计算很容易实现关键字的自动分类。例如,现在假定有三个经常使用于下面字段的字组G1、G2和G3。
G1:Internal Combustion Engine for Automotive Vehicles
G2:Aircraft Accident
G3:Internet
检索部分75检索与″Engine″有关的文件。然后,关键字查找部分72提取下列关键字。
ガソリン(gasoline),事故(accident),WWW,燃費(fuel consumption),檢索(retrieval),爆發(Explosion),空港(Airport),URL每个字组G1、G2和G3分别的相似性按下面的方法计算。
S(ガソリン(gasoline))=(0.8,0.0,0.2)
S(事故(accident))=(0.2,0.6,0.3)
S(WWW)=(0.1,0.2,0.8)
S(燃費(fuel consumption))=(0.7,0.1,0.2)
S(檢索(retrieval))=(0.0,0.2,0.6)
S(爆發(Explosion))=(0.4,0.6,0.1)
S(空港(Airport))=(0.0,0.9,0.2)
S(URL)=(0.1,0.0,0.9)
然后注意每个关键字都属于一个具有最高相似性的字组。相应地,所有提取出的关键字都按下列方法被分到各自的字组G1、G2和G3中。
G1:ガソリン(gasoline),燃費(fuel consumption)
G2:事故(accident),爆發(Expiosion),空港(Airport)
G3:WWW,檢索(retrieval),URL
这样通过关键字自动分类部分73得到的关键字群组被输入到分类标准转换部分74中。
当字组G的数目很大时(例如100),或者当作为分类标准的关键字群组的数目需要减少时(例如2),关键字自动分类部分73就按下列方法操作。
*第1步--为每个字组G算出分类后的关键字的加权值总和,然后将所得的总和作为该字组的得分。
*第二步--按照得分的最高值相继选择预定数目的群组。
根据上面的实例,
Score of G1:0.8+0.7=1.5
Score of G2:0.6+0.6+0.9=2.1
Score of G3:0.8+0.6+0.9=2.3
相应地,当关键字群组的数目需要被减少到2时,关键字自动分类部分73便根据每个字组的得分选择群组G2和G3。
当关键字自动分类部分73进行上述处理时,从检索到的文件中提取出的一组关键字可以被自动分到多个群组中去。根据上面的实例,得到下列的分类标准。
Classification Standard 10:ガソリン(gasoline),燃費(fuel consumption)
Classification Standard 11:事故(accident),爆發(Explosion),空港(Airport)
Classification Standard 12:WWW,檢索(retrieval),URL
此后,分类标准转换部分74用与第一类实施例中分类标准转换部分22相同的处理方法,将分类标准10到12转换成检索部分75可处理的检索条件。
将分类标准转换成检索条件后,第三个实施例的文档检索和分类系统执行第一类实施例所公布的同样的处理。
如上所述,第三个实施例自动判断经常在检索到的文件中出现的字的字段。查找到的字段被作为分类标准。这样,就可以根据检索结果的性质进行文献分类。换句话说,第三个实施例提供了一种简单化的文献分类。
通过关键字自动分类部分73得到的关键字群组可以通过输入/输出部分71向用户显示一次。用户可以修改或者更正所显示的关键字群组。然后,分类标准转换部分74将修改了的关键字群组(即修改了的分类标准)转换成检索条件。这样的分类处理就可以使用户了解到他没有想到的分类立足点。结果第三个实施例就可以有效地协助文献分类工作。
如上所述,本发明的第三个实施例提供了文档自动检索和分类的方法和系统。在文件数据库中根据用户输入的检索条件执行检索操作,从而可以获得想要检索到的文件;关键字通过检索操作从所检索到的文件中提取出来。提取出的关键字被分到多个群中。提取出来的属于各个群的一组关键字被转换成检索条件。由提取出的关键字转换所得的检索条件和通过检索操作所检索到的文件之间的相似性被计算。然后,参考相似性计算每一个通过检索操作所检索到的文件的属性,从而对名检索到的文件进行分类,使之具有最高的属性。
根据本发明的第三个实施例,可以自动将检索结果中内在的分类立足点提取出来,而不用依赖用户输入分类标准。用户可以自动获得意想不到的分类立足点,不需要特别的努力。结果就可以有效地协助文献分类工作。
本发明可能有各种具体形式,但其本质特征不变。因此上述的实施例只起说明作用,而非限定作用,因为本发明的范围由附加的权利要求,而不是由上述的描述所规定。所有在该权利要求范围内或者等同于它们的范围之内所做的改变,都将属于本权利要求。