本发明,一般来说,涉及到语言的翻译方法,具体来说,它涉及到由中文到任何一种外国语言的翻译方法。 中文的书写系统并不由拉丁字母所组成,因为前者的成熟远在拉丁字母的发明以前。在中文中,一个词并不由字母组合而成,完全不同的是中文的词是由字符所组成的,可以是一个、二个、三个或更多的字符。
如果每一个词只用一个字符来表达,则翻译机器或许很容易就可以设计出来,因为机器只要对每一个中文字符查找出相应的外文翻译并显示出翻译的结果。
被设计出来地计算机不必做比字符翻译更多的工作。这样的计算机把各个孤立的中文字符翻译成英文字或其他国家的字。但是,这样的计算机是无法满足要求的,因为,就象前面已经说过的,中国语言使用大量的词,它们由多个字符所组成,并且在翻译词中的每一个字符时,如果不考虑到由它所结合成词的其他字符,则这一多字符词的意义往往是无法理解的。因此,一台计算机如果只是对句子中的每一个字符查找出它的翻译,总是会得到一个无意义或难于理解并且有时是错误的结果。
例如,一台计算机在遇到下面五个中文字符“我不好意思”并愚蠢地按它们的孤立的意思对应地翻译成“I no good meaning thought”。通晓中文的人,当然懂得这句话的意思,但是对他们来说根本就不需要翻译。但是,对于不通晓中文的人,就要设法猜测这句话的意思,绝大部份人会认为它的意思是“My thoughts have no goodmeaning”(我的思想中没有好的意图)或“I am having thoughts of no good meaning”(我正有着意图不良的想法)或其他。实际上这句话是“我不好意思”即英文的“I beel embarrassed。”在提出本发明以前,还没有一台计算机可以做这样的翻译。
作为另外一个实例,普通话中的“先生”和“太太”是一个单字符,一台计算机把这样的单字符简单地翻译过来看起来好象是没有问题的。然而,在任何一篇中文小说或文章中当涉及到人时,这一台计算机就会做出这样的翻译,诸如“first born Chang”和“very very Chang”等。不容细说,对于那些熟悉中文的人来说,他们知道“first born”是“先生”和“very,very”是“太太”;然而,对于其他的人来说,他们就要费尽心计地去猜这句翻译的意思并且未必见得能猜得正确。
世界上有五分之一的人在使用中文的书写系统。在多种中国方言,诸如普通话与广东话之间并不需要有书写字符的翻译,因为所有的中国方言使用具有相同意义的相同的书写字符,也就是说,所有字符的发音方法是有所区别的。在中国每年所出版的技术文献和文艺作品的量是极为众多的。对于不懂中文的人,当然无法阅读这些作品,而西方的绝大部分训练有素的技术人员对其他的外语都知道不多甚至是完全无所知的。因此,一台计算机如果能把中文的文学作品或技术著作介绍给不懂中文的人是完全必要的。计算机,如果只是简单地把孤立的中文字符译成其他语言的孤立的字,即字符翻译计算机,按前面所列举的实例来看其用处不大;但是,根据法律的要求作为一个总体来考虑,这项超前的技术正是具有一般性技术的人所不曾知道怎样用以来获得较好翻译的。
到目前为止未能得到满足的对于翻译计算机的需求受限于过去的装备,现在可由本发明的新机器的一汉词识别机器(CWIM)来得到解决,这种机器使用人工智能和模式识别技术来分割一个汉字字符串并从该字符串中找出一些词使得翻译的结果不致含有莫明其妙或意义不明的辞句。其特点是:输入字符串中的字符集合三个一群地组合起来,成为三字组,这一过程成为翻译过程的一部份。
本发明的新机器是一台语言处理机,也就是说,它不是一台字符翻译机;它使用新的分割规则和逻辑去识别句子中出现的多字符汉词以此来对这些词提供一个有意义的表达。
包含有单字符词、双字符词、三字符词等的数据库首先被建立起来。各种多字符的词被编在一本多字符词的词典中。
说得更具体一些,共有四本不同的词典,它们是:人名或地方名词典,数字词典,常用词(但非人名、数字)词典和专用词词典(即在前三本词典中没有的技术词目)。因此,新机器的不同用户必须购置不同的型号。例如,医生需要购置的是专业词典中含有医学名词的型号;而物理学家要购置的是含有物理专门名词词典的型号。
打算翻译的中文句子先输入到用来进行翻译的计算机存储器内。句子可以用键盘输入,但由于中文打印机的复杂性,比较好的数据输入方式是不用键盘的,此即使用光学字符阅读机或类似的无键数据输入装置来输入数据。
当输入字符串的三字符组内出现数字时,它们立即就被翻译出来。
随后,输入字符串中的非数字字符被组合成中文字的序列。例如,若一中文句子由十四个非数字的字符所组成。如果该字符串全部由单字符的词所组成,则这些字符就被组合成由十四个词组成的词的序列。然而,十四个字符应包含至少一个或多个多字符的词,新机器就把这字符串组合成候选的中文词序列。由二个字符结合成的词,由三个字符结合成的词等都各自地被组合起来,实现翻译过程的第一步的这种装置被称之为中文词序列的发生器(CWSG)。这样,每一组字符经识别后代表一个可能的或似是的中文词。这些词被看做是候选的词,因为在这一初始的翻译阶段中,这些可能的或似是的词是否代表作者的原意还不能最后确定下来。显然,这一初始翻译阶段是以模式匹配来实现的,也就是说,把这些字符与数字词典,名词词典等词典进行匹配来实现的。很复杂的规则和逻辑顺次地加到输入语句中的每一个三字组上,以识别出候选词,它们暂不送至本发明的输出缓冲寄存器,对于后者将在后面再加以说明。这些候选词被存放在一个词缓冲寄存器内,由这些复杂的规则沿深度方向进行逻辑分析。词缓冲寄存器中的这些候选词经深度方向的分析并按作者的原意进行肯定或删除以后再送至输出缓冲寄存器。重要的是,在显示出最后的翻译结果以前,还有另外一个翻译阶段要加到输出缓冲寄存器内的词上。例如,在英语为目标语言时,最后翻译阶段要把输出缓冲寄存器中的中式表达“Smith先生”改变成“Mr.Smith”。然而,中文的常用词“长时不见”,则对目标语英语来说,是不必再经过这最后阶段翻译的;但对另一些不采用这种词句的语种来说,后阶段的翻译则是必要的。
由似是的词组成的中文字符串输入至字符串分割处理机(CSSP);CSSP使用逻辑规则来确定这一候选词是否被接受以进行最后的翻译,或者要替换成另一个不同的词。与CSSP连在一起的是一个识别词用的知识库,后者则是与前面说过的四本词典连通在一起的。至此可以看出,CWSG的体系结构由CSSP、知识库和词典所组成。
CSSP使用前面已经提到过的三字符分割过程(或TSP)对字符进行最后的分组。TSP通过顺次搜索四本词典进行模式匹配,连接地对每三个结合在一起的字符作分组处理并且通过使用复杂的规则由只是似是的词区别出符合作者原意的词,通过这一些,TSP的句子的字符串中识别出中文的词和短语。
作为一个例子,如果第一个三字组在名词词典中得到匹配,并且在接着使用选定的逻辑规则使这似是的匹配得到肯定后,则这三字组就被认定为一个似是的名词。然而,在所有的逻辑规则都被用过以前,对这候选词不会有翻译结果显示出来,接下来,第二个三字组可能有两个字符在常用词词典中匹配结果,对于余留下来的一个字符,不先认为它是一个单字符词并在词典中搜寻匹配结果,先在字符串中引入两个后续字符以形成一个新的三字组并重复上述过程。然而,如这新三字组中的第一个字符不能识别为多字符词的第一个字符,这一字符就按单字符词来进行翻译。
TSP由若干规则和逻辑定理所构成,它们都是分割用的规则。在本发明中,这些规则的应用分成两个阶段,它们是:初始阶段和深度阶段。
然而,在介绍这些分割规则的概貌以前,先要简明地总述一下这新系统。
新机器的设计和工作次序是这样的:它先把输入中文句子的前六个字符取进主寄存器,于是,通过软件,从这六个字符中取出前三个字符并把它们放进一缓冲寄存器,它被称之为三字缓冲寄存器,取这样的名称是因为在任何时刻它不会取多于三个的字符。一俟这三字缓冲寄存器被装满以后,与该系统结合在一起使用的软件开始执行TSP任务,也就是说,这些分割规则开始发生作用。这里所指的分割规则包括两个阶段;先是初始或开始的模式匹配阶段,这时候选的词被识别出来并且某一些分割规则被用过;后一个阶段是使用所有的规则和逻辑原则来检验这初始或候选的翻译并在必要时对这暂定的翻译进行修正。
第一个规则使机器对三字缓冲寄存器中的第一个字符与数字词典中词进行匹配。如果得到击中的记录,这过程将对以后的字符进行直至数字词典中找不到匹配对象为止。已经识别出来的数字词被放进输出缓冲寄存器内。三字缓冲寄存器于是重新自动地装满,并且第二条规则被施加上去。以这一数字翻译过程作为整个翻译过程的开始是因为所有的数字都单字符词,不会有意义上的混淆不清,因此对它们得到的最终翻译不会存在什么混淆之处。还有,因为表达中文中所有数字的只有十六个字符,数字的翻译是通过硬件实现的,也即通过一块附加的印刷电路板来进行数字的翻译,得到数字翻译结果要求的时间几乎是瞬时的,因为不必消耗时间于搜索一本漫长的词典。
反之,如果在第一条规则被施加以后得不到击中的纪录,也就是说,这一字符不能识别为数字字符,软件系统就会采用第二条规则。第二条规则企图使机器对三字组中的第一个字符识别为单字符非数字词。为了确定这单字符确实是一个非数字的单字符词并且不是双字符词中的第一个字符,在这第二步中也要考虑进第二个字符。在作出这种判定以后,即如经过外词典的匹配,这一单字符为一单字符词,它被识别并放进词缓冲寄存器,随后另外一个字符将从主寄存器中取出以保持三字组缓冲寄存器内始终装有三个字符,并且第二条规则将再被使用。
如果第一个字符要被确认为双字符词中的第一个字符,词典被搜索,对这两个字符进行识别;识别以后的词也放进词缓冲寄存器,这两个字符由三字缓冲寄存器中移出,于是句子中的后面两个字符将从主寄存器移至三字缓冲寄存器,仍旧保持其中继续存放三个字符。
于是第四条规则被使用:如果新的三字组与词典中的三字符相匹配,词的识别工作被完成和由主寄存器取出三个新的字符。
然而,如果按照第四条规则在词典中所做的搜索显示出该三字组的字符为多于三个字符词的一部分,则第五条规则被使用。第五条规则使机器由主寄存器取出几个字符,其数量足以与多于三个字符的词模式相匹配。因为前面已经讲过,三字缓冲寄存器的空间为三个字符,因此这里面的三个字符首先被移至词缓冲寄存器,为凑满这多于三个字符的词所要求的多出来的字符提供空间。按照这种形式,长于三个字符的词被识别,同时被识别的词被移至词缓冲寄存器;当然在上述词缓冲寄存器中的该局部词的字符首先要从词缓冲寄存器移掉。
如果找不到多于三字符的词的匹配,第六个规则使机器去识别是否为二字符词或三字符词,这决定于被匹配的字符的数量。较多的字符从主寄存器取出以形成一个新的三字组并继续进行词模式的匹配。
如果在第六步中得到的识别结果既为二字符词又为三字符词,则第七个规则起作用。用检查姓名词典的方法来试探地解决这个多义性问题。
如果在姓名词典中得不到匹配结果,规则七,其(a)部分使机器由主寄存器取出第四个字符并与词典进行第三、第四个字符的模式匹配。如果得到的匹配结果,规则七(b)使机器用经过上述匹配识别出来的两字符词去替换词寄存器中原来存放着的三字符词。三个新的字符于是从主寄存器中取出以形成一个新的三字组并继续进行词模式匹配。
如果在使用规则七(b)后得不到匹配结果,则规则七(c)使机器由主寄存器取出第四和第五个字符并把第三、四、五个字符与词典进行模式匹配。
如果使用规则七(c)后得到匹配结果,这三个字符被识别为一个三字符词,于是该三字符词就替换掉以前的三字符词。
第八个规则只有用在当相邻的被识别词具有交叠的字符的时候。这时,第八个规则使机器把原来存放的词寄存器中的词换成新词。
第九个规则以及最后第十个规则只有用在所有前面的规则都不能解决的不明确的时候。第九个规则使CWSG从输入的字符串产生出两个词的序列,随后进行上下文分析以选定正确的分割方法。作为上下文分析的一个实例,设有一对语音响应的计算机被用来显示语音,一个字其发音类似“right”、“write”和“wright”的,其识别要看它的前面有否“Mr.”,“Mrs.”,“Ms”或“Miss”。一种相类似的上下文分析被用来解决上面说过的八个规则和逻辑原则在使用以后仍旧余留下来的含义不明确的字符串。
显然,除非所有的含义不明确的字符都被上述规则和逻辑解释以后,不会有词送至输出寄存器以等待最后的翻译。应注意到,这些最后翻译的规则决定于目标语的特性。
用来实现上述运算的电路敷设在一块印刷电路板上,它可以附加到任一种(如IBM兼容机)个人计算机的主插件板上。
本发明的基本目的是提供世界上第一种方法或机器以明确和意义正确地把中文翻译成任何一种外国语言。
另外一个重要目的是提出一种机器,它是有很工程化的形式可被任何一个有(如IBM兼容器)个人计算机的用户所拥有和使用并能有效地实现新方法的各项计算步骤。
随着叙述的深入这两个以及另外一些重要的目的,以及本发明的一些优点和特点将益形明显。
因此本发明包括结构特点,元件的组合和部件的组织,它们将在这里以及以后详情地加以说明;至于本发明涉及的范围将在下面的要求权利中加以说明。
为了较完整地理解本发明的实质和目的,必须对照附图作如下的描述:
图1是本发明的中文词序列发生器(CWSG)的框图;
图2是这个新的翻译计算机系统的设计结构;还有
图3是一功能关系图,它示出本机器的这些IC芯片的相互连接。
几个图中用相同的数字符号来代表相同的部件。
参看图1,这是CWSG的系统组织,它的总体以数字10来代表。CSSP以12来代表,知识库为14,词典的总体为16。就象前面已经很清楚地阐述过的,输入中文字符串18由该系统生成单、双、三字符或更多字符的词以后转变成中文词的序列20。
具体地说,设一中文句子有十四个非数字的字符。为避免复制中文字符起见,它们用符号A,B,C,D,E,F,G,H,I,J,K,L,M和N来表达,在使用前面讲过的分割规则以后,一个中文词的序列20将被表达如下,这里下面划线的相邻字符被识别为各个词:A,B,C,D,E,F,G,H,I,J,K,L,M,N。也就是说,A,B,C,为一个词,D,E,也为一个词,其他以此类推。
现在来参看图2,新系统的设计结构其总体用数字30来代表。如前所述,中文句子31,它当然是一个字符串,通过适当的设备输入至计算装置32的存储器。软件系统由句子中取出前六个字符并把它们沿线路36输入至主寄存器34。一本数字词典35和数字检测器37通过33与分割处理机40相连。三字缓冲寄存器42通过导线44接至分割处理机40。分割处理机40还通过导线48接至词缓冲寄存器50。线54把词缓冲寄存器50接至输出寄存器56。输出寄存器56用来存放成为词序列的中文句子,但是最后翻译成目标语言则是由软件58来实现的。其中含有目标语言翻译的规则和逻辑。
具有这些背景概念以后,可以从事有意义的审阅图三。根据图3和以下的说明电路设计和计算机工程中的普通技能可用来构成该机器并用该机器来实现本发明的各个步骤。
在图3中以数字60来代表用以设计汉词识别机器CWIM的IC芯片的总体。个人计算机32附设着带有上述芯片的印刷电路板被示出于该图的左侧,使各芯片的动作同步的时钟装置62则示出于右侧。时钟装置62中含有一时钟发生器U2(型号82284),和一具石英振荡器XI,后者的作用是主振频率发生器。所有元件的号码前面冠以U的都是IC芯片。所有的芯片都可在诸如Lafayette Radio(商店名称)的电子元件商店中购得。
分割处理机40与时钟62通过连线64相连接而与三字缓冲寄存器42则通过连线44相连接。为简化说明起见,把各部件连接在一起的线路装置将不加以叙述,并且它们已在图3中被示出。类似地,为了简化图上的表达,也因为这些仅属于一般性的技芯,电源、接地以及其他众所周知的部件在新电路中均未示出。分割处理机40包括一个微处理机U1(型号80286),一个寄存器U24(型号74LS10,它是多个三输入的NAND门)和一个现成的装置U25(型号74LS21,它是多个四输入的AND门)。
词典的号码为35,它是一2K×8的PROM,U19(型号27S191),这是新机器硬件中的一部份,还有一些如词典16等,在图3中并未示出,是名词词典,它在图1的介绍中曾被指出过;这些词典存放在PC的硬磁盘中并与新设计的印刷线路板相耦连。
数字检测器37由芯片U20,U21,U22和U23组装而成,因此,它也是新设计的硬件的一部分,芯片U20是一个数字解码器(型号74LS153,这是一个4.1选通器);芯片U21(型号74LS175)是用来识别数字的计数器;芯片U22(型号74LS125)的作用为输入一个被识别的数字,是一只四路的总线寄存器;还有芯片U23(型号74LS00)用来检测被识别的数字,它是多个双输入的NAND门。芯片U5和U6相同,为八位D锁存器(型号74LS374),它们所起的作用为一个本地地址缓冲器80。这两片芯片如图所示地被连到分割处理机40和本地地址解码器82,后者的型号为74LS139,它所提供的为2-4解码器。
分割程序的规则和逻辑被存放在芯片U7和U26中,其型号相应地为27S191和74LS02,它们组合起来提供分割程序和分割程序控制装置,后者为图3中的84。芯片U7是2K×8PROM,而芯片U26则是多个双输入的NOR门。本地总线控制86由芯片U3(型号82288)所提供。
主寄存器34,三字缓冲寄存器42,词缓冲寄存器50和输出寄存器56各相应地为芯片U9,U10,U11和U12;它们都是RAM 4K×4×4,其型号为2168×4.芯片U13(型号74LS175)对所有上述的四个寄存器提供开关装置。它是多个六/四D触发器。四个寄存器的读写总线控制由芯片U27(型号74LS00)所提供,它是双输入的NAND门。芯片U28(型号74LS32)是双输入的OR门,它对所有上述四个寄存器进行控制。
数据收发器88由芯片U29,U30和U33所形成。具体地说,芯片U29和U30(型号74LS245)是八位总线收发器,它们用来实现总线一数据收发器的功能;还有芯片U33(型号74LS32)是多个双输入OR门,它实现总线地址控制的作用。
地址收发器90由芯片U31,U32和U34所形成。总线-地址收发器的功能由八位线路驱动器(芯片U31和U32,型号74LS244)所提供;而母线-地址解码器的输出功能则由芯片U34所提供,其型号为74LS30,它是多个8输入NAND门。
92是地址解码装置,它由芯片U17,U35和U38以及地址开关SW(型号DIP-8)所组成。芯片U17(型号74LS139)是一具2-4解码器并实现总线控制解码器的功能。总线-地址解码器的功能由多个双输入或-非门所提供,它们是芯片U35和U36(型号74LS86)。芯片U38(型号74LS74)起总线-控制解码作用,它是多个双D触发器。
控制输出的功能由控制输出装置94所实现,这就是由PC32至分割处理机40的控制;该功能由芯片U15和U18所提供,它们的型号都是74LS374。芯片U14和U16具有相同的型号,实现一定功能的控制作用。具体地说,装置96中的控制是沿反方向,即由分割处理机40至PC32,控制数据流。
分割处理机40被预设装置98进行预先设置,后者是芯片U37(型号74LS175),它是多个触发器。
在把本发明的结构细致地揭示出来以后,现在可以来说明本路线的作用过程了。实际上,新的作用过程包括以下十个步骤。请参看图2及图3。
第一步:向PC32的存储器输入中文句子31。
第二步:由PC的存储器读出这句子的前六个字符并从线36通过数据收发器88(芯片U29,U30和U33),地址收发器90(芯片U31,U32和U34)和地址解码器92(芯片U17,U35,U36,U38和开关SW)输入主寄存器34。接着,由主寄存器向三字缓冲寄存器移三个字符。
第三步:分割处理机40于是通过线路44由三字缓冲寄存器42取出第一个字符,并在数字检测器37(芯片U20,U21,U22和U23)和数字词典35(芯片U19)中检测出数字字符。如这个数字字符被检测出来,分割处理器把它送进输出缓冲寄存器56,于是主寄存器和三字缓冲寄存器自动地重新得到补满。这一过程一直进行到所有后续的数字字符都被识别出来为止。请注意,在识别数字词时并不用到各分割规则,并且上述的数字词被直接送至输出寄存器56而不是词寄存器50。
第四步:分割处理机于是从主寄存器34取出前三个字符,其中包括在第三步中取出的字符,并把它们输入三字缓冲寄存器42;这是从线路44通过本地址收发器80(芯片U5和U6),本地地址解码器82(芯片U4),和本地总线控制86(芯片U3)来进行的。主寄存器34重新被自动地补满,因为上述的字符已由其中移走。
第五步:PC32由线路46从三字缓冲寄存器42取三个字符,这是通过数据收发器88,地址收发器90和地址解码器92来进行的。
第六步:PC32从存放在硬盘中的各词典通过软件来搜索词-模式的匹配,该软件被称之为CITAC软件,是由本发明者所提供的。CITAC软件还对被匹配词施加某些新的规则和逻辑,它接受得到匹配的结果并删去其他的。
第七步:PC把所有暂时被识别的词输入至词缓冲寄存器50;这些词只是一些候选的词,因为它们还不曾经过所有的新规则的检验。这台新机器被设计得既快又正确,已经发现在这一翻译阶段,对这些规则和逻辑的初期使用可以有效地刎除显著的错误而不致使整个过程有不适当的延长。
第八步:分割处理机40确定出正确的分段,即由存放在芯片U7和U26(它们组成装置84)中的分割程序规则和逻辑把字符组合成词;所说的规则和逻辑则在前面已经有过介绍了。
第九步:分割处理机从线路54把组合起来的相应于各词的各分段送至输出寄存器56,这是通过本地地址发送器80、本地解码器82和本地总线控制86就象第四步中一样地进行的。
第十步:PC于是通过线路57取出被识别的词以进行最后的翻译和显示。CITAC软件执行最后的翻译成目标语言的工作。显示可以采用任何一种适用的方式,诸如打印输出,屏幕显示或以语言合成器实现的语音输出。最后的输出装置以数字59来代表并与计算机32通过线路61形成电的连接。
很清楚,本发明是新的且有用的。并且,根据法律有要求作为总体考虑来说这是一项超前的技术,它是到目前为止掌握一般技巧的人所还没有搞清楚的。
这一重要的发明是中文翻译计算机的技术的先驱,它是一个显著的突破,因此,下面的权利要求被提出来作为一种法律上的广泛解释使有权利来保障本发明的核心或实质内容不受侵犯。
应该看到,上面所提的一些目的,它们通过前面的描述已被解释清楚,并且这些目的已很有成效地被达到。再者,因为对于上述的描述可能有某些不偏离本发明范围的改变,所以在前面的描述内包含的全部材料以及附图中示出的全部材料都应被解释为完全是说明性的,它们不代表某些限制。
还应有这样的理解,即下面的权利要求包括这里描述过的本发明的全部一般性专门性的特点;还应包括本发明范围的所有陈述,这个范围从语言角度来看可以说明介乎一般性和专门性之间的。
到此为止,本发明已被说明。