汉语字词全息编码方法及键盘 本发明汉语字词全息编码方法及键盘属于数据处理装置领域,特别是一种汉字编码方法及其所用键盘,能简便地把汉字输入计算机及其它类似设备和用作汉语字、词典等工具书的编目、索引,成为一种可供计算机和徒手使用的多功能编码。
汉字排检法主要有音形两种,拼音或音形结合编码,利用汉语音素少,读音简单,但要求认、读准确,所以输入效率低,限制大,不利于广泛推广使用。字根编码法是将汉字分解为上百个字根,用一码多根的方法,字根量大,记忆困难。笔形编码是将汉字分解为几种基本笔形,重码率高,输入速度低。各种编码都不能解决编码在计算机中和字、词典中通用排检的难题,不利于推广和普及。CN1064556A公开了一种利用汉字结构和部件笔形、笔画的编码方法,它的不足之处是结构形码有十三个,笔画数码26个,不利于记忆和键盘操作。
本发明的目的在于避免现有技术的不足之处而提供一种编码规律性强,简单实用,输入效率高,易学易用,不需要操作人员大量记忆,利用汉字结构划分区位,结合部件笔画和笔形编码,对CN1064556A进一步改进,可用于计算机输入和汉语字、词典排检通用的汉字编码方法及键盘。
本发明汉字编码方法是利用汉字结构作纽带,结合笔画和笔形排检汉字,从汉字的整体结构,顺其自然,根据汉字书写规律,将汉字分解成合理的、简单易认的几个部件或部首。分解后的部件笔画数减少,可以用笔面数和笔形作为编码。本发明的关键构思在于对汉字进行整体性抽象分析,将汉字化简定位,把汉字的结构抽象为符号,作为编码中的汉字结构代码,对分解后的简单部件,用部件笔画数和部件的起笔笔形作为数码,形码和数码结合组成字符编码对应汉字。汉字经过结构抽象分析,分解后地部件笔画大大减少,解决了数笔画之难,经过对46980个词的数码测算,2—5画码占90%,6画以上码占10%。根据汉字的结构,将汉字划分为两大类,十三种形式,两大类是左右结构类和非左右结构类,十三种形式是独体结构形,上下结构形,左右结构形,包围结构形,上下加上下结构形,上下加左右结构形,上下加包围结构形,左右加上下结构形,左右加左右结构形,左右加包围结构形,包围加上下结构形,包围加左右结构形,包围加包围结构形。每一个汉字根据划分的部件为独体字,两部件组成的字和三部件组成的字。两大类结构形各给一个形码,划分后的汉字部件每一部件的笔面数和每一部件第一笔的笔形作为编码的数码。笔形分为横、竖、撇、点、折五种。把以横、竖、撇三种笔形起笔的部件笔面数设3—5画,3面以内用3画代替,5画以上用5画代替;把以点起笔的部件笔画设2—4画,1画用2画代替,4画以上用4画代替;折不计笔画数,设定为1画,共13个数码。每一个汉字用四个码组成一个字符编码,1个形码,3个数码。每一个汉字有一个形码,数码的选取根据字的结构选取,汉字分为两大类结构形式,每一汉字根据划分的部件为独体字、两部件组成的字和三部件组成的字。独体字数码的选取用笔画数和前三笔笔形构成三个数码;两部件组成的字,数码的选取,第一部件取笔画数和第一笔笔形构成一个数码,第二部件取笔画数和第二部件前两笔笔形构成两个数码;三部件组成的字用三部件的笔画数和三部件的第一笔笔形构成三个数码。
两个以上的字组成的词编码根据不同的字数来取,二字词,第一个字取一个数码,第二个字取两个数码;三字词,第一个字取一个数码,第二个字取一个数码,第三个字取一个数码;四字以上的词,第一、二字各取一个数码,最后一个字取一个数码。词符的每个取码字各有一个形码,输入时,按照形码的区位输入数码,省略输入形码。
本发明提供的键盘至少包括26个英文字母键和一个空格键,将英文键盘的26个字母键分为2个区,左区QWERTASDFZXCV13个字母键,右区YUIOPGHJKLBNM13个字母键,键盘左区键位对应汉字左右结构类形码,键盘右区键位对应汉字非左右结构类形码。26个数码键对应排列在键盘上。
本发明的主要优点是编码方法简单一致,字符和词符形式统一,徒手使用和计算机输入方法统一,对所有汉字、词语无一例外,是一种全息型码,用作计算机的输入排检,字、词兼容,统一编排,26个键操作方便,用于徒手排检,编码规则少,规律性强,易学、易用、易记,重码少,效率高,适用于繁、简体字,应用范围广泛,识码准确,排检迅速,容量大,三位码可输入国标一、二级汉字,常用词一万余条,四位码可输入全部汉字,词语30万条,平均码长1.48键。
附图1是汉字形码在键盘上的排列。
附图2是汉字数码在键盘上的排列。
附图3是汉字形码、数码在英文键盘上的排列。
附图4是本发明在一个实施例键盘上的排列。
下面结合附图对本发明作进一步的说明。
本发明的关键构思在于对汉字进行整体性抽象分析,将汉字化简定位,把汉字的结构抽象为符号,作为编码中的汉字形象代码。对分解后的简单部件,用部件笔画数和部件的起笔笔形作为数码,形码和数码结合组成字符编码对应汉字。本发明将汉字化简定位,把汉字的结构抽象为符号,作为编码中的汉字结构代码。根据汉字的结构,将汉字划分为两大类,两大类是左右结构类和非左右结构类,左右结构类用符号M表示,非左右结构类用符号O表示。将汉字划分为十三种形式,独体结构形,例如天,上下结构形,例如芒,左右结构形,例如林,包围结构形,例如国,上下加上下结构形,例如盒、苦,上下加左右结构形,例如华、花,上下加包围结构形,例如恩、茵,左右加上下结构形,例如故、持,左右加左右结构形,例如例、彬,左右加包围结构形,例如欧、河,包围加上下结构形,例如赵、周,包围加左右结构形,例如鼎、麻,包围加包围结构形,例如彪、疯。字体结构的划分要有明确的界线,相对完整,从大到小,合体字最多划分为三个部件。对分解后的简单部件,用部件笔面数和部件的起笔笔形作为数码,划分后的汉字部件用每一部件的笔画数和每一部件第一笔的笔形作为编码的数码。笔形分为横包括提,竖,撇,点包括捺,折包括所有的折笔五种。把以横、竖、撇三种笔形起笔的部件笔画数设3—5画,3画以内用3画代替,5画以上用5画代替;把以点起笔的部件笔画设2—4画,1画用2画代替,4画以上用4面代替;折不计笔画数,设定为1画,共13个数码。,每一个汉字用四个码编码,1个形码,3个数码。形码有左右结构类M和非左右结构类O。数码的选取根据字的结构选取,汉字分解为十三种结构形式,划分为三大类,独体字例如王,两部件组成的字例如汪和三部件组成的字例如花。独体字数码的选取用笔画数和前三笔笔形构成三个数码,例如木独体类,是4画,前三笔是横、竖、撇,它的数码是4横、4竖、4撇;两部件组成的字数码的选取第一部件取笔画数和第一笔笔形构成一个数码,第二部件取笔画数和第二部件前两笔笔形构成两个数码,例如杜,第一部件是4画,起笔笔形是横,数码为4横,第二部件笔画数为3,前两笔笔形横、竖,数码为3横、3竖,杜的数码为4横、3横、3竖;三部件组成的字用三部件的笔画数和三部件的第一笔笔形构成三个数码,例如花,三部件的笔面数为3画、2画、2画,三部件第一笔笔形为横、撇、撇,数码为3横、2撇、2撇。数码的排列按字的部件书写顺序,包围类一律按先外后内的顺序排列。
两个以上的字组成的词也采用形码,数码组成词符,形码根据取码字的结构来取,数码根据不同的字数来取。二字词,第一个字取一个数码,第二个字取两个数码,例如车间,它的数码为4横、3点、4竖;三字词,每一个字各取一个数码,例如思想性,它的数码为5竖、4横、3点;四字以上的词,第一、二字各取一个数码,最后一字取一个数码,例如生活资料,它的数码为5撇、3点、4点;例如人民共和国,它的数码为3撇、1折、3竖;例如中华人民共和国,它的数码为4竖、3撇、3竖。每一个数码各对应取码字的一个形码,输入时,按照形码的区位输入数码,省略输入形码。
如附图1、附图2、附图3所示,本发明提供的键盘至少包括26个英文字母键和一个空格键,将英文键盘的26个字母键分为2个区,左区QWERTASDFZXCV13个字母键,右区YUIOPGHJKLBNM13个字母键。键盘左区的每一个键位对应一个汉字结构形码M,Q(M)W(M)E(M)R(M)T(M)A(M)S(M)D(M)F(M)Z(M)X(M)C(M)V(M);键盘右区的每一个键位对应一个汉字结构形码O,Y(O)U(O)I(O)O(O)P(O)G(O)H(O)J(O)K(O)L(O)B(O)N(O)M(O),形码不分字词,字、词混打,不用换挡。26个数码键对应排列在键盘上,每一个键位对应一个数码键,与英文键盘对应,左区Q(4点)W(4撇)E(4竖)R(4横)T(1折)A(3点)S(3撇)D(3竖)F(3横)Z(2点)X(5撇)C(5竖)V(5横),右区Y(折)U(4横)I(4竖)O(4撇)P(4点)G(3横)H(3竖)J(3撇)K(3点)L(2点)B(5横)N(5竖)M(5撇)。
由于采用分区输入,左右结构类在键盘左区,形码M,非左右结构类在键盘右区,形码O 。在汉字输入时,按汉字的两大类结构分区输入,形码固定在键盘上。输入字、词时,省略输入形码,只输入数码,大大简化了输入方式,提高效率,例如河,它的编码是M、3点、2横、3竖,对应英文键名AFD;河流,它的数码是3点、3点、4点,对应英文键名AAQ。笔形可以用符号代替,横(一),竖(丨),撇(丿),点(丶),折()。本发明形式上是由形码和数码组成,而输入时只有三位数码,形码固定在键盘上。分区输入,省略了形码的输入,每个字符隐含着一个形码,每个词符隐含着2—3个形码,因此重码很少。在需要扩大输入量时,可在取码方法和键盘不变的情况下,延长码位,例如变成4位码,多取一个数码,输入词语在30万条以上。
为了提高输入效率,可以采用简码输入,高频字一码输入,常用字两码输入。键盘上形码按区位设定,字符输入的数码,第一个数码要按照字的形码区位输入,其余数码可在不同的区位输入,可大大提高输入速度。
如附图4所示,本发明的编码方法可以适应简化了的键盘,它是十个数码键和一个空格键,将数码键分为两个区,右区23456,左区65432,左区对应一个汉字结构形码M,右区对应一个汉字结构形码O,左区的数码键与笔形横(2)、竖(3)、撇(4)、点(5)、折(6)对应,右区的数码键与笔形折(6)、点(5)、撇(4)、竖(3)、横(2)对应,输入字符编码时,根据字的结构,分区输入,一个数码要击键两次,一个数码键和一个笔形键结合组成一个编码,例如3横,先击数码键3,再击笔形键横。