汉字输入法编码方案 本发明涉及一种计算机汉字键盘输入方法及其派生的两种汉字输入法。它是依据汉字的字音,笔形和结构三个显著的特征,按照三要素的优化配置编制而成的。三种输入法优势互补构成一套完整的汉字输入方法。
目前,计算机的汉字输入法,呈现出“万码奔腾”的现状,众多方案各有所长。它们存在的主要问题是:好学的不好用,好用的不好学。五笔字型输入法,以其重码少,可以快速盲打著称。但是,它的规则繁多,学习不便。非专业打字人员不容易掌握。全拼输入法,只要会汉语拼音的人,几乎不用学习就能使用它。但是,它重码多,多次翻页捡字非常繁琐。目前流行的汉字输入法,多数是单一输入法。五笔字型是形码方案,全拼输入法是音码方案。缺少在一个总体构思下,音码,形码和音形码有机结合,优势互补的完整成套的输入方法。由于汉字的复杂性,单一输入法很难解决易学和易用的问题。汉码的发展趋势是建立音形优势互补的成套输入法。
本发明的任务是:解决汉码的易学和易用问题(后文将详述)。
下面介绍月亮汉字输入法编码方案
首先,说明有关键盘键位地代号布局问题。月亮码的码元是A至Z一共26个小写英文字母。其中Z字母的代号为00,其它A至Y25个字母分为五区,五区又分五位。五区分别为1区即横区(G F D S A),2区即竖区(H J K L M),3区即撇区(T R E W Q),4区即捺区(Y U I O P),5区即折区(N B V C X)。每区中的第一个字母是1位(横位),第二个字母是2位(竖位),第三个字母是3位(撇位),第四个字母是4位(捺位),第五个字母是5位(折位)。五区五位的分法与五笔字型的分法基本上相同。这样25个字母就分别有了11至55一共25个代号(详见附表1)。
其次,说明汉字的三大特征。汉字的特征(即,属性)有很多。有字音,字形,字义等多个方面的特征。就汉字编码而言,比较适用的是字音和字形两个方面的三大特征(即,字音,笔形和结构)。字形特征包括笔形特征和结构特征。
一.字音:每个汉字都有标准发音,这是它区别于其它汉字的重要特征。月亮码中选用了字音要素。并且确定,音码为汉字汉语拼音的第一个字母。如:汉,其音码为H。音码一共有23个,即,A B C D E F G H J K L M N O P Q R S T WX Y Z。需要说明的是:国标6763个汉字中,有41个没有发音的汉字偏旁部首。它们的音码用字母O表示,即把它们归入0部。这23个音码在键盘键位表上,分别用和它们相同的英文字母表示。键盘上有26个编码键位,除去23个音码键位以外,还有UIV三个空键位,它们没有配置音码。它们用于配置汉字的结构码(后文将详述)。
二.笔形:笔形是指汉字的笔画形状。汉字的笔画形状有30多种。人们通常把它们分为五类。即,五种基本笔画(横,竖,撇,捺,折),其它笔画分别并入其中。其中,挑笔归入横笔,竖左钩归入竖笔,点笔归入捺笔,各种折弯钩归入折笔。月亮码也采用了这种划分方法。
笔画是汉字最显著的特征。通过笔画区别汉字是汉字区分的根本出发点。月亮码中选用了笔形要素。并且定名为笔形码。而且确定,用汉字的特征笔画组合表示笔形码(后文将详述)。
月亮码选用了汉字的四利特征笔画(即,首笔,次笔,末笔和次末笔)。
首笔是指汉字(或汉字块)的第一个笔画。
次笔是指汉字首笔之后的哪一个笔画。
末笔是指汉字(或汉字块)的最后一个笔画。
次末笔是指汉字末笔之前的哪一个笔画。
特征笔画组合是指,四种特征笔画中,两个组合在一起用于表示汉字(或汉字块)的编码。特征笔画组合有三种,即,首末组合,首次组合和末次末组合。
首末组合是指特征笔画中,首笔和末笔组合在一起,构成一个编码。
首次组合是指特征笔画中,首笔和次笔组合在一起,构成一个编码。
末次末组合是指特征笔画中,末笔和次末笔组合在一起,构成一个编码。
首次组合和末次末组合只用于独体字(即,单块字)的编码。首末组合的代号和编码,详见附表3,首次组合和末次末组合的代号和编码与首末组合的基本上相同。区别仅仅是:首次笔画组合,把附表3中的末笔换为次笔;末次末组合,把附表3中的首笔换为末笔,末笔换为次末笔。
在附表3中,首笔栏目中的笔画指向键盘键位区号,末笔栏目中的笔画指向位号。这样,只要首笔,末笔确定了,它的键位代号也就确定了,编码也就确定了。首末组合的情况是这样。同理,首次组合和末次末组合也是如此。
三.结构:汉字的另一个主要特征是它的结构。独体字(单块字)是由笔画直接组成的。合体字(多块字或双块字)是通过汉字块的各种结构(如:左右,上下,包围等)构成的。在国标6763个汉字中,独体字很少,大多数汉字都是合体字。这充分说明了结构的重要性。
人们通常用两种方式区分汉字的结构。一种是,把汉字分为独体字(单块字)和合体字(多块字)两种,又把合体字分为左右型,上下型等。另一种是把汉字分为左右,上下,包围和独体四种结构。为了使汉码易学易用,有必要对这两种传统的结构形式进行整理,并且重新分类。月亮码把前一种结构形式定名为汉字的两块结构。把后一种定名为汉字的三种结构。
一,汉字的两块结构。它是把汉字分为单块字(独体字)和双块字(多块字视为双块字)两种。大多数多块字(合体字)都可以非常直观的分为两块。其它少量的不容易分为两块的多块字可以运用汉字拆分规则,把它们分为两块。月亮码确定用汉字的特征笔画组合表示汉字的两块结构(后文将详述)。
二,汉字的三种结构。传统的四种结构,在国标6763个汉字中的比重是不均衡的。其中,左右结构的字约占63%,上下,包围,独体三者合一约占37%。因此,这就有必要对左右结构的字进行再分类。在左右结构的字中,又包含上下结构的超过一半,约占56%,其它左右结构的字约占44%。上述数据是通过对国标6763个汉字的结构进行分类统计得到的。因此,月亮码确定把汉字的结构分为三种。即,左右上下结构(约占36%),其它左右结构(约占27%)和其它结构(约占37%)。
汉字的三种结构的区分并不困难。首先,把国标6763个汉字都归入两类,即,左右结构和其它结构。然后,再从左右结构的类中分离出左右上下结构的字。剩余的就是其它左右结构的字。需要注意的是,哪些字是左右上下结构。下面,我们分析一下左右结构的字。左右结构的字有双重左右和多重(三重,四重等)左右之分。左右上下结构的字只从双重左右的类中分离。即,多重左右的类中不包括左右上下结构的字。在双重左右的字中,只要它还含有上下结构的特征(不论它是左含,右含,还是双含)就视为左右上下结构。请注意:“桅”字是左右上下结构,而“搌”字不是左右上下结构。因为,“危”是上下结构,而“展”是包围结构。
汉字的三种结构的编码非常简单。前文字音部分曾经述及,26个编码键位中音码占用23个,还有U I V三个没有占用。在这里,把三者用于汉字的三种结构的编码(详见附表2)。这样的编码安排,使音码和结构码不会重码。这为以后运行各种方案不须切换打下了基础。
月亮汉字输入法就是以汉字的这三大特征为基础,通过各要素的合理选配,从而编制成了月亮甲,月亮乙和月亮丙三种输入法。每种输入法都有单字输入和词组输入。其中单字输入三种方法各有特点,词组输入三种方法合用一种。三种输入法中,月亮甲是主输入法,另两种是辅助输入法。
下面分别介绍三种汉字输入法
一.月亮甲输入法:该法是一种字音和字形结合的音形码。它的码长是三位(即,击三键就可以输入一个汉字)。月亮甲的第一位码是音码,它的第二,三两位码是结构码,结构选用前文述及的汉字的两块结构。
1.月亮甲=第一位码+第二位码+第三位码
=音码+结构码+结构码
2.音码:它是汉字汉语拼音的第一个字母。如:汉,其音码为H
3.结构码:月亮甲确定用汉字的特征笔画的组合表示汉字的两块结构。单块和双块的字的编码有所不同。
第一.单块结构:用汉字的首笔和次笔表示第二位码(即,使用首次特征笔画组合)。用末笔和次末笔表示第三位码(即,使用末次末特征笔画组合)。
第二.双块结构:用第一块的首笔和末笔表示第二位码,用第二块的首笔和末笔表示第三位码。(即,使用首末特征笔画组合)
4.汉字的拆分规则。大多数汉字都可以非常直观的分成两块。但是,也有少数汉字不容易拆分。这就需要按照一定的规则进行拆分。
第一.相离可分,相接可分,相交不分,单笔不成块。
1.相离可分:如,“华”字可以分为“化”和“十”两块。
2.相接可分:如,“示”字可以分为“二”和“小”两块。
3.相交不分:如,“夫”字不能分为“二”和“人”两块。
4.单笔不成块:如,“旦”字不能分为“日”和“一”两块。还有亿,旧,习,乱等都是单块字。按照这个规则,三笔以下的汉字都是单块字。
第二.成字优先,固定搭配优先。
1.成字优先:如,“意”字可以分为“音”和“心”两块。
2.固定搭配优先:如,“寒”字可以分为和两块。“寨”字可以分为和“木”两块。
第三.相对均匀,先少后多。
1.相对均匀:如,“篡”字可以分为两块。
2.先少后多:如,“参”字可以分为“ム”和两块。
用月亮甲方案编制成的月亮码,其重码率很低。单个汉字的最高重码次数为9,即,只有十个重码字。可以在一屏之内显示完,不须要翻页捡字。例如:月亮码为“ZGS”和“ZGW”的两个码都是只有十个重码字。
二.月亮乙输入法:该法也是一种音形码,它的码长也是三位。它的第一位码是结构码,它的第二位码是音码,它的第三位码是笔形码。它与月亮甲不同的是:该法中,汉字不需要拆分(即,汉字不分块)。结构码使用前文述及的汉字的三种结构。
1.月亮乙=第一位码+第二位码+第三位码
=结构码+音码+笔形码
2.结构码:它用的是汉字的三种结构的编码。即,左右上下结构的汉字的编码是U,其它左右结构的字的编码是I,其它结构的字的编码是V(详见附表2)。
3.音码:它是汉字汉语拼音的第一个字母。
4.笔形码:它由汉字的首笔和末笔组成。它是汉字特征笔画组合中的首末组合的编码(详见附表3)
月亮乙方案的特点是汉字不需要拆分,三利结构容易掌握。凡是两块结构不容易拆分的汉字,它的三种结构是很容易确定的。因此,月亮乙可以弥补月亮甲的不足。是很好的辅助方案。例如:“参”字的两块结构不容易区分,但它的三种结构容易确定。在月亮乙中,单个汉字的最高重码次数是35,即,一共有36个重码字。在一屏显示20个重码字的情况下,它只须翻一页就可以显示完所有的重码字。这对于翻页捡字是很方便的。在月亮乙中,月亮码为“VZS”的汉字一共有36个,它的重码次数是35。
三.月亮丙输入法:该法是综合月亮甲和月亮乙而形成的,它属于形码方案。它的码长是四位,前三位都是结构码,第四位是固定码,用字母Z表示。它的第一位结构码与月亮乙中的结构码相同,选用的是汉字的三种结构。它的第二,三两位结构码与月亮甲中的第二,三两位结构码相同,选用的是汉字的两块结构的编码。月亮丙的码长其实也是三位,第四位Z是为了运行各种输入方式不须切换而加上的一位码。
1.月亮丙=第一位码+第二位码+第三位码+第四位码
=三种结构码+两块结构码+两块结构码+Z
2.三种结构码:它是汉字的三种结构的编码(详见附表2)。
3.两块结构码:它是汉字的两块结构的编码。
月亮丙方案的特点是,它没有音码,它只有结构码。凡是不知道字音的汉字用月亮甲和月亮乙都不能输入。但是,用月亮丙可以输入。因此,它可以弥补月亮甲和月亮乙的不足。它也是一种很好的辅助方案。只要掌握了汉字的两块结构和三种结构就能方便的使用它。在月亮丙中,单个汉字的最高重码次数为43,即,有44个重码字。在一屏显示25个重码字的情况下,它只须翻一页,就可以显示完所有的重码字。这对于翻页捡字也是很方便的。在月亮丙中,月亮码为“UGSZ”和“IGSZ”的两个码都是有44个重码字。
四.月亮词组输入法:月亮甲,乙,丙三者合用一种词组输入法。即,三者的词组输入法相同。它可以输入两万八千条两字,三字和四字常用词组。该法没有编制5字以上的词组。词组输入以音码为主,形码为辅。词组码长都是四位。它们的输入规则如下:
1.四字词组=一音+二音+三音+四音
2.三字词组=一音+二音+三音+一首和三末
3.两字词组=一音+二音+一首末+二首末
在规则中,“音”是指音码,“一首和三末”是指三字词组中第一个字的首笔和第三个字的末笔。即,一,三两个字的首末笔画组合。“一首末”和“二首末”是指第一或第二个字的首末特征笔画组合。月亮词组输入法,它的词条很多,达两万多条。但是,它的重码率很低。词组的最高重码次数为9,即,只有十个重码词。例如,月亮词组输入法中,月亮词码为“ZZGG”和“ZZSS”的两个码,都是只有十个重码词。并且,都可以在一屏之内显示完,不需要翻页捡词。
五.简码字输入法:在常用汉字中,有一些字的使用频度很高,即,高频字。为了简化这些字的输入,月亮输入法编制了26个最常用的高频字的输入法。这26个字的编码用键盘上A至Z26个字母表示。它们的码长都是一位,即,击一键就可以输入它。这26个字按照键盘上的五区五位排列,具体表示如下: G F D S A H J K L M T R E W Q 这 是 在 中 国 到 时 有 一 个 要 以 和 为 上 Y U I O P N B V C X Z 他 来 不 用 了 我 们 的 人 生 大
六.月亮汉字演示盘:该盘是一张容量为1.44MB的3.5寸软盘。盘中一共有二十二个文件。首先,有两个文本文件是关于演示盘的内容说明。其次,有四个FOXBASE+语言文件。月亮汉字的演示程序是用FOXBASE+语言编写的,它需要在此环境下运行。再次,有四个字词库文件。它们分别是一个字词库文件,一个字库文件和两个索引文件。最后,是两套月亮汉字运行程序文件,一共有十二个。其中一套是源程序PRG文件。另一套为经过编译的执行程序FOX文件。每一套各有六个文件。它们分别为主程序文件一个,子程序文件五个。
在演示盘中,重码字词的显示是通过三个子程序(LY1,LY2,LY3)实现的。其中,LY3是词组专用程序。每屏可以显示两行重码词组,一共十个。LY2是用来显示重码单字的,每屏可以显示20个重码字。LY1也用于显示重码单字,每屏可以显示25个重码字。下面以每屏显示25个重码字为例,说明显示问题。25个重码字的序号分别用A至Y25个字母表示,并且,25个字母是按照它们在键盘上的五区五位的位置,每五个为一组,有规律的排列。具体表示如下:G F D S A H J K L M T R E W Q Y U I O P N B V C X1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5在显示的时候,重码字在下,其序号在上,分两行显示。重码字一屏显示不完时,可以翻页显示。翻页键为“,”(即,<键位)是向前翻页。“.”(即,>键位)是向后翻页。
前面叙述了月亮输入法的各种输入方式。为了直观的显示各种输入码的特点,后文编制了一张表格用于它们之间的对比(详见附表4)。下面谈一谈本发明的任务的解决问题。为了使月亮码易学易用,本方案采用了三项措施。
第一,汉字特征笔画的使用。由于用笔画组合表示汉字的笔形码和结构码,使人们不需要大量记忆字根和繁琐规则,就能实现汉字输入,从而方便用户使用。
第二,汉字两类结构的划分。在汉字的两块结构和三种结构的确定过程中,使用了非此即彼的逻辑规则。例如,在两块结构中,不是单块就是双块。在三种结构中,不是左右结构就是其它结构。在左右结构中,不是左右上下结构,就是其它左右结构。这样使人们很容易掌握两类结构。
第三,优化重码字词的显示和翻页。其它汉字输入法的重码字词的显示,一般都是每屏显示十个。如果有50个重码字,就需要翻页5次。由于重码字序号键位距中心行键位较远,击键选字时影响输入速度。月亮码采取的措施是扩大每屏显示重码字的容量和拉近重码字序号键距中心行的距离。月亮码中,每屏最多可以显示25个重码字。重码字的序号分别用A至Y25个字母表示。并且,25个字母是按照它们在键盘上的五区五位的位置,每五个为一组,有规律的排列。这样就有效的解决了容量小,距离远,翻页多,速度慢的问题。
这三项措施的实现是通过演示盘中的程序文件体现出来的。本方案用汉字的特征笔画和汉字的两类结构,编制了月亮码的字词库文件。优化重码字词的显示和翻页体现在月亮汉字的三个子程序(LY1,LY2,LY3)中。这些措施的实现,充分显示了月亮输入法的易学易用特性。
附表1.键盘键位代号布局表附表2.汉字三种结构编码表 结构名称 代号 编码左右上下结构 42 U其它左右结构 43 I 其它结构 53 V
附表3.汉字特征笔画组合编码表首笔一 一 一 一 一丨 丨 丨 丨 丨 丿 丿 丿 丿 丿、 、 、 、 、乙 乙 乙 乙 乙末笔— 丨 丿 丶 乙— 丨 丿 丶 乙— 丨 丿 丶 乙一 丨 丿 丶 乙一 丨 丿 丶 乙代号11 12 13 14 1521 22 23 24 2531 32 33 34 3541 42 43 44 4551 52 53 54 55编码G F D S AH J K L MT R E W QY U I O PN B V C X说明书附表一
附表4.典型字词编码举例单 字词 组汉字编 码两字词三字词四字词简码月亮甲月亮乙月亮丙词组编码词组编码词组编码国AGHSVGHVHSZ暗暗AAHH爱好者AHZT安居乐业AJLY大ZDDIVDSVDIZ啊啊AAJJ安理会ALHO澳大利亚ADLY乙YXVYXVX Z中国ZGJH开封府KFFS蹉跎岁月CTSY匕BQVBQVQ Z魅力MLWV秦始皇QSHG杞人忧天QRYT艺YFBVYAVFBZ人民RMWX西安市XASF莺歌燕舞YGYW桅WSQUWAUSQZ洛阳LYYN组织者ZZZN最好成绩ZHCJ搌ZGCIZSIGCZ我们WMWQ微电子WDZT足智多谋ZZDM华HQFVHRVQFZ座谈ZYYO做文章ZWZR自作主张ZZZZ说明书附表二