书写码 利用计算机进行汉字输入或文字处理离不开汉字的编码,编码方案的好坏直接影响着操作者的工作效率以及接受与否。编码的设计是利用汉字本身的固有特性---音、形、义进行的。在用字形来进行编码的方案中,大部分是把字拆分成许多个部件,然后根据这些部件与键盘上的字符键的对应规定,按照书写顺序击键。由于字根的数量繁多,要把这些字根记往并把它们与键符对应起来其记忆量是相当大的,为了便于记忆专家们设计了各种各样便于记忆的方法。如表形码,利用字根与西文字符的形似来进行联想记忆,五笔字型根据字根的起笔是横、竖、撇、捺或折把它们分成五个区,然后再根据接下来的笔形大致地分摊到各个字符键上。这些方法当然是可取的,但记忆量仍然是较多的。
在大部分的编码方案中都存在着一个致命的缺点,即不完全按照汉字的书写规则。在“五笔字型”和“表形码”中“因”字被拆分成“口大”,事实上该字地书写顺序是“冂因”即口的最后一横应写在大的后边,又如框字被分成“木匚王”,而书写笔顺应该是“框”,象这种拆分在“五笔字型”等编码方案中是较多的,这些给汉字的规范化无疑带来新的麻烦。王有民等先生当然知道这些缺陷,并且肯定也想解决它,但由于他们所面临的是只有四个字根来构成一个汉字,如果把这些细节也考虑进去的话将大大地增加重码,一句话用四个字根来表述一个汉字只能是粗略的,而不能对细节进行刻划。但另一方面如果为了照顾到汉字的规范性而增加击键次数又势必减慢汉字的输入速度。因此在击键数不变的前提下减少记忆量,讲究规范,减少重码是各位专家所追求的目标。
本人对汉字进行了比较详细的分折,在总结了笔型码,五笔划,四角号码查字法,结合本人前段时间所设计的拼角码,并参考了《汉字写法规范字典》试图达到这些目标。下边就把自己的一些想法进行介绍,肯定有不足之处敬请有关专家批评指正。
字是由字根组成的,字根是由一丨丿丶フ单笔画或它们按一定的方式结合而成,为了更详细地刻划汉字的细微结构特引入比字根更小的单位----“字元”并把它们分成五类,如表一所示。每一类“字元”包含了一个类别的单笔划和若干个复笔,当然在这些复笔中有些本身就是字根甚致是字。所谓复笔是指笔顺连在一起并且其笔型又刚好是表1所列笔型中的一个,如氵的1,2两笔都是丶,归在2类,第3笔是提属横的异变笔型归于1类,所以氵的编号是21。而“式”的1,5两笔虽然也构成叉的形状但由于笔划顺序不连再一起所以只能分开来取。但1,2两笔是属于2类笔型。因此“式”的笔号为22154。表一.“字元”的五种类型示意表,汉字可以认为是由这五类笔型组成。
下边举一些例子来说明这种编码构思。
“刀”字的书写顺序是先折后撇。折归在5类,撇归在3类,所以刀字的笔号为:53。
“他”字的书写顺序是:丿亻他,丿属于第3类笔型,丨在2类,“也”是复叉归在4类,所以“他”字笔号为:324。“型”=一廾刂 十 一;其笔号是14231。表二所示的是一些常见部首或偏旁的笔号。
表二.一些常见的偏傍音首笔号。偏 傍笔号偏 傍 笔 号偏 傍笔 号八人冫コ 1 亻 32竹马 55 551口丨刂 冂 2犭车 33钅 113力又川 3大牛 34王 131扌艹女灬 4木 35石 132忄亠小冖 5贝 41山 252厂尸 13月巾 42禾 335氵 21讠宀耒 45饣 355日彳 22立工 51门火 425 434目 23卩 阝 52礻衤 4524土 31广 53虫 2214
众所周知计算机键盘的常用键有30个(26个英文字母键和4个标点符号键)我们把这30个键如表3所示那样进行编号。在这个表中NM,./这五个键只编到了一个数我们称之为“单元键”,其它25个键称之为“双元键”。每个双元键同时可以容纳两个笔型,例如“土”字的笔号是31,
表三.30个英文字符键以及它们的编号 Q 51 W 41 E 31 R 21 T 11 Y 12 U 22 I 32 O 42 P 52 A 53 S 43 D 33 F 23 G 13 H 14 J 24 K 34 L 44 ; 54 Z 55 X 45 C 35 V 25 B 15 N 1 M 2 , 3 . 4 / 5而31所对应的是字母键“E”。“虫”的笔号是2214,故“虫”的字符码是“UH”。上文所提的“刀,他,型”三字,其笔号分别为“53,324,14231”。其键符码应该是“A I.和HFN”。需要说明的是单元键只仅仅出现在当字的编号位数是奇数(3,5,7)的情形中,因为最后有一个号必须要用到单元键,除非有另外说明。这样一来原来一个字最多只能用四个部件构成的现被拓宽成由8个构字单位(字元)组成,从而可以描述字的细节部分。汉字的笔划少到只有一笔多到六七十笔但在大陆字数最多的笔划是9笔然后依次是10笔、11笔、8笔、12笔、13笔和7笔。在18笔及18笔以上的总字数不到300个(本统计参照国家教委和国家语言工作委员会于1988年联合发布的《现代汉语常用字表》和《现代汉语通用字表》,总字数为7049个)。7000多字的每字平均笔划为10.76笔,本方案每个“字元”所编到的笔划数平均为1.72笔,因此8个“字元”平均可以写到13--15笔笔划。当字的笔号数超过8个时则取前7个“字元”再加最后一个的“字元”。
为了使本方案更具体、更系统、特作如下几条规定:
1.在符合书写笔顺的前提下应取笔划尽可能多的复笔,如“旦”字其笔号应取23而不是2111或者221。
2.取复笔时复叉,叉的复笔优先于离散的复笔。例如“王”字应取131而不是221,“丰”字应取4而不是32等,但“口、冂、冖”例外。
3.笔划一旦用过,后边就不能再用,这就象我们写字时一笔笔划只能写一次一样,如“木”字的1、2两笔构成叉的笔形,但2、3、4三笔却又构成“小”的异变笔形(在5类),按照本规定只能取剩下的两笔“八”,根据表一仍然取5,不过这时应该理解成:写“八”字前有笔划从中间穿过。“变”字的5、6两笔也是如此。
4.在笔型数等于或少于6时,由于编码字符不足四个,为了减少重码后边再加一该字拼音的首字母作识别符。如:厂、干、于、兰、午、父、尸这7个字它们的笔号都是13即“G”如果都加上各字拼音的首字母,那么这些字的码符分别是“GC、GG、GY、GL、GW、GH和GS”正好把它们区分开来。但一个字的笔型数在7个或7个以上时由于码符已经达到四个故就不再加了。由于加识别符的字笔划比较少,一般地来说笔划少的字也是比较常用的字,因而其读音也就比较熟悉。所以这种处理一般不会给编码带来麻烦。当然如果不清楚字的读音击一下任何一个数字键它也是可以出来的,只不过很有可能是出现在提示行里并且还有其它几个字和它在一起。
5.作为特例凡是以部首“艹”开始的字则先击“/”键,接下来的编法仍然与上边所述的相同,当然如果“艹”不是处于字的起笔位置就不在此例。
6.逗号和句号左文字编辑中出现的次数很多,另外助动词“的”字的使用频度也很高,而单元键“M,、”在编码中一般用在第二键,第三键或第四键上,真正第一次就用到的字却很少。只有“二,口,三,力,又,乜,七,十,九”以及“丰,聿,丈,女,也”这些单元字,故当遇到这些字时一律先击“N”键,然后再击自身的号码键(M,或‘键),最后击识别符(字的拼音首字母)。另外对于由“髟,麻,黹,鹿,鼓,鼠,鼻”这些笔划在十笔或十笔以上的字作偏傍或部首时第一键也击“N”键,第二键击这些部首的首尾笔号然后再根据规则编码,当然这时如果只用到三键,就不再加识别符了。但对于它们本身当字用时则不作特殊处理。在第一次击“M,.”三键时就出“的”字和“,.”标点符号。而“;和/”两符号则作为本身键的一级简码编入。从而解决了标点符号的使用问题。
根据以上几条规定我们就可以系统地,完整地对汉字进行编码了。下边再举一些字例以具体说明问题。表四列示了“温州医学院”和“灌、丰、麾、黄、一、又、六”12字的编码过程。
表四.“温州医学院”和“灌、麾、黄、一、又、六、丰”12字的编码
本汉字输入方案有如下几个明显的优点:
一.规则简单,因为构成汉字的基本单位已不是字根而是“字元”,省略了字的拆分等规则,而是完全按照汉字的书写笔顺进行。汉字的书写我们从小学一年级开始就受到老师和教科书的强化训练。再者撑握汉字书写规则对汉语学习只有利而无弊。
二.记忆量少,由于要记忆的仅仅是表一所列的5类笔型,它们又带有一定的规律性因此其记忆量少于五笔字型的1/5。
三.规范性强,其击键过程就象有一支无形的笔在写字一样。为在中小学里普及电脑提供了良好的汉字输入方法。
四.重码较少,在7000多字中双字重码167对,三字重码10个。重码字数占总字数的5/100。即平均每40字中有一对重码。表1的笔型安排肯定不是最佳的,如果再进行调整的话重码还可以少许多。
五.输入速度较快,对于三元字来说由于第二键用到的是单元键,它包含有编码结束的信息,因此在击识别符以后马上可以出字,节省了击空格键的时间。这种类型的字有300多个,再加上双元字和单元字共有四百多字(这些字没有记忆负担),而助动词“的”字的特殊安排以及400多个四元字,所有这些都使提高速度成为可能。当然合理地安排一些一级汉字和二级汉字自然更理想(但增加记忆量)。
总之本方案冲破了字根的束缚,由一键来承担两个笔型这种新颖的构思,
自然而然地解决了汉字的规范化问题,其编码过程与汉字的书写过程已经很相似(本文标题由此而来)。在记忆量,规则,重码等指标上都得到明显的改善。是值得而且比较容易得到推广的编码方案。
附表一.“字元”的五种类型,汉字被认为是由它们组成。
附表二.30个英文字符键以及它们的编号 Q 51 W 41 E 31 R 21 T 11 Y 12 U 22 I 32 O 42 P 52 A 53 S 43 D 33 F 23 G 13 H 14 J 24 K 34 L 44 ; 54 Z 55 X 45 C 35 V 25 B 15 N 1 M 2 , 3 . 4 / 5