本发明涉及一种包括汉语词在内的汉字字母编码输入法,也就是把汉语词如同单个汉字一样,运用本发明的音形结合编码方法输入计算机中进行各种信息处理。属于汉字编码技术领域。 众所周知,汉字编码输入计算机的方案已有400余种,并且还不时有新的方案问世。然而,至今真正获得社会公众承认和广泛应用的仍只有寥寥无几的一、二种。这是由于现在的诸多编码方案存在着“容易学的打不快、打得快的太难学”的通病,就是现在社会上应用比较广泛的“五笔字型”输入法,也必须背出二十五句口诀,否则不能准确击键。另外,该码没有把英文字母与汉语拼音统一起来,不能有效地利用汉字的音、形、义三要素中语音这一大要素,使非专业计算机输入人员很难掌握该编码的使用。总之,如何既快捷又方便,并尽可能减少机械记忆工作量而把汉字输入计算机中,仍是我国急待解决地科研课题,而这个问题得不到很好解决,将会影响计算机在我国各行各业和各类人员中的应用和普及。
本发明的目的是提供一种既容易学、又打得快的,包括汉语词在内的汉字字母编码输入法。
本发明是这样实现的:即对汉字和汉语词进行音形结合的编码。其中读音系采用汉字和汉语词的汉语拼音读音中的声母作为编码码元;汉字和汉语词的形体则先将其分成由“横”(一)、“竖”(丨)、“撇”(丿)、“点”(丶)、“折”(∨)五种基本显态笔划和一种看不见的(用“;”号表示,没有名称)的隐态笔划,以及由两个或两个以上笔划组成的笔划群,再根据各笔划群的起始笔划特征、后续笔划特征及起始笔划在笔划群中的相对位置分为27类基本笔划群,并对每个基本笔划群的起始笔划取定一个名称,由此基本笔划群起始笔划的名称的声母作为该笔划群的起笔形母和形体编码的码元符号。然后,按照汉字笔顺习惯,对汉字和汉语词进行笔划群的逐次二分,分解成若干个笔划群后进行编码。
与已有的汉字编码相比较,本发明的优点在于把需要记忆的条例尽量减少到最低限度。只要学习过汉语拼音的人(包括专业输入人员、科技人员和中小学生等),掌握汉字书写的传统笔顺习惯,就能比较熟练地使用目前通用的小键盘把汉字和汉语词输入计算机中,毋需背诵各种人为的口诀和主观地定角、定高低、定区位的死记硬背的繁文褥节。所以,使用本发明输入汉字和汉语词,通常不需专门培训,只要稍加学习汉字的声母(唯有ZH、CH、SH三个声母改为V、I、U)和各笔划群的起笔形母,就可上机操作。中小学生或非录入专业人员,有半天或一天时间就能学会编码上机。通过一周左右时间的模索,可以达到单手击键30字/分,双手击键60字/分,专职录入人员可达120字/分以上。另外,本发明除应用于计算机输入外,还可应用于汉字字典、词典的索引和图书馆、资料库、数据库等的目录、索引和检索系统。
下面结合附表具体介绍本发明。
附表1是本发明的汉字声母表。
附表2是本发明27类基本笔划群的分类表。
附表3是本发明汉字形母表。
附表4是本发明逐次二分的分解规则。
附表5是本发明所编汉字代码示例。
附表6是本发明所编汉语词代码示例。
附表1中的汉字声母表是沿用汉语拼音方案中的声母表而来的,所不同的只是ZH、CH、SH三个双字母声母改为V、I、U三个单字母,需要专门记忆。而单韵母汉字(如:啊、喔、鹅等)则把其韵母字母直接当作编码码元的声母使用。对于汉语词,则把组成该汉语词的每个汉字的声母作为本发明的读音码元从左到右逐序编码。
本发明对汉字的形体码元的确立是建立在本发明对汉字形体研究解析的基础上:首先将汉字分解成是由“横”(一)-运笔方向为“自左至右”、竖(丨)-运笔方向为“自上至下”、“撇”(丿)-运笔方向为“自右上至左下”、“点”(丶)-运笔方向为“自左上至右下”、“折(∨)-运笔方向为“两个以上”的五种基本显态笔划和一种看不见的(用“;”号表示,没有名称)的基本隐态笔划。而由两个或两个以上笔划组成笔划群,每个汉字都是由若干个显态笔划和无限个隐态笔划组成的。再对各种笔划群的起始笔划特征、后续笔划特征及起始笔划在笔划群中的相对位置进行分析综合,共分为27类基本笔划群(详见表2所示)。其中“横”(一)起笔的有7类、“竖”(丨)起笔的有4类、“撇”(丿)起笔的有7类、“点”(丶)起笔的有5类、“折(∨)起笔的有3类、(;)起笔的有1类。对每个基本笔划群的起始笔划都给定一个名称,并取该基本笔划群起始笔划的名称的声母,作为该笔划群起始笔划的形母,也就是作为形体编码的码元符号。表2所示的27类基本笔划群分类表中列出了“类似群”、“扩展群”和该笔划群的参考特征提示,供人们学习掌握分解笔划群时的参考。表3则把上述基本笔划群起始笔划的形母归纳成汉字形母表,其中分别示出各形母及其读音(名称)。
接着,可以按照汉字的笔顺习惯,对汉字或汉语词进行笔划群的逐次二分,将其分解成若干个笔划群后进行形体编码。所谓逐次二分,就是把每个汉字视为一个整群,它可以分解成由前群和后群两个笔划群组成的;而把前群移去后,对后群(也称二分群)又可以分解成两个笔划群,此时的后群称为四分群;再对四分群进行二分后所得的后群,称之为八分群……。这就是本发明对汉字、汉语词进行形体编码所依据的原理。而汉字的逐次二分是基本上按照传统的汉字笔顺习惯进行的,基本上毋须记忆。为了有助于规划统一,表4列出了本发明对汉字逐次二分的八条分解规则:1.先左后右,2.先上后下,3.先外后内(传统的“从中到外”并入其中),4.先横笔后其他,5.先直笔后其他,6.先撇笔后点折,7.穿笔在后,8.从显到隐。此表中还对每一条原则举例若干,以帮助理解掌握之。例如:汉字“碥”为整群,其二分群为“扁”,四分群为“冊”、八分群为“艹”。
掌握每个汉字、汉语词的声母、形母和逐次二分法后,就可以编制其字母代码了。对于每个汉字,其编码码元是按该汉字的声母、整群起笔的形母、二分后的笔划群起笔形母、四分后的笔划群起笔形母、八分后的笔划群起笔形母的码位次序从左到右进行编码的。再以上述的“碥”字为例,其编码依次为B(声母)、H(整群起笔形母)、L(二分群“扁”的起笔形母)、T(四分群“冊”的起笔形母)和C(八分群“艹”的起笔形母)。汉语词的编码码元则是按照组成该汉语词的每个汉字的声母、汉语词的起笔形母、以及每个汉字的起笔形母的码位次序从左到右进行编码的。为了提高输入速度并实现绝对无重码,本发明也采用了不等长的1-5位码元进行编码,根据各个汉字或汉语词的使用频度高低而决定其编码的短长,即使用频度越高,其码长越短。
表5、表6举例说明了本发明的编码方法。
本发明已对GB2312-80《信息交换用汉字编码字符集基本集》中的一、二级汉字(包括同形异音字)共7156个进行编码,其中1码字为26个,2码字为649个,3码字为4500个,4码字为1902个,5码字为79个。对汉语词共5676个进行编码,其中双字词4452个(其中4码词为4252个,占95.5%,余者为5码词),三字词463个(其中4码词为439个,占94.8%,余者为5码词),四字词为623个(其中4码词为602个,占96.6%,余者为5码词),五字词66个(全部为5码词),6字以上词72个(全部为5码词)。本发明对上述汉字、汉语词进行编码验证,能够做到每个汉字或汉语词都对应唯一的一个代码,每个代码则都对应唯一的一个汉字或汉语词。