本发明属于电子计算机信息技术。 在已有技术中,公知的汉字编码技术是确定汉字编码字元特征信息的种类,如语言元素、笔划、字根等,确定字元集合的范围和内容,进行分组,形成一组字元和键盘上某一键位相对应的映射关系,然后根据确定的规则使用,把待输入的汉字分解出字元系列,依次编码并输入计算机。例如英国专利文献UK Patent Application GB 2100899A所公开的笔形编码法,利用计算机上八个数字键,对应于八种笔形,把待输入的汉字按照字块和笔形高低排序输入。对于一个汉字最多可以划分成三个块和九个笔形元素的序列。这种笔形编码法的最长码为9码,不够简捷,字块的划分不明确,如“蘑”字把“麻”做为字块而不是把“广”字做为字块,这就和其它情况相矛盾,逻辑上不严谨;按笔形的高低划分编码程序的先后也有二义性的情况,如“升”字虽然可以兼容处理,但并不能在本质上优于笔顺的排序反而背离了学校的教学。
在已有技术中,可以做为另外一个类型地编码是五笔字形方案(见1983年中文信息国际研讨会论文集,第二集),这一方案在使用了26个键位以对应二百多个字元以后,把最长码缩短到4位。但一方面在键盘上有规律地排出了字元,另一方面由于字元过多而无法反映在键面上,因此相当多不甚规律的字元要靠联想记忆来记住。另外,为了异化编码而采用“交叉识别”的方法使编码方法复杂化。这是过于强调键位形式上整齐所带来的方法上的不便。
综上所述,已有技术的编码方案中,编码的设计是顾此失彼的。
为了求得一种键盘安排键元的规律性强,方法严谨而简单,便于和计算机匹配的汉字输入键盘和方法,特设计了本发明。
在下文中用约简的术语“编码键盘”来表示和一种编码输入方法相对应的键盘。
本发明的构思是:在最长的编码不超过四码的情况下,尽量减少字元的数量,对于GB2312-80的6763个汉字的字集,重码不超过3%,按照和书写顺序一致的步骤,把一个汉字分解成字元串,90%以上的字元能在键面上用提示字提示出来,提示字按照首笔横、竖、撇、其它四类和键盘上四排键位建立对应关系,参与编码的为31键,并和计算机相匹配,在按书写顺序编码时确定严格而简明的规则,实现对冗余信息的有规律的省略,编码的不唯一性用兼容方法加以解决。综合上述要点而构成一个系统优化的汉字编码键盘,将此键盘和具有相应程序的计算机配合,实现汉字的打印输出。按此编码键盘所用的编码方法编成码本,更便于初学者使用。
满足这种构思的渤海三号(简称“渤海Ⅲ”)汉字编码键盘具有以下综合优点:
1、用键盘上四排键和四类起笔的字元组相对应,这种分类方法不致于过多增加设计时的困难,不致造成更多的附加规则来异化重码,分类措施自然而明显,便于使用者查找。
2、每个键位只有三个提示字却可以提示90%以上的汉字,不但保持了键面的清晰,而且总字元数少,提示功能强。
3、编码的不唯一性由于大量的字根而减少,并能用兼容方法加以解决。
4、在同样的四码条件下,多于32键的编码对于每字至少要多占用“4比特”的信息资源,和较少的键相比则在同样的信息资源条件下,有较大的扩充能力。
附图说明:
图1是本发明的编码键盘的键位图。
图2~9是说明本发明的编码键盘编码规则的汉字图。
下面是本发明的一个最佳实施例,通过该例和附图给出了本发明的细节。
在本实施例中,根据附表1确定了键位和字元(字根或笔划)的对应关系,附图1确定了键位和提示字之间的关系。附图1是根据附表1设计的。
在附图1键盘上的26个字母键和10个数字键中,用30个做为字元键,一个做为结构键,结构键以*表示。图中每个小方格表示一个键位,其右上角表示着ASC-Ⅱ键盘的键位代码。另外三个角列出三个提示字来表明字元和键位的对应关系。例如“H”键有“一,石,髟”,其中“一”为笔划“横”,而“石”、“髟”都是字根。
附图1的键位排列是有规律的,把相同起笔的字元安排在同一横排的键位上。起笔分为四类:横、竖、撇、其它,分别对应于四排键:上排数字键的字元起笔为“撇”,下排字母键的起笔为“竖”,中下排字母键的起笔为“横”,中上排字母键是其它起笔的字元。
以下是这一编码键盘的编码规则和使用方法。
把一个汉字转换成键元表所定义字元的字元串过程叫做汉字的分解,按照对应关系和规则再转换成键盘上字符的过程叫做汉字的编码。一个汉字的分解是和这个汉字的书写过程相一致的,例如图2。分解时要尽可能取大的字元,一个字根不能拆开成笔划或较小的字根,例如图3,分解的另一个要求是保持字根的独立完整性,不许可把一个交叉笔划结构抽出笔划后形成字根,例如图4,也不许折断一个笔划后形成字根,例如图5。对于那些少数书写顺序不是唯一的汉字,按不同书写顺序实行兼容编码输入,例如图6。
对于分解以后超过四个字元的汉字,编码时要省略尾字元以前的部分字元,使得除了尾字元以外只有前三个字元有效,如图7。如果被分解的汉字是左右结构的,而且无论是左结构还是右结构都不是一个单一的字根,那么,它的左结构除了首元以外,其它部分都以结构符*代表,结构符占用一个独立键位,如图8。如果一个汉字就是键元表上的字根或者是由一个字元和这一字根构成的,那么要增补该字元尾笔的代码和*号,如图9。