汉字笔形数值编码法 (1)本发明是一种涉及汉字的计算机键盘输入及汉字信息检索的编码方法。
(2)汉字键盘输入方法涉及多种因素,影响系统品质的因素主要有如下几个方面:易学性、易用性、重码率、输入效率和规范性。汉字输入法从70年代发展至今从无到有,有了长足的进步,但都未能实现多层次的全面要求。现有已知的不同的编码方案都有不同的侧重点,形成了这样一种现象:好学的不好用或打不快,打的快的不好学。由于大多数的汉字为同音字,因此单纯以拼音为信息元的输入法不能有效的离散字重码,只能加强词语输入,系统词库的扩大又增加了词重码。重码低是字根类输人法的主要优势(例如五笔字型、表形码等),然而数以百计的汉字组字部件,必须对应于二三十个可用键元,学习难度很大,且多数形码为四键字词混排结构,系统词库的数量受到限制,如何判定一条词语是否在系统词库内无任何标准,只能采取试地办法,要求一个间或使用的普通用户掌握系统内的上万条词汇是不可能的事情,词语输入是高效输入的前提,以往的字根类输入法的高效率实际上是通过对专业人员的大量训练实现的。
(3)进入九十年代后期,个人电脑以惊人的速度普及化。汉字输入系统也将由早期的单纯提供给专职录入人员录入汉字的工具,转而面向多层次的个人电脑用户,成为人机沟通的桥梁。本发明的目的在于提供一种易学、易用的汉字输入方法,在实现易学易用的同时兼顾重码率、输入效率和规范性。“字为基础、词为主导、智能处理”是主要的设计思想。
(4)本发明有三种相关的编码方式:声形编码、纯形编码、拼音编码。其中对汉字字形信息的提取和编码是三种码式的核心,掌握了字形编码,配合汉字的声母或声韵可构成相应的多种码式,声形编码是计算机键盘输入的主要码式。以下是本发明相关的取形及编码规则。
图1---笔形分类赋值表;图2---近形笔形列表;图3---声码、形码归键表;图4---部分汉字拆分示例。
字形拆分原则:
1、依次取码---按规范的书写顺序(先上后下、先左后右、先外后内、先中间后两边)依次取码,“辶、廴”最后取,末笔形为拆分序列中最后的笔形。
2、取大优先---取连续书写的笔画所能覆盖的最大笔形,当存在多种拆分可能时,以取笔形数最少的优先。
3、保持“匚、、日”三个笔形的最大完整,即上述的三个笔形在参与组字时不考虑末笔是否连续都应完整地取出。
4、当“鱼、雨、礻、衤”在参与组成汉字时只取前两码。
5.笔形单独成字时,需要按书写顺序拆分出单笔画作为后续。
编码原则:
1.声形编码:单个汉字---声母+首笔形+第二笔形+第三笔形+末笔形双字词组---首字声码+次字声码+首字首形+首字次形+次字首形+次字次形三字词组---首字声码+次字声码+末字声码多字词组---首字声码+次字声码+第三字声码+末字声码其中单字及双字词组在存在简码时可提前结束。
2.纯形编码:单个汉字---首笔形+次笔形+第三笔形+第四笔形+末笔形
3.拼音编码 在全拼方案的基础上,单字加取整字的首形和末形。词组输入与金拼方案相同。
下面结合附图作详细说明:
汉字是由基本笔画:横、竖、撇、点捺、折组成的(本方案中将“1”做为竖的一种),在连续书写的笔画之间存在着固定的联系,例如;在连续书写的笔画中只有先点后横而没有先横后点。类似这种的联系是汉字在长期发展过程中约定俗成的产物,这种联系是客观存在的,但在认识上又是相对模糊的。在经过对汉字组字部件的分析,规纳出了35个关系笔形(以下简称双笔形),它们共同特点是由两个笔画组成,单独成字或者参与组成汉字。本方案认为所有的汉字都是由上述的双笔形和笔画(单笔形)组成的。在单、双笔形的基础上,本方案还采用了数字笔形和多笔形:数字笔形是一到十的十个汉字数字;多笔形是指本方案限定的多于两个笔画的固定笔形(有的方案称字根)。见图1、图2。
本发明采用了独特的笔形赋值归键方式,建立了规律的笔形与一到十这十个数值之间的映射关系,即每个单笔画都有固定的值;横=1、竖=撇=2、点=捺=4、折=5。双笔形的值是组成笔画值之和,例如:人=丿+=2+4=6 ;数字笔形的值为相应的数字;只有限定的18个多笔形是特别定义的。本发明以严格规律的单、双笔形和数字笔形构成编码的总体框架,通过对大量的数据的运算,将18个多笔形以重码最少,兼顾多方面的原则定位在相应的数值上,从而有效地离散重码。经过统计声形编码在仅有16万编码空间的条件下静态字重码率为6.23%。
在取码顺序上本发明采用依据书写顺序、依次取码的原则,以简明的规则方便用户使用。
在对字形的拆分上,严格根据“取大优先、取少优先”的基本原则,避免了多数形码类输入法为降低重码因字而异的拆分弊病。见图4
在使用键元上,根据不同码式的不同使用特点而有所不同。声形编码作为主要的键盘输入方式,采用人手容易控制的26个字母键为键元集,其中上排10个字母键为形码键、中下排16个字母键为声母键,并将容易产生混淆的声母合并,照顾汉字声母与英文字母之间的联系;纯形编码在系统中作为声形的辅助输入手段时使用上排10个字母键,在其它环境下使用10个阿拉伯数字。拼音码式为加强与全拼方案的衔接,形码键采用英式键盘上方的10个数字键。见图3。其中小写字母为汉字声母。
在码式结构上,声形码采用不等长码设计通过将汉字的声母和笔形归并在不相交的键元子集中,使得一个编码的开始的信息无需空格这样的断码键,任何一次由笔形代码集转向声母代码集的转换同时,标志着一组新编码字词的开始。同时汉字简码与汉字频度之间建立逆向匹配关系,使常用汉字对应短的编码,数量多且使用频度相对较少的双字词组对应于较大的编码空间。
汉字输入法作为计算机汉字输入系统的重要组成部分,是不能脱离计算机而单独存在的。因此一个好的编码方案还应该从汉字信息数据和数据结构上为计算机的智能管理留下接口。现在的个人电脑具有更大的存贮空间和更快的运算速度,使汉字输入的智能管理成为可能。本发明为汉字的双字词汇提供了200万的编码空间,同时单字、双字词、多字词有着不同的结构,互不干扰。使输入过程中的实时加词和对大词库的管理成为可能。声形码输入前三码时所有的常用汉字都可以从提示行给出,无须翻屏。这样使得在实时加词过程中,对于系统没有的双字词可以根据已输入的编码信息从提示行选取,用户无须记忆系统词库,仍然能够方便地使用词组输入方式,提高输入效率。通过计算机的智能管理还可以实现相关词语的提前,使相关的词语仅需2码就可给出,进一步提高输入效率。真正地实现了“字为基础、词为主导、智能处理”的设计思想。
不等长码的设计还能提供给用户相对宽松的输入格式,不同的用户可以选定不同的习惯输入格式。对于一个普通用户可以依据屏幕提示的简码字词进行输入;对于一个专业录入人员在掌握系统一、二级字简码(176个)和三千多个最常用的双字词(4码)后,可以用固定的格式:常用字4码、常用词4码、普通词6码,配合一二级字简码进行高效的盲打输入,对简码字词的记忆量大大少于现有的字根类输入法。
(5)本发明与现有已知的输入法比较具有如下优点:码元集小、规律性强不易遗忘、对特征信息元的记忆量与普通双拼方案接近,而字词重码率大大低于现有的双拼方案;规则简明、容易学习、从开始的依靠屏幕提示到熟练后的盲打输入过渡自然不需要专门的训练;词库容量大,结构化的字词编码有利于计算机的智能管理,避免用户对系统词库的记忆。
(6)对已建立的字码表进行统计:声形编码收录国标GB2312-80字符集汉字编码6996个(含多音字),静态字重码率6.28%,键元编码空间使用率4.12%;纯形编码收录汉字6763个,静态字重码率19%;拼音编码收录汉字编码7270个,静态字重码率21%。声形编码作为计算机键盘输入的主要码式,纯形编码作为声形的辅助输入手段,两种码式之间的转换无须切换。汉字输入系统也可只挂接声形,通过学习键取代声母的方式辅助输入某些不知读音的汉字。纯形编码还可单独应用于中文的辞书检索,及某些仅有10个数字的环境,例如电子记事本、电话机等。拼音编码作为现有的全拼方案的补充,通过在声韵信息基础上补充形码以减少字重码,缓解用户翻屏选字用眼的疲劳。