规范表形码输入法BXMNT及其中西文兼容键盘 本发明涉及的是一种汉字计算机输入方法及其中西文兼容键盘。
本发明所述的规范表形码及其中西文兼容键盘是国家科委1994年火炬计划重点项目“汉字大字符集(ISO10646、GB13000)表形码输入输出系统”的成果之一,国家科委的项目编号为94232019。本发明的申请入是项目的承担单位。
汉字是使用人口最多,沿用历史最长的表意二维图形文字。汉字字量的总数在六万以上,每一个字还有数十种字体。中国大陆、新加坡以简化字为国家标准,中国台湾地区和海外华人社区采用繁体字。日本、韩国使用的汉字在字形上与中国标准体汉字略有差异。
使用汉字的国家和地区在汉字的内部码体系、编码字符集的大小等方面已往均各自为政、严重影响了海内外和国际间的汉字信息交流和资源共享:GB231280的6763个汉字也已经束缚了计算机处理汉字信息的范围。国际标准《通用多八位编码字符集(OCS)》中的《CJK统一编码字符集》(ISO10646、GB13000)的颁布为解决上述两个难题创造了条件。
特征信息编码键盘输入是汉字进入计算机的主流方法。提取字音特信息进行编码的称音码;提取字形特信息进行编码的称形码,形码中以提取部件(字根)信息类编码为主流。在现代汉语中,4000个常用字覆盖了语料的99.9%。受过中、高等教育的人的识字量也在这个数左右。对能够认读的汉字。用音码输入是可行的,对CJK字符集的20902个汉字,绝大多数人仅能认读其中的不足五分之一,因此只能“依形输入”,即提取字形特征编码输入。
本发明的目的就是提供一种能对ISO 10646的20902个汉字编码的汉字输入系统,以拓宽汉字信息处理的领域,方便于国际间的中文信息量交流。
本发明的另一目的是提供一种易学、易记,码长短,且有句输入功能的输入法。
本发明还依据部件的规范化使用,部件分类,部件与键位的映射关系,提供了一种中西文高度兼容并符合国内、外用户的使用习惯的键盘。
CJK字符集20902字的平均笔画数为15左右,以平均笔画数为3笔的汉字部件,每字取3至4个部件进行编码能较充分地提取流字的字形信息,且信息冗余较低,提高输入效率。因此,本发明规范表形码输入法属部件(字根)类输入法。
作为部件类输入法,规范表形码的发明设计立足于“规范、易学、快速”。
根据国家标准《汉语信息处理词汇O2部分》,对汉字部件界定为“由笔画组成的具有组配汉字功能的构字单位。现代汉字部件按是否成字可分为成字部件与非成字部件”。规范表形码设计发明者依据前中国文字改革委员会(现国家语委)1985年公布的《汉字结构及其结构成分的分析和统计》作为规范将汉字拆分为部件,并按规则设计了“计算机自动拆分汉字部件”软件和“计算机自动编码与性能评测”软件,对CJK字符集20902个汉字按规范化的拆分规则进行部件拆分和统计分析,见附图1和附图2。根据统计分析结果,优选了表1、表2、表3给出的表形码编码部件集。上述部件集及拆分规则符合国家标准《通用键盘汉字编码输入方法评测规则》(GB1415993)7.1.2条,编码设计符合“引用国家有关语言文字和中文信息处理方面的规范和标准”的规范化要求。
现有技术中的汉字编码输入方法及其键盘一般采用超过26个键元的编码方法来达到减少重码和缩短码长的效果。这种方法至少存在两个主要缺点:
(1)削弱了通用键盘的中西文兼容性或带来操作上的不便;
(2)选键时间长,也增加使用者的疲劳程度。
本发明所述的规范表形码及其中西文兼容键盘以通用键盘的26个字母键作为语言文字信息输入,符号键作中西文标点符号输入,数字键作为中西文数字符号输入,符号GB1415993中7.1.3条软硬件兼容款“采用的软硬件与国内现行主流计算机软、硬件系统的兼容程度及可移植性”的要求。
著名工程心理学家海曼提出的已为大量实验证实的键元选择时间为:
T=A+BInN N:键元的数量可见编码键元多的输入方法在输入操作时选键时间长,影响输入速度,也增加操作者心理负荷。
根据近代语言信息理论测定,汉字的熵值为9.7bit,汉语语的熵值为11.5bit,规范表形码对三部件字用三键输入,多部件字用四键输入,词语用四键输入,减少了字形特征输入的冗余信息,减轻了用户的编码负担。
本发明所述的规范表形码输入法的基本技术特征在于经过规范化优选的150个左右基本字根和根据编码字符集的大小辅以一定数量的近形归并字根与26个键位的对应关系,这种对应关系基于对部件的“近形分类”和部件中笔画组合公因子“字架”的“近形分类”,将分类后的部件分配在26个英文字母键上。采用这种独特分类的出发点是使用户“易学、易记、不忘”,在统一的编码规则下,规范表形码不仅能对CJK字符集中中、日、韩20902个汉字进行编码,且能对GB231280给定的简化字和港台地区使用的BIG与繁体字符集进行编码。
下面举例说明利用规范表形码BXM
NT在计算机键盘上输入汉字、词、句的方法。
1、字的输入
按书写笔顺提取汉字部件进行编码,字编码的码长为3键/字或4键/字。四部件(含四部件)的汉字取该字的前三个部件和最后一个部件(前三末一)进行编码,码长为4键/字,三部件的汉字取三个中件编码,码长为3键/字;双部件的汉字除用该两个部件进行编码外,再补上第二部件的首笔画码,码长为3键/字;单部件的汉字除用该部件编码外,再补上该字的第一、二笔画码,码长为3键/字;单笔画字重复输入该笔画码三次,码长为3键/字。
例如:啊 OPTO (四部件汉字)
吼 OZL (三部件汉字)
凶 XUL (两部件汉字)
2、词的输入
输入两字或两字以上的词语时均为4码。双字词的编码由该词语的第一字的第一、二码,第二字的第一、二码构成;三字词的编码由该词语的第一字的第一、二码和第二、第三字的第一码构成;四字以上(含四字)词语的编码由该词语前三个字的第一码和最后一字的第一码构成。
3、句的输入
每字提取字首的第一部件和字余的第一部件或汉字的首、尾部件或汉字的第一、二部件进行编码,码长均为2键/字。
如果理解以上的例字的编码原则后就能举一反三的编写许多字、词、句的编码而无需枯燥地死记硬背。
本发明所述的规范表形码的部件分类体系见表1;
综上所述,本发明所述的规范表形码BXM
NT及其中西兼容键盘在编码字符集的容量(中、日、韩汉字20902个,可扩充至六万个),汉字部件的规范化使用,部件分类、部件与键位的映射关系,键盘的中西文兼容性、编码的易举、易记,码长与选键时间构成输入速度素质,句输入功能,均取得优异成绩,综合指标与已有技术相比具有明显的进步,相对于本公司的《汉字表形码号和字素(即部件)分类编码法》(专利号CN85105556)也具有实质性的进步。
本发明的专利保护范围见权利要求书。利用本发明所提的方法并在本发明的基础上作的任何变动,都在本发明的保护范围内。
本说明书共有三张表格和二个附图,其中,
表一是本发明的实现ISO10646(GB13000)的CJK字符集20902个汉字的编码输入时部件、笔画与键位的对应关系。
表二是本发明的编码字符集GB2312-80时,部件、笔画与键盘的对应关系。
表三是本发明对GB2312-80字符集作为处理智能输入时,简易表形码部件、笔画与键位的对应关系。
图1、图2为本发明的汉字自动切分及编码流程图。
和CN85105556和CN95105810相比,本发明在下列与汉字键盘输入有关的技术方面取得了实质性的进步。
1、扩大了编码字符集
CN85105556的编码字符集为GB2312-80的6763个汉字,而本发明所述的规范表形码输入法BXM
NT及其中西文兼容键盘所对应的编码字符集为GB13000的20902个汉字。
2、规范化的优选编码部件集
CN85105556的约400个编码部件中,约有三分之一的部件因采用‘逢撇必折’的规则而不能与规范化要求一致。本发明采用计算机辅助拆分与设计优选的约150个基本部件与二百多个近似归并部件均符合汉字使用规范,本发明的编码部件与CN85105556的编码部件并不兼容。
3、采用通用键盘的26个字母键输入汉字
采用26个字母键对汉字进行编码输入较CN85105556采用的31个键位具有更好的中西文兼容性和缩短选键时间,提高输入速度。
4、简化拆分规则
CN85105556专利中存在若干附加规则,如:‘交叉不拆’,‘内’‘必’‘离’例外等,增加了用户的学习记忆量,本发明不存在这些规则,向直观易学迈出了一大步。
表一. GB 10646 CJK字符集规范表形码
BXM
NT部件-键位映射表
单笔画部件键位映射表
表2 GB 2312字符集规范化表形码
BXM
NT部件-键位映射表
单笔画部件键位映射表
表三 GB 2312字符集简易表形码
BXM
JY部件-键位映射表
单笔画部件键位映射表
汉字自动切分及编码流程图I
汉字自动切分及编码流程图II
注:1.*表示手工完成此工作
2.所有的步骤完成后都可以打印出中间结果以便校对和修正。