视讯手写文字输入装置及其方法 【技术领域】
本发明涉及一种文字输入装置,尤指一种适用于视讯手写文字输入装置。
背景技术
近几年来随着科技日新月异,几乎所有的电子产品都往重量轻、体积小、功能性强的方向发展,例如个人数字助理、手机、笔记型计算机等,但由于体积的缩小导致过去常用的输入装置例如:手写板、键盘、鼠标及游戏杆等体积较大的装置难以结合,可携带性的目的也就大打折扣,因此,如何方便的对可移植性电子产品输入信息便成了一重要的问题。
为了能让一般大众都能方便地输入信息,许多人机互动接口的研究都正在蓬勃发展,最方便的方法莫过于直接使用手势动作操作计算机及使用指尖手写输入文字,为了检测手势动作或指尖位置,有人提出一种以手套为基础(Glove-Based)的方法,其是使用装有感应器的数据手套(DataGlove),可精确得知使用者手势的许多信息,包括手指的接触、弯曲度、手腕的转动程度等,优点是能得到精准的手势信息,但缺点是成本高昂、活动范围受到限制,长久将此设备带在手上也会造成使用者的负担。
另一种以视觉为基础的方法,可细分为两类:一是建立模型为基础的方法,另一是以外观轮廓的形状信息为基础的方法,建立模型为基础的方法是使用两台以上的摄影机拍摄手部动作,然后计算出手在3D空间的位置,进而与事先建立好的3D模型比对,得知目前的手势动作或是指尖位置,但此种方法计算量大,难以做到实时的应用,目前较常用的方法是以外观轮廓的形状信息为基础的方法,其是用单一摄影机拍摄手部动作,然后切割取出手部边缘或是形状的信息,再根据这些信息做手势辨识或是判断指尖位置,由于此方法的计算量较低,效果不错,因此成为目前最常用的方法。
取得手势动作的信息或手写文字的轨迹后,接着就要进行手势或手写文字辨识的动作,常见的方法有三种:隐藏式马可夫模型(Hidden MarkovModel)、类神经网络(Neural Network)及动态时间扭曲算法(Dynamic timewarp matching algorithm),其中以动态时间扭曲算法的辨识率较高,但所花费的时间较久。因此,本发明定义了一些用来建构文字模型的基本笔划,包括八方向笔画、八个圆弧状笔画和两个圆圈笔画,依照1D在线模型,组合出所有可能笔划的一维序列,再以能容忍笔画输入、删除、取代的动态时间扭曲算法做文字比对,以增加比对的效能,达到可实时辨识的效果。
【发明内容】
为了解决现有技术的问题,本发明的主要目的是提供一种视讯文字输入装置,其包括有一图像摄取单元、一图像处理单元、一一维特征编码单元、一文字辨认单元、一显示单元、一笔画特征数据库以及一文字数据库。其中,图像摄取单元用以摄取图像;图像处理单元用以过滤出图像中目标物的移动轨迹,目标物可为一指尖,其方法先做图像差异检测,再做肤色检测,最后挑选出最符合目标物的点的移动轨迹;笔画特征数据库储存有各种笔画及其对应的编码;一维特征编码单元,对移动轨迹进行笔画抽取,将笔画按时间序列转换为一维串行的编码序列,笔画种类包括有八方向、半圆、及圆形笔画;文字数据库储存有文字,其包括有中文、英文、数字、及符号;文字辨认单元,对一维串行编码和文字数据库进行文字比对,找出相似程度最高的文字;显示单元用以显示文字辨认单元找出的文字。
其中,图像摄取单元可为网络摄影机、行动装置上的摄取图像的装置、及嵌入式装置上的摄取图像的装置。文字辨认单元使用动态时间扭曲算法(Dynamic time warp matching algorithm)进行文字比对。因此,通过本发明的视讯文字输入装置,便能达成有效辨识视讯手写文字并输入文字地目的与功效。
本发明的另一目的是提供一种于视讯文字输入装置进行文字输入的方法,其中,视讯文字输入装置包括有图像摄取单元、图像处理单元、一维特征编码单元、文字辨认单元、显示单元、储存有各种笔画及其对应编码的笔画特征数据库、及储存有中文、英文、数字、及符号的文字数据库。首先,图像摄取单元摄取图像,接着,图像处理单元过滤出图像中目标物的移动轨迹,目标物可为一指尖,其方法先做图像差异检测,再做肤色检测,最后挑选出最符合目标物的点的移动轨迹,然后,一维特征编码单元对移动轨迹进行笔画抽取,并搜寻该笔画特征数据库,将笔画按时间序列转换为一维串行的编码序列,笔画种类包括有八方向、半圆、及圆形笔画,文字辨认单元再对一维串行编码和文字数据库进行文字比对,找出相似程度最高的文字,最后,显示单元显示文字辨认单元所找出的文字。
其中,图像摄取单元可为网络摄影机、行动装置上的摄取图像的装置、及嵌入式装置上的摄取图像的装置。文字辨认单元是使用动态时间扭曲算法(Dynamic time warp matching algorithm)进行文字比对。因此,通过本发明于视讯文字输入装置进行文字输入的方法,便能达成有效辨识视讯手写文字并输入文字的目的与功效。
【附图说明】
图1为本发明一较佳实施例的视讯文字输入装置的架构图。
图2A~B为本发明一较佳实施例的笔画种类编码示意图。
图3为本发明一较佳实施例的文字辨识过程示意图。
图4A~C为本发明一较佳实施例的笔画切断示意图。
图5A~B为本发明一较佳实施例的下笔及提笔手势示意图。
图6为本发明一较佳实施例的视讯文字输入方法流程图。
图7为本发明一较佳实施例以6为例说明文字辨识过程的分解图。
【主要元件符号说明】
10图像摄取单元 11图像处理单元
12一维特征编码单元 13文字辨认单元
14显示单元 15笔画特征数据库
16文字数据库 60~70步骤
S1~S20,S’1~S’13,S”1~S”9线段
【具体实施方式】
为能让读者更了解本发明的技术内容,特以一视讯文字输入装置为较佳具体实施例说明如下,请先参阅图1,图1为本发明一较佳实施例的视讯文字输入装置的架构图,其包括一图像摄取单元10、一图像处理单元11、一一维特征编码单元12、一文字辨认单元13、一显示单元14、一笔画特征数据库15及一文字数据库16。其中,图像摄取单元10为例如网络摄影机、行动装置上的摄取图像的装置、及嵌入式装置上的摄取图像的装置从输入的影片中摄取图像,图像处理单元11先做图像差异检测,再做肤色检测,以过滤出图像中目标物,例如一指尖的移动轨迹。
一维特征编码单元12对移动轨迹进行笔画抽取,请参阅图2A~B,图2A~B为本发明一较佳实施例的笔画种类编码示意图,其是用以建构文字模型的基本笔划,包括八方向笔画(图2A的0-7)、八个圆弧状笔画(图2B的(A)-(H))和两个圆圈笔画(图2B的(O)及(Q)),其皆储存于笔画特征数据库15中,一维特征编码单元12是依照1D在线模型,并将笔画按时间序列转换为一维串行的编码序列,文字辨认单元13使用动态时间扭曲算法(Dynamictime warp matching algorithm)对一维串行编码和文字数据库16储存的文字,例如中文、英文、数字、及符号进行文字比对,找出相似程度最高的文字,再输出至显示单元14显示之。
请参阅图3,图3为本发明一较佳实施例的文字辨识过程示意图,本发明先以数字「3」和「6」为范例大略说明文字辨识的过程,首先,图像处理单元11过滤出使用者在摄影机前以指尖写「3」和「6」的移动轨迹,一维特征编码单元12是依照1D在线模型及笔画的种类,将笔画按时间序列转换为一维串行的编码序列,请同时参阅图2B,「3」的笔画为二个顺时针的圆弧状笔画所组成,其所对应的编码为E,因此3的一维编码序列为「EE」;而「6」的笔画为逆时针的圆弧状笔画及所组成,其所对应的编码分别为CA,因此6的一维编码序列为「CA」,最后,文字辨认单元13使用动态时间扭曲算法(Dynamic time warp matching algorithm)对「EE」及「CA」和文字数据库16中储存的文字编码进行比对,找出数字3及6输出到显示单元14。
请参阅图4,图4为本发明一较佳实施例的笔画切断示意图,实际上,以指尖手写文字的笔画轨迹与持笔写字的笔画轨迹并不完全相同,以指尖手写文字时因手指在一笔画和下一笔画之间的连续移动,会产生一些多余的轨迹,造成辨识的困难度增加,以英文字「E」为例,其笔画顺序为「→」「↓」「→」「→」,但以指尖写字时,在第一笔画「→」和第二笔画「↓」之间因指尖的移动会产生一多余「←」的笔画,本发明为解决此问题,将一些会造成多余笔画的状况定义为笔画切断,例如图4A~C的示意图,如此便能增加笔画的正确度,进而提高文字的辨识率。
请参阅图5,图5为本发明一较佳实施例的下笔及提笔手势示意图,本发明还定义二种不同的手势,可结合Microsoft Office IME输入法整合器,利用所定义的手势进行文字输入,下笔写字时拇指不伸出,如图5A所示,提笔移动游标时拇指伸出,如图5B所示,因此,本发明可利用拇指判断使用者是要输入文字或单纯移动鼠标。
请参阅图6,图6为本发明一较佳实施例的视讯文字输入方法流程图,本发明的视讯文字输入装置包括有一图像摄取单元10、一图像处理单元11、一一维特征编码单元12、一文字辨认单元13、一显示单元14、一储存各种笔画及其对应编码的笔画特征数据库15、及一储存有中文、英文、数字、及符号的文字数据库16。首先,图像摄取单元10摄取图像传送至图像处理单元11(步骤60),其计算所摄取的图像的画面差异值判断是否有物体移动(步骤61,62),若无检测到移动则重新摄取图像,若有则进行指尖抽取(步骤63),接着判断是否找到指尖(步骤64),若有则将指尖位置记录下来过滤出指尖的移动轨迹(步骤65),若无找到指尖表示使用者已手写完毕,则将轨迹传送至一维特征编码单元12,其对移动轨迹进行笔画抽取(步骤66),并搜寻笔画特征数据库15,将笔画按时间序列转换为一维串行的编码序列(步骤67),文字辨认单元13使用动态时间扭曲算法(Dynamic time warpmatching algorithm)对一维串行编码和文字数据库进行文字比对(步骤68),找出相似程度最高的文字(步骤69),最后输出至显示单元14(步骤70),显示文字辨识的结果。
请参阅图7,本发明另以数字「6」为例详细说明文字辨识的过程,当图像处理单元11过滤出「6」的移动轨迹后,将移动轨迹依时间顺序分为多个小段,即图7中的S1~S20,每一小段为对应一方向值,请同时参阅图2(A)的八方向笔画定义示意图,S1线段为属于图2(A)中157.5°~202.5°区间,意即S1线段所对应的方向值为4,以此类推,S3线段所对应的方向值为5,S5线段所对应的方向值为6......等,接着对轨迹进行平滑化处理,使线段S1~S20成为多个平滑段S’1~S’13,再将多个平滑段中,方向变化于一预定范围内的平滑段合并为组合段S”1~S”9,每一组合段S”1~S”9亦对应至一方向值,再依据组合段的对应方向值,将移动轨迹切割为多个笔画,于本实施例中,组合段S”1~S”5对应的方向值为45670,其所组成的笔画为而组合段S”5~S”9对应的方向值为01234,其所组成的笔画为请同时参阅图2(B),笔画及分别对应的编码为「CA」,因此6的一维编码序列为「CA」,最后,文字辨认单元13找出文字数据库16中与一维编码序列「CA」最相近的文字为「6」。
上述实施例仅是为了方便说明而举例而已,本发明所主张的权利范围自应以申请专利范围所述为准,而非仅限于上述实施例。