书签 分享 收藏 举报 版权申诉 / 23

基于隐式马尔可夫模型的手写笔迹/书法生成.pdf

  • 上传人:111****11
  • 文档编号:5813494
  • 上传时间:2019-03-22
  • 格式:PDF
  • 页数:23
  • 大小:1.44MB
  • 摘要
    申请专利号:

    CN200880102021.7

    申请日:

    2008.08.11

    公开号:

    CN101785030A

    公开日:

    2010.07.21

    当前法律状态:

    终止

    有效性:

    无权

    法律详情:

    未缴年费专利权终止IPC(主分类):G06T 11/60申请日:20080811授权公告日:20121128终止日期:20150811|||专利权的转移IPC(主分类):G06T 11/60变更事项:专利权人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿州变更后权利人:美国华盛顿州登记生效日:20150515|||授权|||实质审查的生效IPC(主分类):G06T 11/60申请日:20080811|||公开

    IPC分类号:

    G06T11/60

    主分类号:

    G06T11/60

    申请人:

    微软公司

    发明人:

    P·刘; Y·吴; L·马; F·K·宋

    地址:

    美国华盛顿州

    优先权:

    2007.08.10 US 11/837,434

    专利代理机构:

    上海专利商标事务所有限公司 31100

    代理人:

    顾嘉运;钱静芳

    PDF完整版下载: PDF下载
    内容摘要

    一种用于手写字符生成的示例性方法包括接收一个或多个字符以及对于该一个或多个接收到的字符,使用被训练以供生成手写字符的隐式马尔可夫模型来生成手写字符。在这一方法中,经训练的隐式马尔可夫模型可使用诸如最大后验技术、最大似然线性回归技术或本征空间技术等技术来自适应。

    权利要求书

    1: 一种用于手写字符生成的方法,所述方法至少部分地由计算设备实现,所述方法包括: 接收字符;以及 使用为生成手写字符而训练的隐式马尔可夫模型来生成对应的手写字符。
    2: 如权利要求1所述的方法,其特征在于,包括接收一个以上字符以及生成对应的手写字符。
    3: 如权利要求1所述的方法,其特征在于,所述隐式马尔可夫模型包括使用斜率、曲率和虚构笔划特征来训练的隐式马尔可夫模型。
    4: 如权利要求1所述的方法,其特征在于,所述隐式马尔可夫模型包括使用包括斜率特征和曲率特征的真实笔划特征集与包括斜率特征的较少维度的虚构笔划特征集来训练的隐式马尔可夫模型。
    5: 如权利要求1所述的方法,其特征在于,所述生成还包括使用多空间概率分布技术,其中所述多空间概率分布技术包括用于确定笔划是真实的还是虚构的真实性概率。
    6: 如权利要求1所述的方法,其特征在于,所述隐式马尔可夫模型包括使用书法数据来训练的隐式马尔可夫模型。
    7: 如权利要求1所述的方法,其特征在于,所述隐式马尔可夫模型包括使用东亚字符数据来训练的隐式马尔可夫模型。
    8: 如权利要求1所述的方法,其特征在于,所述隐式马尔可夫模型包括使用来自标准书写者的数据来训练的隐式马尔可夫模型。
    9: 如权利要求1所述的方法,其特征在于,还包括使用笔模型来呈现所生成的对应的手写字符。
    10: 如权利要求9所述的方法,其特征在于,所述笔模型包括笔尖参数。
    11: 如权利要求1所述的方法,其特征在于,所述隐式马尔可夫模型包括使用对应于书写压力的压力特征来训练的隐式马尔可夫模型。
    12: 如权利要求1所述的方法,其特征在于,所述隐式马尔可夫模型包括使用选自包括最大后验技术、最大似然线性回归技术和本征空间技术的组的技术来自适应的经自适应的、经训练的隐式马尔可夫模型。
    13: 如权利要求1所述的方法,其特征在于,所述隐式马尔可夫模型包括使用最大似然线性回归技术以及来自与所接收到的一个或多个字符相同的书写者的墨水数据来自适应的经自适应的、经训练的隐式马尔可夫模型。
    14: 如权利要求1所述的方法,其特征在于,所述经训练的隐式马尔可夫模型包括使用自适应技术和来自名人的墨水数据来自适应的经自适应的、经训练的隐式马尔可夫模型。
    15: 一种用于使经训练的隐式马尔可夫模型自适应以生成手写字符的方法,所述方法至少部分地由计算设备实现,所述方法包括: 提供初始、经训练的隐式马尔可夫模型以生成手写字符; 提供训练墨水数据以使得所述初始、经训练的隐式马尔可夫模型自适应;以及 应用自适应技术以使得所述初始、经训练的隐式马尔可夫模型对所述训练墨水数据自适应,其中所述自适应技术包括选自包括最大后验技术、最大似然线性回归技术和本征空间技术的组的技术。
    16: 如权利要求15所述的方法,其特征在于,还包括计算所述训练墨水数据的特征向量。
    17: 如权利要求15所述的方法,其特征在于,所述应用对一个或多个均值向量和一个或多个协方差矩阵应用所选技术。
    18: 如权利要求15所述的方法,其特征在于,所述初始、经训练的隐式马尔可夫模型包括使用书法数据来训练的隐式马尔可夫模型。
    19: 如权利要求15所述的方法,其特征在于,所述初始、经训练的隐式马尔可夫模型包括使用标准书写者和包括来自不同书写者的数据的训练墨水数据来训练的隐式马尔可夫模型。
    20: 一种用于生成手写字符的计算设备,所述设备包括: 处理器; 用户输入机构; 显示器;以及 至少部分地由所述处理器实现的基于使用隐式马尔可夫模型的算法来生成手写字符控制逻辑。

    说明书


    基于隐式马尔可夫模型的手写笔迹/书法生成

        背景

        模仿个性化或有美感的手写字符的真实笔迹的手写和/或书法生成在娱乐或计算机图形领域正变得越来越流行。生成这些风格元素的系统不同于仅仅打印或显示标准字体的常规系统。以下是常规系统的简要概览,这帮助凸显对于手写笔迹和/或书法生成所存在的挑战。

        存在用于输入文本或手写笔迹的许多类型的输入设备。例如,常规计算机键盘是在致动键或键的组合时生成信号的输入设备。计算机内的芯片接收信号位并将其解码成正确的按键。该计算机然后基于所按下的键来决定做什么(例如,在屏幕上显示一字符或执行某一动作)。所显示的字符通常根据字面或字体来显示。例如,文字处理程序可包括诸如Arial、Time New Roman等字体。

        在印刷术中,字面是风格单一地设计的一组协调的字形。字面通常包括字母表、数字和标点符号;它还可包括表意文字和符号或者全由它们组成,例如,数学或制图符号。术语字面通常与字体混合,字体是历史上在桌面发布出现之前具有多个不同含义的术语;在讨论数字印刷术时,这些术语现在实际上是同义的。字体和字面之间的一个值得注意且仍然有效的区别是字体的状态作为离散物品,而字面指定视觉外观或风格。

        设计字面的艺术和手艺被称为字设计。字面的设计者被称为字设计者,并且通常是排印工人。在数字印刷术中,字设计者也被称为字体开发者或字体设计者。

        无论用户是通过键盘、笔/图形输入板、还是通过语音识别等来输入字符,对于常规系统而言,最终结果由与所输入的字符具有一对一对应关系的所选字体来规定。例如,虽然一个人可以在图形输入板上使用笔来输入草写体字符,但常规手写识别和生成系统能够实现的最佳“草写体”结果是通过不考虑字符顺序、间隔等的草写体字体实现的。换言之,输出与表达相剥离。虽然用户可论证地对特定字体应用斜体样式以进行强调(或加下划线或粗体),但最终结果仍然缺乏人类手写笔迹中出现的表达。

        对于表达,一个人可通过使用僵直的、有倾斜度的、高压笔划来表达愤怒,或者一个人可通过使用卷曲的、舒展的、低压笔划来表达喜悦。的确,笔迹学领域致力于对这些字符的研究和分析,尤其在与人类心理状态的关系方面。笔迹学已用于评估配偶相容性、智力和甚至将来(类似于占星术),对于名人、政客等尤其如此。在医疗领域,笔迹学有更实际的目的,例如,帮助诊断和跟踪大脑和神经系统的疾病。法院和银行经常使用笔迹学的各方面(或者更一般而言是笔划特征、字符键入等)来认证书写者身份或对该身份发表意见。

        此处所讨论的各示例性技术可生成手写笔迹和/或书法。这些技术允许宽泛范围的用户表达。

        概述

        一种用于手写字符生成(例如,草写体、书法或其他风格化字符)的示例性方法包括接收一个或多个字符以及对于该一个或多个接收到的字符,使用被训练以供生成手写字符的隐式马尔可夫模型来生成手写字符。在这一方法中,经训练的隐式马尔可夫模型可使用诸如最大后验技术、最大似然线性回归技术或本征空间技术等技术来自适应。

        附图简述

        参考附图描述了非限制性的和非穷尽的实施例,其中除非另外指定,否则在各个视图中相同的附图标记指示相同的部分。

        图1是用于生成手写字符的设备和过程的图示。

        图2是东亚(EA)字符以及笔划指示、笔划顺序和EA字符的草写体和印刷体表示的图示;注意各示例性方法可以与来自其他语言(例如,草写体英语等)的字符一起使用。

        图3是用于字符和风格建模的各种建模特征的图示。

        图4是用于使用基于HMM的模型以及个性化选项来生成手写字符的示例性方法的图示。

        图5是用于手写字符生成的示例性方法的图示,该方法包括训练阶段和合成阶段以及示例性特征向量和求解技术。

        图6是用于使用一种或多种自适应技术来使经训练的HMM自适应地示例性方法的图示。

        图7是用于通过将自适应技术应用于一个或多个均值向量和一个或多个协方差矩阵来使初始、经训练的HMM自适应的示例性方法的图示。

        图8是使用示例性系统来生成和呈现的各种手写EA字符的图示,该示例性系统使用斜率、曲率和虚构笔划特征。

        图9是可用于实现此处所讨论的各种示例性方法中的部分或全部的示例性计算设备的各个组件的图示。

        详细描述

        此处描述了在手写笔迹和书法生成系统中使用的技术。这些技术可应用于与各种语言中的任一种相关联的手写笔迹。例如,在英语中,各种示例性技术可生成草写手写笔迹,而在汉语中,各种技术可生成手写字符。在这些示例中的任一个中,所生成或呈现的手写笔迹的风格可以是“金牌”书写者的风格、特定书写者的风格或者不止一个书写者的风格组合。对于最后一种情况,书写者可选择她的手写和金牌书写者(或著名书写者)的手写之间的特征相似性或自适应性的程度。这些技术允许书写者“伪造”金牌书写者的手写笔迹或书法,“伪造”名人的手写笔迹或书法或者将另一书写者的风格的各方面混合到该书写者自己的手写笔迹或书法中。

        图1示出了用于手写笔迹和/或书法生成100的过程和设备。关于设备,示出了计算设备以及各种输入部件120的某些示例。输入可经由键盘、笔、话筒、遥控器、蜂窝电话键区等来进行。关于生成,显示器140、键盘170和计算设备180示出用户能够如何经由字符键172和数字键174来输入信息。在图1的示例中,用户使用键盘170来输入“Hello World”或东亚字符“来”。对于常规系统,计算设备180使得显示器140以所选标准字体150显示“HelloWorld”或“来”。相反,在示例性手写笔迹生成系统中,计算设备180使得显示器140显示草写体的“Hello World”或缮写的东亚字符。

        此处所描述的各种示例性技术使用诸如常用于手写字符识别的基于隐式马尔可夫模型(HMM)的方法来生成手写字符。例如,为了生成风格化输出160,计算机180包括使用示例性的基于HMM的手写笔迹生成方法的软件。用于手写字符生成的示例性方法(例如,至少部分地由计算设备实现)包括接收字符并使用为生成手写字符而训练的HMM来生成对应的手写字符。这一方法可接收字符串或字符组并生成对应的手写字符。

        由此,如此处所描述的,手写字符生成依赖于基于HMM的方法。各种字符识别系统使用基于HMM的方法来基于书写者的输入数据识别字符。单个HMM包括状态以及可使用适当的训练信息来训练的状态转换。一组经训练的HMM以及关于一个或多个字符的输入信息可用于预测该输入信息的可能结果(例如,对应于该字符信息的一个或多个字符)。

        如在下文中更详细地描述的,一种示例性方法使计算设备能以自然的、个性化的或有美感的方式生成手写字符。如图1的示例所示,用户可使用键盘170来键入一消息,并且然后计算机180将自动生成模仿人类手写笔迹的笔迹。

        各种示例性技术解决灵活的、可训练的框架中的手写笔迹生成。一种示例性技术对代表性特征(例如,字符的x、y坐标)以及导出特征(例如,斜率和曲率)建模。因此,在生成对应于手写字符的迹线时,该方法能够对提供平滑迹线的最大似然问题求解,因为不仅斜率而且曲率都被训练成在似然的意义上尽可能地接近对应的模型。

        除了灵活性、可训练性和自适应性优点之外,另一能力是生成超出传统字体概念(参见背景部分)的连续手写笔迹。各种示例性技术可使用压力和速度信息来定义特征。有了这些信息和特征,使用基于HMM的生成方法的示例性框架还能够处理由画笔书写的有美感的东亚书法。

        各种示例性技术能够使用各种笔划顺序/书写风格和虚构笔划(或者在常规的基于HMM的字符识别系统中使用的其他技术)来表征笔迹。一种示例性手写字符生成系统采用多路径HMM和多空间概率分布(MSD)来对笔划顺序/书写风格和虚构笔划求解。

        用于字符识别的常规的基于HMM的方法可如下地操作。在定义东亚字符的特征之后,从训练墨水数据中提取所定义的特征以训练HMM模型。所提取的特征(有时被称为“特征信息”)可用于(i)训练字符识别模型或者(ii)可被输入到经训练的字符识别模型中,该模型进而输出对应于该特征信息的字符。

        如此处所描述的,出于手写笔迹和/或书法的目的,用于生成手写笔迹的示例性的基于HMM的方法使用所定义的特征来捕捉不仅与字符,而且与字符或字符串(例如,以草写体书写的字)中的各个笔划的风格特性相关联的特质。捕捉这些特性的过程此处被称为编码,这是训练示例性的基于HMM的系统以生成手写笔迹和/或书法的训练过程的一部分。

        对于常规的基于HMM的字符识别,对关于手写字符的墨水数据应用特征提取并且将所得特征信息输入到经训练的HMM中。接着,使用来自经训练的HMM的输出来选择对应于特征信息并且间接对应于墨水数据的字符。经训练的HMM模型的准确性取决于各种因素,包括所选在线特征集。

        如此处所描述的,用于手写笔迹生成的示例性的基于HMM的方法使用足够丰富以编码手写字符及其相关联的风格元素的所选特征集。取决于要编码或再现(例如,呈现)的表达水平,特征可允许编码单个字符或具有不同风格(例如,喜悦、愤怒等)的字符串。

        更具体而言,一种示例性方法处理墨水数据(例如,关于“金牌”书写者、普通用户等的手写笔迹的墨水数据)以提供特征信息,该特征信息然后可用于训练基于HMM的手写笔迹生成模型。在需要时,墨水数据处理可包括重新采样以确保每一字符笔划的墨水数据点的间隔统一。墨水数据处理可将墨水数据分解成各个帧,其中可针对一组预定特征来分析这些帧。例如,一组特征可包括正切或斜率特征、曲率特征和虚构笔划特征。进而,该组特征可增强字符生成。

        特征可参考可以是数学等式的规则来描述。特征可使用一个数字(例如,角度、长度等)、多个数字(例如,坐标等)或其他表示来表征。在特征之间可能存在关系,其中这一关系可出于字符编码和/或风格编码的目的来量化。所提取的墨水数据特征可以按例如向量或数组的形式表示为用于训练基于HMM的手写笔迹生成系统的合适的输入。

        基于特征的方法使墨水数据能以聚焦于保留增强或以其他方式便于手写笔迹生成的特性同时仍然保留所需风格特性的方式减少。特征提取还可用于消除无关或降低识别准确度的数据或特性。

        字符特征和建模特征

        图2示出了连同笔划指示的东亚(EA)字符205以及每一笔划的起始点和结束点(1-6)的时序210的图示200。还示出了草写体和印刷体字符220。如参照字符205所指示的,笔划可以是真实笔划(例如,墨水笔划)或虚构笔划。根据个人绘制该字符的顺序来从1到6标记各个笔划的起始点和结束点。示出了点1到6中的每一个的以毫秒计的时序110以及笛卡尔坐标(x,y)。在该示例中,书写者在时刻0毫秒在点1处开始第一真实笔划,并且在时刻20毫秒在点2处结束该第一笔划。第二真实笔划在时刻36毫秒在点3处开始并且在时刻48毫秒在点4处结束。最后的真实笔划在时刻71毫秒在点5处开始并且在时刻95毫秒在点6处结束。在使用100Hz的采样速率的情况下,最小时间增量将会是10毫秒,因此,时间信息可能是四舍五入的(例如,0毫秒、20毫秒、40毫秒、50毫秒、70毫秒、100毫秒)。时序信息允许确定笔划的速率、速度和加速度。

        此处所描述的各种技术可以与在线手写墨水数据或离线手写墨水一起使用以训练基于HMM的生成系统或使其自适应。离线手写数据通常被转换成缺少时间信息的图像,而在线手写数据可由对笔尖迹线的一系列点进行采样的图形输入板设备来收集。然而,离线手写数据可以按保留时间信息(例如,速率、速度、加速度等)和/或其他信息(例如,压力、画笔粗度等)的方式来生成。

        虽然图2的时序210仅示出了笛卡尔坐标和时间戳,但手写墨水数据可包括其他信息。对于书法,手写数据中可包括画笔信息或其他书法相关信息。手写数据可包括关于若干笔划的书写顺序的信息,诸如对应于一字符的三个笔划的有序点1到6。如将在下文中进一步描述的,基于HMM的模型可包括表示一组笔划的不同笔划顺序的路径,其进而能够解释书写风格。一般而言,一组预定特征捕捉特定类型的手写笔迹信息以保留风格特性。

        被配置成记录手写笔迹的设备通常依赖于书写工具(例如,笔)和记录表面(参见,例如,图1的设备110)之间的交互。在形成字符时,每一墨水笔划都可被记录为由笔尖在图形输入板上的接触唤起的采样点序列,其表示笔尖在提笔和落笔之间的迹线。用户还可在笔划之间提起书写工具以使得不记录该工具的移动,然而,不与墨水笔划相关联的移动与墨水笔划的移动相比可被认为是不重要的。更具体而言,手写字符具有一个或多个墨水笔划,这些墨水笔划在坐标中是不连续的。

        对于东亚字符,用户可以按印刷体(printed)风格、行体(running)风格或草写体风格来书写字符。这些风格可一致地用固定数量的笔划或可变数量的笔划来书写。例如,考虑字符220的草写体和印刷体版本。在印刷体风格中,字符更规则地书写(例如,像印刷字体)并且两个笔划之间的边界往往相当明显;而在行体或草写体风格中,连续笔划往往连接在一起并且连续笔划之间的边界是模糊的。更具体而言,在草写体东亚字符书写中,用户往往通过仅用单个笔划来书写一字符来将该字符的若干部分连接成一个部分,注意,用户可对整个字符使用不止一个笔划。相反,对于印刷体东亚字符,用户的字符笔划数通常相当稳定。草写体书写或印刷体书写中引起的不一致性可被认为是可在对风格建模时解释的风格特性。常规字符识别系统将这些不一致性视作是有问题的,并且在构建用于字符识别的HMM模型时使用各种技术来减小其影响。这一常规方法使对风格建模的能力降低。

        再次参考图2的字符205,示例性字符生成系统可标识一个或多个虚构笔划以便于以解释书写者的手写和/或书法风格的方式对字符生成建模。例如,虚构笔划可被定义为笔从前一笔划的提笔到下一笔划的落笔的虚构线性移动。有了相邻真实笔划之间的虚构笔划,连接所有笔划以形成连续迹线,可在该迹线上构建HMM以便出于手写笔迹生成的目的对手写字符建模。

        图3示出了用于字符和风格编码(例如,用户对东亚字符或其他手写字符建模)的各种建模特征250。手写构架(skeleton)笔划字符和书法字符252展示风格以及风格元素之间的差异。该构架笔划字符可使用标准特征集(例如,x-y坐标)来相当好地表示,然而,该书法字符包括更多的风格元素(例如,可随心情、情绪状态等变化的个人、非标准特性)。书法或有表现力的笔划此处还被称为“丰富笔划”,因为它们包括比构架笔划更多的信息。示例性特征集可包括关于压力、速度(和/或速率)、斜率(或正切)和/或曲率以解释在丰富笔划中找到的风格元素的特征。

        图3中的另一个框示出了具有虚构笔划的字符的示例以及具有真实笔划的同一字符的示例254。如此处所描述的,虚构笔划可使用比真实笔划更少的维度来表示。具体而言,在该示例中,虚构笔划被表示为有斜率但没有曲率的笔直虚线,如Δx和Δy距离以及余弦和正弦函数(或正切函数)所指示的。与虚构笔划相反,真实笔划不是笔直的而是弯曲的;因此,除了真实笔划的斜率特征之外,可使用特征余弦ΔΘ和正弦ΔΘ,无论该真实笔划是字符的基础部分(例如,构架组成部分)、连接笔划(例如,草写体)还是风格元素(例如,书法元素)。如此处所描述的,就手写笔迹生成系统而言,对于虚构笔划可估算斜率特征,而对于真实笔划可估算斜率和曲率特征。

        经由虚构笔划特征来标识虚构笔划可帮助编码和训练以及风格生成。此外,虽然具有真实笔划的字符部分可被标记或标识为与字符识别有极少或没有关联,但它也可被标识为“虚构”笔划部分(或者草写体连接部分或风格部分)并出于手写生成的目的而使用。

        如此处所描述的,虚构笔划可通过将相邻真实笔划连接在一起以形成连续迹线来生成。例如,墨水数据可转换(例如,重新采样)成数据点之间的增量相等的连续数据集。对于手写东亚字符,墨水数据可被表示为各部分被适当地标记为虚构或真实的单个连续迹线。对于一个或多个手写、草写体英语字符,也可使用单个连续迹线,其中适当地标记用于连接草写体手迹中的字符的连接部分。

        在某些情况下,上述连续迹线方法可导致具有相似但实际上不同的迹线的字符之间的混淆。为了克服这些问题,可实现示例性多空间概率分布(MSD)技术以便连同真实笔划对虚构笔划建模。例如,考虑两个汉语偏旁‘氵(水)’和‘讠(语言)’,如果连接所有真实笔划,则这两个偏旁的迹线变成无法区分。除了笔迹之外,用于编码连续的真实笔划之间的连接/不连接的二进制指示符对于将真实笔划与虚构笔划区分开来可能是有用的。如已经参考字符254所提到的,虚构笔划建模中的另一问题对于两个连续的真实笔划的直接连接发生,其中如曲率的特征退化(这些虚构笔划具有零方差)。

        使用MSD技术,真实和虚构笔划变成来自可随机对其建模的不同概率空间的观察结果。同样,MSD技术中的灵活性,即为每一单独空间分配不同的特征维度使得识别系统能忽略可能在建模时导致奇异性(singularity)问题的特定特征。出于字符识别的目的,在手写汉字识别中获取的实验结果指示MSD方法提供跨不同识别系统的约1.3%-2.8%的字符识别准确度提升,其中MSD显著地改善具有相似迹线的可被混淆的字符(例如,‘清’和‘请’)之间的鉴别。如此处所描述的,这一方法适用于用于手写笔迹生成的基于HMM的模型。

        对于基于HMM的模型,用于处理虚构和真实笔划的示例性结构可包括:状态(“状态A”)方法,该状态方法具有拥有两个概率密度函数(PDF)的一个数据流(4维高斯PDF对真实笔划特征建模而2维高斯PDF对虚构笔划特征建模);以及状态(“状态B”)方法,该状态方法具有两个流,一个流由2维高斯函数建模而另一个流是具有以下两个PDF的MSD流:对真实笔划特征建模的2维高斯PDF以及其概率恒定为1的0维PDF。对于状态B,状态概率是这两个流输出概率的总和。

        笔划的真实概率(RP)的物理意义是笔划是在落笔阶段中书写的或真实笔划的概率。对于那些对应于印刷字体中的真实笔划的字体,RP应接近于1。对于那些对应于虚构笔划的状态,虚构概率(IP)在0和1之间,这取决于训练或输入数据中的样本是连接的可能性。

        通过添加虚构笔划和适当的MSD建模,增强了迹线相似的字符之间的鉴别。例如,在传统HMM方法中,偏旁‘氵’、‘讠’和‘氵’之间的鉴别可能缺乏准确性,但有了MSD-HMM方法,鉴别更加准确。通过使用MSD-HMM方法实现的总体改进在缓解由于仅仅将真实笔划与虚构笔划相连接而导致的问题时是有效的。

        如上所述,示例性的基于HMM的方法可使用斜率和曲率特征。更具体而言,斜率特征(cos Θ;sinΘ)和曲率(cosΔΘ,sinΔΘ)特征允许对字符和风格建模。虽然在各个示例中使用正弦和余弦,但可将斜率和曲率的其他表示用作替换方案(例如,正切等)。可在虚构笔划上测量斜率特征,但对于曲率特征,由于直接连接两个连续的真实笔划,因此虚构笔划的曲率固有地为零,这在HMM建模时产生奇异性。为了克服这点,在MSD-HMM中,对于真实笔划,使用四维特征集(cosΘ;sinΘ;cosΔΘ;sinΔΘ)而对于虚构笔划,使用二维特征集(cosΘ;sinΘ)。该方法消除虚构笔划的曲率奇异性的可能性、同时保留关于真实笔划的丰富笔划信息。换言之,经由该特征安排,丢弃虚构笔划的曲率信息中的非随机、退化信息,并且高效地对笔迹建模。

        示例性的基于HMM的建模方法使用斜率特征和曲率特征来确定作为代表性特征的原始坐标。虽然并未详细陈述斜率确定哪一部分以及曲率确定哪一部分,但最终结果是在不仅斜率而且曲率的意义上的最大似然解(ML解)。向基于HMM的模型添加MSD技术以便例如使用MSD-HMM模型中的“真实性”权重或概率来确定笔划是真实的还是虚构的。上述真实概率(RP)和虚构概率(IP)对应于该权重。虽然这一权重可以是连续的值,但该权重也可更近似地处理(例如,小于0.5的那些值可被设为权重0而大于0.5的那些值可被设为权重1)。

        图3还示出了对应于虚构/真实笔划顺序的HMM 256的图示。在图示256的右侧,开圆表示字符的两个可能的虚构笔划。手写字符是以一种方式还是以另一种方式书写是经由墨水顺序数据来捕捉的。如参考字符250所解释的,书写者可使用标准顺序(例如,学校里教的)或替换顺序(例如,个人或其他)来书写字符。为了捕捉这一信息,这可帮助产生手写笔迹,示例性的基于HMM的手写输出系统包括对应于两种可能性的HMM。当然,在存在不止两种可能性的情况下,生成系统可包括不止两种可能性。

        HMM 256中所示的方法被称为多路径方法。在常规在线手写建模时,HMM拓扑结构是从左到右的,并且仅能够表征特定种类的笔迹。示例性多路径HMM方法解释书写顺序和书写风格中的变化。如将在以下进一步解释的,一种示例性方法包括训练对应于变化的书写顺序和书写风格的单元的多路径HMM。

        如上所述,对于HMM 256,每个单一转换路径都对一特定书写顺序或书写风格建模。示例性的多路径拓扑结构还使得能够自动训练所有路径而不将数据分成书写顺序和书写风格的不同训练组。在图3的示例中,每一经训练的路径都表示字符的主要书写模式,其可以是一种书写笔划顺序或一种书写风格。每一路径表示的模式都是自动从数据中训练出的。例如,汉字“九”通常能够以两种笔划顺序来书写。根据图示256,对应于该字符的经训练的两路径模型的每一路径都表示一种书写笔划顺序(在模型可视化中,每一条线都表示一个状态模型)。同样,对于汉字“复”,虽然它通常只具有一种书写笔划顺序,但它能够以不同的风格(例如,正常体和草写体)书写。

        示例性手写笔迹和/或书法生成系统和方法

        一旦选择了一组特征以及用于处理这些特征的建模方法,就可训练基于HMM的模型并且然后使用该模型来生成手写字符及其风格元素。此外,如此处所描述的,基于HMM的模型可使用书写者自己的手写笔迹来自适应或以其他方式“个性化”以引入特定风格元素。自适应是可任选的并且自适应程度可根据书写者的需要而变化(例如,从几乎没有个性化到高度个性化)。

        图4示出了用于手写笔迹生成和呈现的示例性方法400。方法400对若干数据源进行操作:标准手写数据402(例如,“金牌”书写者);其他手写数据404(例如,个人书写者);输入“标签”数据406(例如,经由键盘等);以及笔模型或数据408(例如,书法画笔、笔尖等)。图4中所使用的各种字体仅出于说明的目的,实际手写笔迹可包括更丰富的笔划和笔划可变性,如参考图2和3的字符所解释的。方法400可任选地由个性化或自适应框450来个性化(例如,使用数据404)。方法400首先在没有个性化选项的情况下大致描述,并且然后在有个性化选项的情况下更具体地描述。

        根据方法400,将标准数据402输入到训练框410中,该训练框410训练HMM模型以生成经训练的HMM模型,该HMM模型包括经训练的HMM 420的集合。在该示例中,HMM 420对标准数据402的斜率、曲率、虚构笔划特征建模。如参考图5所解释的,该HMM模型可以是其中将MSD技术应用于对真实和虚构笔划建模的MSD-HMM模型。

        给定经训练的HMM 420,手写笔迹生成可以在合成框430中进行,该合成框430从特定“书写者”处接收输入数据406,如参考图1所解释的,该输入数据406可来自各种源(例如,键区、键盘、语音识别、字符识别等)中的任一种。合成框430产生所生成的结果440,该结果可根据笔模型408来呈现。在未实现个性化选项的情况下,结果440是非个性化结果(左侧),取决于呈现(例如,笔模型)该结果可模仿或再现标准手写数据402风格。例如,在标准手写数据402对应于“金牌”书写者的情况下,则所呈现的结果可以是金牌书写者的风格的再现,即使输入数据406(例如,作为经由键区、键盘等的输入)的仅仅是一普通用户。

        个性化选项450可以用其他手写数据404的风格来调整标准手写数据402的风格。数据404可以来自一用户或另一用户。在数据404是来自一用户的情况下,个性化框450可调整标准手写数据402的风格以使得结果440是标准风格和书写者自己的风格的混合。在数据404是来自另一用户的情况下,例如,标准手写数据402可以是来自诸如安吉利娜·茱莉(Angelina Jolie)等名人而其他手写数据404可以是来自诸如布拉德·皮特(Brad Pitt)等另一名人。进而,输入数据406可以是来自想要其手写笔迹看上去像Angelina Jolie和Brad Pitt之间的混合(即,“布拉吉利娜(brangelina)”)的普通用户。

        自适应技术参考图6和7更详细地讨论;注意,用户可确定进行多少自适应。如图4的底部所指示的,所呈现的结果440可不具有个性化,具有一些个性化或可以是高度个性化的。

        图5示出了示例性方法500,该方法包括图4的训练阶段410和合成阶段430以及其他细节。一般而言,训练阶段410用作为原始代表性特征向量的函数的建模特征向量来训练HMM,以便学习迹线的更详细信息,而合成阶段430包括通过经由在建模特征向量和代表性特征向量之间显式地施加相关来最大化相对于代表性特征向量的似然来对生成问题求解。例如,在语音合成中,代表性特征向量包括频谱包络参数和基频,并且为建模特征向量追加它们的增量和加速度。在训练阶段410中,使用所有建模特征来训练HMM并且然后在合成阶段430中,生成具有最大似然的频谱参数和基频迹线作为输出。

        如此处所描述的,用于手写笔迹和/或书法的基于HMM的建模提供了一种开放式解决方案,其中能够容易地使用所有种类的特征,这在有美感的书法合成中尤其有帮助。这一方法可通过使用HMM自适应技术,只用少许自适应样本来构建个性化手写字体。一种示例性基于HMM的方法允许训练数据中的未看见的字符组合的连接变形,这可由决策树或在语音识别和合成中广泛采用的其他群集技术来自然地生成,这赋予这一系统更好的生成或创建能力。

        再次参考图5的方法500,数据块402、405、406和408是如图4所描述的。虽然数据块402可以是来自标准书写者(即,金牌书写者)的,但它也可以是来自不止一个书写者(例如,许多书写者)的数据集合,以便训练平均字体。

        训练阶段410可接收标准手写数据402并分析这些数据以标识丰富笔划和标签。将丰富笔划输入到特征提取框412中,该特征提取框提取诸如代表性特征向量R={x,y,v,p}所指示的x-y坐标、速度和压力等特征。特征转换框414将这些特征转换成作为基本特征的函数的更有意义的向量,如O=f(R)={Δx,Δy,Δ2x,Δ2y,v,Δv,p,Δp,...}所指示的。然后将该信息与对应的标签一起输入到HMM训练框416中以产生经训练的HMM 420。

        如在语音合成中,高阶动态特征在描述平滑演化迹线时是有帮助的。因此,经由特征提取框412和特征转换框414,为了生成代表性特征R={x,y,v,p}的迹线,该方法采用建模特征O={Δx,Δy,Δ2x,Δ2y,v,Δv,p,Δp}。在该示例中,并不包括x和y本身的静态特征,因为适当地规格化这些特征通常不是琐碎的。在其中规格化这些特征的某些情况下,也可使用它们。

        如上所述,对于虚构和真实笔划,虚构空间的维度低于真实空间的维度。例如,一种方法采用(Δx,Δy,Δ2x,Δ2y)作为真实空间中的特征,则虚构空间中的特征是(Δx,Δy),因为作为定义加速度(曲率)在虚构笔划上始终为0。

        自适应框452可使用其他手写数据404来使经训练的HMM 420自适应。同样,自适应或个性化是可任选的并且可由用户选择以调整或个性化标准手写笔迹或书法风格。

        在合成阶段430中,将输入数据406标签输入到选择HMM序列的模型选择框432中。之后是生成框434,其使用函数:R=argmaxR′P[f(R′)]λT]所指示的最大似然方法来确定“最适合”的HMM。因此,在合成阶段430中,给定一文本片段(例如,图1的“hello world”示例),首先经由选择框432从经训练的且经可任选地自适应的HMM 420中选择对应的模型序列,并且经由生成框434,获取对于代表性特征向量的最大似然解并且在呈现框436中用该最大似然解来产生所呈现的结果440、或者经调整的或个性化的所呈现的结果440′。

        图6示出了用于使经训练的HMM自适应的示例性方法600。如上所述,训练阶段可使用来自金牌书写者的数据来产生经训练的HMM 620,该数据可以是自然的或合成的训练数据602。给定经训练的HMM 620,可进行自适应。

        自适应框650接收书写者的训练数据606作为输入,该训练数据可以来自个人书写者、名人书写者等。经训练的HMM 620的自适应使用一种或多种技术来进行。例如,可出于经训练的HMM 620自适应的目的而使用最大后验(MAP)651、最大似然线性回归(MLLR)653或本征空间(ES)655技术。

        在自适应框650后,合成框630接收书写者的输入数据608(例如,用键盘输入的字符),并且然后按照该书写者的训练数据606来生成具有书写者的特性中的至少一部分的结果640。

        图7示出了用于使经训练的HMM自适应的示例性方法700。方法700开始于提供初始、经训练的HMM的提供框720。接收框752出于自适应的目的而接收书写者的训练数据706。计算框754计算书写者的训练数据的特征向量。接着,选择一种技术(例如,MAP 751、MLLR 753或ES 755)并且经由框756应用该技术以使得初始、经训练的HMM均值向量和协方差矩阵自适应。一旦自适应,提供框758提供经自适应的HMM以便进行书写合成。

        示例

        图8示出了所生成和所呈现的手写东亚字符800的某些示例。这些示例使用汉语手写笔迹数据库来展示由向量R={x,y}表示的训练和生成构架特征,其中建模特征包括斜率和曲率O={Δx,Δy,Δ2x,Δ2y}。在这些示例中,使用单路径MSD HMM来对每一特征建模。在这些示例中示出自动生成的文本行“(平均字体)”。如参考图4和5所解释的,可使用笔模型或其他呈现技术来呈现具有特定画笔、笔尖等的特性的字符。

        虽然图8示出了东亚字符,但各种示例性技术可用于其他语言的字符。例如,各种示例性技术允许生成草写体英语手写。这一连续生成可在相对实时的基础上进行,其中生成手写笔迹并将其传送到远程位置或本地地呈现手写笔迹。例如,用户可以在蜂窝电话上输入文本消息并且所生成的手写笔迹可以按在远程位置呈现的方式出现。在这一示例中,生成可在一个计算设备上进行而呈现可以在另一计算设备上进行。或者生成和呈现可以在远程计算设备处进行(例如,将文本发送到远程设备以便生成和呈现手写笔迹)。生成和/或呈现可基于所标识的文本消息发送者来进行(例如,朋友2喜欢名人X,因此按名人X的手写笔迹来生成/呈现朋友2的文本消息)。

        用于手写笔迹和/或书法生成的示例性计算设备可包括处理器、用户输入机构、显示器以及至少部分地由该处理器实现的控制逻辑,该控制逻辑用于基于生成算法来生成手写字符,该生成算法使用隐式马尔可夫模型(HMM)和多空间概率分布(MSD)技术以及从手写字符墨水数据中提取的特征,其中所提取的特征包括真实笔划特征集和较少维度的虚构特征集。

        这一计算设备可包括用于统一对墨水数据采样并生成长度统一的墨水数据帧的控制逻辑、用于从字符墨水数据中生成包括真实笔划帧和虚构笔划帧的一系列连续的墨水数据帧的控制逻辑、用于从字符墨水数据中生成墨水数据帧并对于x、y笛卡尔坐标系确定每一墨水数据帧的Δx值和Δy值的控制逻辑、从字符墨水数据中生成墨水数据帧并确定正弦值和余弦值(例如,针对帧或者两个相邻墨水数据帧之间的角度)的控制逻辑。用于使用基于经训练的HMM的方法来生成手写笔迹的示例性计算设备可以是蜂窝电话或其他手持式计算设备(例如,PDA等)。

        示例性计算设备

        图9示出可用于实现此处所讨论的各种示例性方法的部分或全部的示例性计算设备900的各个组件。

        图9所示的计算设备只是计算环境的一个示例,且并非旨在对计算机和网络体系结构的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例操作环境中所示出的任一组件或其组合有任何依赖性或要求。

        参考图9,用于实现对训练墨水数据使用基于特征的方法的示例性字符生成系统的示例性系统包括计算设备,诸如计算设备900。在一非常基本的配置中,计算设备900通常包括至少一个处理单元902和系统存储器904。取决于计算设备的确切配置和类型,系统存储器904可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等)或是两者的某种组合。系统存储器904通常包括操作系统905、一个或多个程序模块906,并且可包括程序数据907。该基本配置在图9中由虚线908内的组件示出。

        操作系统905可包括基于组件的框架920,其支持组件(包括属性和事件)、对象、继承、多态性、反射,并且提供面向对象的基于组件的应用程序编程接口(API),诸如由华盛顿州雷蒙德市的微软公司制造的.NETTM框架的API。

        计算设备900还可具有附加特征或功能。例如,计算设备900还可包括附加数据存储设备(可移动和/或不可移动),诸如,例如磁盘、光盘或磁带。这样的附加存储在图9中由可移动存储909和不可移动存储910例示。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器904、可移动存储909和不可移动存储910都是计算机存储介质的示例。因此,计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算设备900访问的任何其它介质。任何这样的计算机存储介质都可以是设备900的一部分。计算设备900还可具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等输入设备912。还可包括诸如显示器、扬声器、打印机等输出设备914。这些设备在本领域是公知的,因此不必在此详细讨论。

        计算设备900还可包含允许该设备诸如通过网络来与其它计算设备918进行通信的通信连接916。通信连接916是通信介质的一个示例。通信介质通常由诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据来体现,并包括任何信息传递介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、红外线和其它无线介质。如此处所使用的术语计算机可读介质包括存储介质和通信介质两者。

        各种模块和技术在此可在诸如程序模块等由一个或多个计算机或其它设备执行的计算机可执行指令的一般上下文中描述。一般而言,程序模块包括用于执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。这些程序模块等可以作为本机代码执行或诸如在虚拟机或其它即时(just-in-time)编译执行环境中下载和执行。通常,程序模块的功能可以在各个实施例中按需进行组合或分布。

        这些模块和技术的实现可以存储在某种形式的计算机可读介质上或通过某种形式的计算机可读介质传输。计算机可读介质可以是可由计算机访问的任何可用介质。作为示例而非限制,计算机可读介质可包括“计算机存储介质”和“通信介质”。

        示例性计算设备可包括处理器、用户输入机制(例如,鼠标、指示笔、滚动垫等)、显示器以及至少部分地由该处理器实现的控制逻辑,该控制逻辑用于基于手写笔迹生成算法来训练和/或生成手写笔迹,该手写笔迹生成算法使用隐式马尔可夫模型(HMM)和基于特征的方法来从时序墨水数据中提取信息。对于生成和/或呈现,这一设备可以是蜂窝电话或者一般地是手持式计算机。

        然而,本领域技术人员可认识到此处所描述的技术也可在没有这些具体细节中的一个或多个的情况下,或者用其它方法、资源、材料等来实施。在其它情况下,仅仅为了避免混淆各示例性技术的各方面而未详细地示出或描述公知的结构、资源或操作。

        虽然示出和描述了各示例和应用,但可以理解,这些技术不限于上述精确配置和资源。可以对此处所公开的方法和系统的安排、操作和细节作出对本领域技术人员显而易见的各种修改、改变和变更,而不背离其实际范围。

    关 键  词:
    基于 隐式马尔可夫 模型 手写 笔迹 书法 生成
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于隐式马尔可夫模型的手写笔迹/书法生成.pdf
    链接地址:https://www.zhuanlichaxun.net/p-5813494.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1