书签 分享 收藏 举报 版权申诉 / 26

一种获取候选项的方法及装置.pdf

  • 上传人:sha****007
  • 文档编号:6149923
  • 上传时间:2019-04-19
  • 格式:PDF
  • 页数:26
  • 大小:3.72MB
  • 摘要
    申请专利号:

    CN201210497317.1

    申请日:

    2012.11.28

    公开号:

    CN103853437A

    公开日:

    2014.06.11

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情:

    发明专利申请公布后的驳回IPC(主分类):G06F 3/0483申请公布日:20140611|||实质审查的生效IPC(主分类):G06F 3/0483申请日:20121128|||公开

    IPC分类号:

    G06F3/0483(2013.01)I; G06F17/30

    主分类号:

    G06F3/0483

    申请人:

    北京搜狗科技发展有限公司

    发明人:

    张扬

    地址:

    100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间

    优先权:

    专利代理机构:

    北京润泽恒知识产权代理有限公司 11319

    代理人:

    苏培华

    PDF完整版下载: PDF下载
    内容摘要

    本申请提供了一种获取候选项的方法及装置,其中的方法具体包括:收集某地理区域内用户的输入行为数据;分析已收集的输入行为数据,得到该地理区域的分地域数据;接收用户在该地理区域的输入序列;依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。本申请能够提高用户的输入效率。

    权利要求书

    权利要求书
    1.  一种获取候选项的方法,其特征在于,包括:
    收集某地理区域内用户的输入行为数据;
    分析已收集的输入行为数据,得到该地理区域的分地域数据;
    接收用户在该地理区域的输入序列;
    依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。

    2.  如权利要求1所述的方法,其特征在于,所述收集某地理区域内用户的输入行为数据的步骤,包括:
    从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据;
    所述分析已收集的输入行为数据,得到该地理区域的分地域数据的步骤,具体为依据筛选出的输入行为数据,得到该地理区域的分地域数据。

    3.  如权利要求2所述的方法,其特征在于,所述已收集的输入行为数据包括输入序列、输入操作和对应的上屏词条;
    所述从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,包括:
    从所述已收集的输入行为数据中筛选出输入序列、输入操作和对应的上屏词条中一者或多者符合预置地域纠错输入条件的输入行为数据;
    所述分析已收集的输入行为数据,得到该地理区域的分地域数据的步骤,具体为依据所述筛选出的输入行为数据,得到错误输入序列和正确输入序列的对应关系,作为该地理区域的分地域数据。

    4.  如权利要求2所述的方法,其特征在于,所述已收集的输入行为数据包括上屏词条。

    5.  如权利要求4所述的方法,其特征在于,所述地域词条输入特性包括用户数目;所述预置地域词条输入特性条件包括预置用户数目条件;
    则所述从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,包括:
    统计输入所述已收集的输入行为数据中上屏词条的用户数目;
    从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条 件的上屏词条;
    则所述依据筛选出的输入行为数据,得到该地理区域的分地域数据的步骤,包括:
    以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。

    6.  如权利要求4所述的方法,其特征在于,所述地域词条输入特性包括输入概率比对;所述预置地域词条输入特性条件包括预置输入概率比对条件;
    则所述从所述已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,包括:
    针对某地理区域的所述已收集的输入行为数据中某上屏词条,统计其在该地理区域的所述已收集的输入行为数据中所有上屏词条的第一输入概率;
    针对全部地理区域的所述已收集的输入行为数据中某上屏词条,统计其在全部地理区域的所述已收集的输入行为数据中所有上屏词条的第二输入概率;
    以某上屏词条的第一输入概率与第二输入概率的比值,作为该上屏词条在第一输入概率对应地理区域内的输入概率比对;
    从某地理区域的所述已收集的输入行为数据中筛选出输入概率比对符合预置输入概率比对条件的上屏词条;
    则所述依据筛选出的输入行为数据,得到该地理区域的分地域数据步骤,包括:
    以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。

    7.  如权利要求3所述的方法,其特征在于,所述预置地域纠错输入条件至少包括如下条件中的一种或多种:纠错操作紧接在未上屏输入序列的输入操作之后;及,纠错操作紧接在上屏词条的上屏操作之后;
    所述纠错操作至少包括如下操作中的一种或多种:退格操作、删除操作、交换操作和替换操作。

    8.  如权利要求7所述的方法,其特征在于,所述依据所述筛选出的输入行为数据,得到该地理区域的分地域数据的步骤,包括:
    在所述预置地域纠错输入条件为纠错操作紧接在输入序列的输入操作之后时,依据该纠错操作之前的未上屏输入序列得到错误输入序列,依据该纠错操作之后的未上屏输入序列获取该错误输入序列对应的正确输入序列,并建立错误输入序列和正确输入序列的对应关系;和/或,
    在所述纠错操作紧接在上屏词条的上屏操作之后时,依据该纠错操作之前的上屏词条得到错误上屏词条,依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏词条,并依据该错误上屏词条和正确上屏词条建立错误输入序列和正确输入序列的对应关系;
    则所述依据该地理区域的分地域数据,获取与所述输入序列相应的候选项的步骤,包括:
    利用所述错误输入序列和正确输入序列的对应关系,对所述输入序列进行纠错,得到纠错后输入序列;
    依据所述纠错后输入序列,获取相应的候选项。

    9.  如权利要求1至8中任一项所述的方法,其特征在于,所述收集某地理区域内用户的输入行为数据的步骤,包括:
    收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行为数据,作为相应地理区域内用户的输入行为数据。

    10.  如权利要求1所述的方法,其特征在于,还包括:
    在依据该地理区域的分地域数据,获取与所述输入序列相应的候选项失败时,依据该地理区域的上一级地理区域的分地域数据,获取与所述输入序列相应的候选项。

    11.  一种获取候选项的装置,其特征在于,包括:
    数据收集单元,用于收集某地理区域内用户的输入行为数据;
    数据分析单元,用于分析已收集的输入行为数据,得到该地理区域的分地域数据;
    输入序列接收单元,用于接收用户在该地理区域的输入序列;及
    候选项获取单元,用于依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。

    12.  如权利要求11所述的装置,其特征在于,所述数据收集单元,包括:
    筛选子单元,用于从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据;
    则所述数据分析单元,具体用于依据筛选出的输入行为数据,得到该地理区域的分地域数据。

    13.  如权利要求12所述的装置,其特征在于,所述已收集的输入行为数据包括输入序列、输入操作和对应的上屏词条;
    则所述筛选子单元,包括:
    纠错筛选模块,用于从所述已收集的输入行为数据中筛选出输入序列、输入操作和对应的上屏词条中一者或多者符合预置地域纠错输入条件的输入行为数据;
    则所述数据分析单元,具体用于依据所述筛选出的输入行为数据,得到错误输入序列和正确输入序列的对应关系,作为该地理区域的分地域数据。

    14.  如权利要求12所述的装置,其特征在于,所述已收集的输入行为数据包括上屏词条。

    15.  如权利要求14所述的装置,其特征在于,所述地域词条输入特性包括用户数目;所述预置地域词条输入特性条件包括预置用户数目条件;
    则所述筛选子单元,包括:
    第一统计模块,用于统计输入所述已收集的输入行为数据中上屏词条的用户数目;
    数目筛选模块,用于从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条件的上屏词条;
    则所述数据分析单元,具体用于以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。

    16.  如权利要求14所述的装置,其特征在于,所述地域词条输入特性 包括输入概率比对;所述预置地域词条输入特性条件包括预置输入概率比对条件;
    则所述所述筛选子单元,包括:
    第二统计模块,用于针对某地理区域的所述已收集的输入行为数据中某上屏词条,统计其在该地理区域的所述已收集的输入行为数据中所有上屏词条的第一输入概率;
    第三统计模块,用于针对全部地理区域的所述已收集的输入行为数据中某上屏词条,统计其在全部地理区域的所述已收集的输入行为数据中所有上屏词条的第二输入概率;
    概率比对获取模块,用于以某上屏词条的第一输入概率与第二输入概率的比值,作为该上屏词条在第一输入概率对应地理区域内的输入概率比对;及
    概率筛选模块,用于从某地理区域的所述已收集的输入行为数据中筛选出输入概率比对符合预置输入概率比对条件的上屏词条;
    则所述数据分析单元,具体用于以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。

    17.  如权利要求13所述的装置,其特征在于,所述预置地域纠错输入条件至少包括如下条件中的一种或多种:纠错操作紧接在未上屏输入序列的输入操作之后;及,纠错操作紧接在上屏词条的上屏操作之后;
    所述纠错操作至少包括如下操作中的一种或多种:退格操作、删除操作、交换操作和替换操作。

    18.  如权利要求17所述的方法,其特征在于,所述数据分析单元,包括:
    第一分析子单元,用于在所述预置地域纠错输入条件为纠错操作紧接在输入序列的输入操作之后时,依据该纠错操作之前的未上屏输入序列得到错误输入序列,依据该纠错操作之后的未上屏输入序列获取该错误输入序列对应的正确输入序列,并建立错误输入序列和正确输入序列的对应关系;和/或,
    第二分析子单元,用于在所述纠错操作紧接在上屏词条的上屏操作之后时,依据该纠错操作之前的上屏词条得到错误上屏词条,依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏词条,并依据该错误上屏词条和正确上屏词条建立错误输入序列和正确输入序列的对应关系;
    则所述候选项获取单元,包括:
    纠错子单元,用于利用所述错误输入序列和正确输入序列的对应关系,对所述输入序列进行纠错,得到纠错后输入序列;
    纠错后获取子单元,用于依据所述纠错后输入序列,获取相应的候选项。

    19.  如权利要求11至18中任一项所述的装置,其特征在于,所述数据收集单元,具体用于收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行为数据,作为相应地理区域内用户的输入行为数据。

    20.  如权利要求11所述的装置,其特征在于,还包括:
    上一级候选项获取单元,用于在依据该地理区域的分地域数据,获取与所述输入序列相应的候选项失败时,依据该地理区域的上一级地理区域的分地域数据,获取与所述输入序列相应的候选项。

    说明书

    说明书一种获取候选项的方法及装置
    技术领域
    本申请涉及文字输入技术领域,特别是涉及一种获取候选项的方法及装置。
    背景技术
    目前随着计算机技术以及互联网技术的普及与发展,一方面,用于实现计算机文字输入的输入法越来越深入到人们的生活中,另一方面,用户对于输入法的智能性要求也越来越高。
    以手机为代表的移动设备近年来发展迅猛,CPU和存储设备性能上都有大幅提高。与之相应的,移动设备上的应用也越来越丰富,用户界面也越来越友善。
    如果移动设备上安装的输入法能提供基于地理位置的候选项,则能够大大提高用户输入效率和操作体验。申请号为201110256454.1,发明名称为“便携式设备上基于地理位置动态调整候选词的系统及方法”的中国发明专利(以下简称为现有的技术方案的技术方案)公开了一种便携式设备上基于地理位置动态调整候选词的技术方案,相应技术方案的方法流程具体可以包括:
    步骤1、位置更新模块实时对便携式设备的当前地理位置进行定位,获得当前地理位置信息,并将当前地理位置信息送至引擎模块;
    步骤2、引擎模块接收到所述当前地理位置信息,并根据需要动态地从网络服务模块下载当前地理位置信息所对应的与地理位置相关的候选词数据;
    步骤3、引擎模块将下载得到的与地理位置相关的候选词数据存入字典模块;
    步骤4、输入模块根据用户的输入动作产生相应的输入信号,并将该输入信号送至引擎模块;
    步骤5、引擎模块接收到所述输入信号,在字典模块中搜索并得到对应 的输入候选词信息,并将所述候选词信息送至候选词生成模块;
    步骤6、候选词生成模块接收到所述候选词信息,生成输入候选项列表。
    上述现有的技术方案的技术方案中,地图数据是其候选词数据的主要来源,地图数据中通常包括有商圈、餐饮等服务信息的名称,能够在一定程度上满足用户的输入需求,但是,地图数据具有如下局限性:一是,地图数据所覆盖的服务信息的名称有限,无法满足用户的非服务信息的名称的输入需求,如地图数据中是无法覆盖到“江南Style”、“元芳”、“Techno”这种词汇的;二是,地图数据所使用的词语通常过于正式,不能符合某些用户的口语化输入习惯,如有些用户喜欢用“新疆办”来表示“新疆驻北京办事处”等等,而“新疆办”在地图数据中是不存在的;三是,地图数据有自己的更新周期,如果地图数据的更新周期偏长,则导致上述现有的技术方案的候选词数据长期得不到更新,这样,如果某个商圈内新开了一家餐馆,则上述现有的技术方案的候选词数据不能及时获取该餐馆的相应数据;总之,上述现有的技术方案不能智能地了解用户的输入需求,不能总是在输入过程中出现用户想要的候选词,影响了用户的输入效率,这对输入法的智能性提出了更高的要求。
    另外,采用上述现有的技术方案的技术方案,只要实时定位的当前地理位置发生变化,就需要与网络服务模块通信以下载与新地理位置相应的候选词数据,这样,在移动设备用户频繁切换地理位置的情况下,容易给移动设备和网络服务模块之间带来频繁、大量的通信开销。
    还有,移动设备上字典模块中日积月累不同地理位置的候选词数据,容易占据移动设备的存储空间。
    总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高用户的输入效率。
    发明内容
    本申请所要解决的技术问题是提供一种获取候选项的方法,能够提高用户的输入效率。
    为了解决上述问题,本申请公开了一种获取候选项的方法,包括:
    收集某地理区域内用户的输入行为数据;
    分析已收集的输入行为数据,得到该地理区域的分地域数据;
    接收用户在该地理区域的输入序列;
    依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。
    另一方面,本申请还公开了一种获取候选项的装置,包括:
    数据收集单元,用于收集某地理区域内用户的输入行为数据;
    数据分析单元,用于分析已收集的输入行为数据,得到该地理区域的分地域数据;
    输入序列接收单元,用于接收用户在该地理区域的输入序列;及
    候选项获取单元,用于依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。
    与现有的技术方案相比,本申请具有以下优点:
    本申请依据该地理区域的分地域数据,获取与用户在该地理区域的输入序列相应的候选项。
    首先,由于所述分地域数据是依据地理区域内用户的输入行为数据分析得到的,其来源并不局限于地图数据,故能够有效避免地图数据词语有限、词语正式、更新周期长等特点对候选项的影响;更重要的是,地理区域内用户在相同的地域环境中很有可能使用输入行为数据来表达与该地域环境相应的特征信息,而对地理区域内用户的输入行为数据进行分析所得到的分区域数据是能够体现地理区域的特色的;这样,本申请将某地理区域的分区域数据应用于该地理区域内用户的文字输入过程中候选项的获取,则能够获取得到反映该地理区域内特征或特色信息的候选项,从而有利于在文字输入过程中出现用户想要的候选项,能够提高输入法的智能性和用户的输入效率;
    例如,在分区域数据描述的地理区域内,用户的特征数据反映地理区域内的错误发音习惯时,本申请能够自动对错误的输入序列进行纠错处理以得到正确的候选项,故能够避免相应地理区域内用户的一系列纠错操作,提高 输入效率。
    其次,现有的技术方案中,地理位置与候选词数据是一一对应的,一方面,存储候选词数据也需要存储相应的地理位置信息,容易占据服务器和移动设备的存储空间;另一方面,当前地理位置是实时定位的,一旦移动设备的当前地理位置发生变化,就需要与网络服务模块通信以下载与新地理位置相应的候选词数据,这容易给移动设备和网络服务模块之间带来频繁、大量的通信开销;
    而本申请在文字输入过程中所使用的分区域数据是针对地理区域的,其存储无需考虑具体的地理位置信息,故能够节省服务器和移动设备的存储空间;并且,即使移动设备的当前地理位置发生变化,但只要移动设备所处的地理区域不变,就可以避免与服务器通信以获取地理区域的分区域数据,故也能节省移动设备和服务器的通信开销。
    再者,本申请确定所述输入序列所属的地理区域不一定依赖于移动设备对于自身地理位置信息的定位,也即,即使移动设备不具有自身地理位置信息的GPS等定位功能,本申请依然能够顺利实施,故本申请具有良好的扩展性。
    进一步,现有的技术方案中,在便携式设备上已经加载的当前地理位置信息相关的词库很有可能是半年前或者更久前加载的,容易导致最终得到候选词信息的时效性差;并且,即使在当时从网络服务模块下载当前地理位置信息所对应的与地理位置相关的候选词数据的情况下,网络服务模块侧存储的与地理位置相关的候选词数据往往是事先生成的,仍容易影响最终得到候选词信息的时效性;
    而本申请中,所述分地域数据所依据的地理区域内用户的输入行为数据可以为实时收集的数据,这里的实时收集是指在确定所述输入序列所属的地理区域后进行相应地理区域内数据的收集,这样依据实时收集的数据分析得到的分区域数据也是实时的,进一步获取得到的候选项也是实时的;因此,相对于现有的技术方案,本申请所述分地域数据所依据的地理区域内用户的输入行为数据为实时收集的数据,能够提高候选项的时效性。
    附图说明
    图1是本申请一种获取候选项的方法实施例1的流程图;
    图2是本申请一种获取候选项的方法实施例2的流程图;
    图3是本申请一种输入法系统的结构示意图;
    图4是本申请一种获取候选项的装置实施例的结构图。
    具体实施方式
    为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
    本申请实施例采用分区域数据表示一切可供用户选择的、可按地理区域属性进行区分的数据;其中,分地域数据可依据地理区域内用户的输入行为数据分析得到。这里,地理区域内用户既可以包括地理区域内的常住用户,又可以包括路过或者短期居住的用户,地理区域内用户的输入行为数据对相应地理区域的分地域数据都会造成影响。例如,如果某个地理区域内用户对某些特征信息比较敏感,则很有可能使用输入行为数据来表达这些特征信息;这样,依据地理区域内用户的输入行为数据分析得到的分区域数据就能够作为相应地理区域的特征数据,与其它地理区域的数据区分开来。
    本申请实施例采用某地理区域内的分区域数据为该地理区域内的用户服务;具体而言,依据该地理区域的分地域数据,获取与用户在该地理区域的输入序列相应的候选项。
    由于所述分地域数据是依据地理区域内用户的输入行为数据分析得到的,其来源并不局限于地图数据,故能够有效避免地图数据词语有限、词语正式、更新周期长等特点对候选项的影响;更重要的是,地理区域内用户在相同的地域环境中很有可能使用输入行为数据来表达与相同的地域环境相应的特征信息,而对地理区域内用户的输入行为数据进行分析得到的分区域数据是能够体现地理区域的特色的;这样,本申请将某地理区域的分区域数据应用于该地理区域内用户的文字输入过程中候选项的获取,则能够获取得到反映该地理区域内特征或特色信息的候选项,从而有利于在文字输入过程 中出现用户想要的候选项,能够提高输入法的智能性和用户的输入效率。
    参照图1,示出了本申请一种获取候选项的方法实施例1的流程图,具体可以包括:
    步骤101、收集某地理区域内用户的输入行为数据;
    本申请实施例中,地理区域主要用于表示为实行用户及用户的输入行为数据管理而划分的区域。本领域技术人员可以根据实际需要进行地理区域的划分,例如,本申请的地理区域可以具有类似行政区域的分级关系,如国家-省-市-区-县等。另外,本领域技术人员可以根据实际需要设置所述地理区域的细粒度,例如,对于城市而言,所述地理区域的细粒度具体可以包括省、市、区、街道、社区甚至大厦等等,社区的典型例子具体包括:“五道口”、“东王庄”、“西王庄”、“望京”等等,大厦的例子可以包括“搜狐网络大厦”、“同方大厦”、“紫光大厦”等等;对于农村而言,所述地理区域的细粒度具体可以包括省、市、县、乡镇、村等等;本申请对地理区域的具体划分和具体细粒度不加以限制。
    在本申请的一种实施例中,所述收集某地理区域内用户的输入行为数据的步骤,具体可以包括:
    步骤S111、收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行为数据,作为相应地理区域内用户的输入行为数据。
    本申请实施例中,分区域服务器与地理区域对应,可用于管理一个地理区域内的用户及用户的输入行为数据。输入行为数据可泛指用户在文字输入过程中产生的一切与输入行为相关的数据,这里的输入行为具体可以包括:输入序列的输入操作、上屏操作、退格操作、删除操作等等,其中退格操作和删除等操作既可以包括针对输入序列的操作,也包括对已上屏词条的操作,本申请对具体的输入行为及输入行为数据不加以限制。
    在实际应用中,用户可以主动向分区域服务器发起登记。例如,登记过程的一种示例可以为:用户在开机且网络可用时发送登记请求到最近的分区 域服务器,表征自己的在线状态;分区域服务器则可依据用户的登记请求,确认用户所在的登记地理区域,并向用户返回相应的登记成功消息,通常登记成功消息中可以携带用户在登记地理区域内的ID(标识,Identity)、用户所在登记地理区域的名称等信息。登记成功的用户与用户之间,便构成了对等(peer)关系。
    在本申请实施例中,接入分区域服务器所在地理区域的用户可由分区域服务器主动获取得到,例如,分区域服务器可以通过端口扫描获取所管理地理区域内的用户,或者,分区域服务器可以向所管理地理区域内的输入法客户端发送接入消息,如果输入法客户端针对该接入消息返回响应,则将相应的输入法客户端作为接入所在地理区域的用户。
    总之,在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户均在地理区域内的用户的范围内,二者的主要区别之一在于,前者由用户主动发起,后者由分区域服务器主动发起。
    在本申请的一种应用示例中,分区域服务器的工作流程具体可以包括:
    步骤S201、管理地理区域内的用户,更新各用户状态;
    通常用户状态可以包括在线、离线两种状态。
    步骤S202、收集地理区域内用户的输入行为数据;
    步骤S203、对已收集的用户的输入行为数据数据进行分析,得到分地域数据。
    在本申请的一种优选实施例中,所述登记成功的用户的输入行为数据具体可以包括登记成功的用户在所有地理区域内产生的输入行为数据,或者,登记成功的用户在登记地理区域内产生的输入行为数据。例如,用户在望京居住在五道口上班,且该用户在望京和五道口所属的地理区域均登记过;那么,对于五道口分区域服务器而言,登记成功的用户在所有地理区域内产生的输入行为数据具体可以包括用户在五道口、望京甚至其它地理区域内产生的输入行为数据,而登记成功的用户在登记地理区域内产生的输入行为数据仅仅包括用户在五道口地理区域内产生的输入行为数据。比较登记成功的用户在所有地理区域内产生的输入行为数据和登记成功的用户在登记地理 区域内产生的输入行为数据,前者更为丰富,后者更能够反映一个地理区域内的特征信息。
    步骤102、分析已收集的输入行为数据,得到该地理区域的分地域数据;
    本申请实施例中,分区域数据可用于表示可供用户选择的、可按地理区域属性进行区分的数据。
    在获取分区域数据时,粒度可以是词表或词库,也可以是词条(尤其是云输入模式下),其中的词条不局限于汉字词条,还可以是混杂字母、数字的词条,也可以是英文、日文、韩文、德文等语言的词条。
    本申请实施例中,可采用地域输入特性表示一个地理区域内的输入特性,其可用于反映输入行为数据与相应地理区域的关联度,而输入行为数据与相应地理区域的关联度越强越能体现相应地理区域的特色;预置地域输入特性条件则是与地域输入特性相应的条件,也即已收集的输入行为数据中符合预置地域输入特性条件的数据也是具有与相应地理区域的关联度较高、更能体现地域特色的输入行为数据,换个说法,筛选得到的数据可以看作相应地理区域内的特征数据。
    在本申请的一种优选实施例中,地域输入特性可以用地域词条输入特性来表示,则所述收集某地理区域内用户的输入行为数据的步骤,具体可以包括:
    从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据;
    所述分析已收集的输入行为数据,得到该地理区域的分地域数据的步骤,具体为依据筛选出的输入行为数据,得到该地理区域的分地域数据。
    本申请可以提供如下地域词条输入特性的方案;
    地域词条输入特性方案1、
    所述地域词条输入特性具体可以包括用户数目;所述预置地域词条输入特性条件具体可以包括预置用户数目条件;所述已收集的输入行为数据可以包括上屏词条;在一些优选实施例中,已收集的输入行为数据还可以包括用 户标识、和已上屏词条对应的用户输入序列;
    则所述从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,包括:
    步骤S301、统计输入所述已收集的输入行为数据中上屏词条的用户数目;
    步骤S302、从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条件的上屏词条;
    则所述依据筛选出的输入行为数据,得到该地理区域的分地域数据的步骤,具体可以包括:
    步骤S303、以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
    本申请实施例中,输入方式指的是文字的词条与输入序列之间的对应关系,例如全拼输入方式、简拼输入方式、手写输入方式、笔画输入方式、五笔输入方式等等。
    地域词条输入特性方案1中,用户数目可用于表示一个地理区域内输入某词条的用户数目,其可用于反映相应地理区域内对于某词条的使用范围;通常,用户数目越多,表示该词条的使用范围越大,该词条与相应地理区域的关联度越强,故可以依据用户数目得到预置地域输入特性条件,以筛选出与相应地理区域的关联度较强、体现地域特色的词条。
    在筛选出这样的词条后,可以建立该词条与一种及一种以上输入方式下的输入序列之间的对应关系,这样不论用户使用何种输入方式,均能方便的在该地理区域内输出该词条。
    当然,也可以在收集上屏词条的同时收集与上屏词条对应的用户输入序列,在筛选出用户数目符合预置用户数目条件的上屏词条后,建立该上屏词条与所收集的用户输入序列之间的对应关系,并据此向该地理区域内的用户提供候选项。本申请对此不加限制。
    参照表1,示出了本申请一种包括用户标识、输入序列和对应的上屏词条的一个地理区域内已收集的输入行为数据的示例。
    表1
    地理区域内用户ID输入序列上屏词条1jianmian见面1richang日常1richang日昌2richang日昌2pengtou碰头3chigefan吃个饭3wudaokou五道口3chengtie城铁3richang日昌3richangcanguan日昌餐馆
    步骤S301可以统计输入所述已收集的输入行为数据中上屏词条的用户数目,例如,表2为依据表1得到的统计数据,为清楚说明起见,表2还列出了上屏词条对应的输入序列。
    表2:表1的统计数据

    本领域技术人员可以依据实际需要,设置各种各样的预置用户数目条件,本申请对具体的预置用户数目条件不加以限制。
    在此给出一些预置用户数目条件的应用示例:
    示例1、预置用户数目条件可以为输入所述已收集的输入行为数据中上屏词条的用户数目大于第一阈值,这里的第一阈值可由本领域技术人员依据 实际需求设定,如为10、20甚至200等等。
    示例2、预置用户数目条件可以为输入所述已收集的输入行为数据中上屏词条的用户数目排在整个地理区域内所有已收集的输入行为数据中上屏词条的用户数目的前N位,这里的排序为从多到少的排序,N可由本领域技术人员依据实际需求设定,如为10、20甚至200等等。
    示例3、预置用户数目条件可以为输入所述已收集的输入行为数据中上屏词条的用户数目排在该上屏词条对应的输入序列的所有上屏词条的用户数目的前M位,这里的排序为从多到少的排序,M可由本领域技术人员依据实际需求设定,如M=1时表示输入序列对应上屏词条的用户数目最多,M=2时表示输入序列对应上屏词条的用户数目最多和次多等等。以“richang”对应的输入行为数据为例,假设预置用户数目条件为输入序列对应上屏词条的用户数目最多,则最终筛选出的上屏词条为“日昌”。
    另外,需要说明的是,对于筛选时出的上屏词条,还可以同时保存相应的用户数目,并保存在所建立的该候选项和所获取输入序列的对应关系时,这样,后续步骤104依据该地理区域的分地域数据,获取与所述输入序列相应的候选项后,可以依据所获取候选项的用户数目,调整候选项在候选项列表中的次序,如用户数目多的候选项排在用户数目少的候选项的后面,等等。
    地域词条输入特性方案2、
    所述地域词条输入特性具体可以包括输入概率比对;所述预置地域词条输入特性条件具体可以包括预置输入概率比对条件;;所述已收集的输入行为数据可以包括上屏词条;在一些优选实施例中,已收集的输入行为数据还可以包括已上屏词条对应的用户输入序列;
    则所述从所述已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据的步骤,具体可以包括:
    步骤S301、针对某地理区域的所述已收集的输入行为数据中某上屏词条,统计其在该地理区域的所述已收集的输入行为数据中所有上屏词条的第一输入概率;
    步骤S302、针对全部地理区域的所述已收集的输入行为数据中某上屏 词条,统计其在全部地理区域的所述已收集的输入行为数据中所有上屏词条的第二输入概率;
    步骤S303、以某上屏词条的第一输入概率与第二输入概率的比值,作为该上屏词条在第一输入概率对应地理区域内的输入概率比对;
    步骤S304、从某地理区域的所述已收集的输入行为数据中筛选出输入概率比对符合预置输入概率比对条件的上屏词条;
    则所述依据筛选出的输入行为数据,得到该地理区域的分地域数据步骤,具体可以包括:
    步骤S305、以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
    地域词条输入特性方案2将某地理区域内的数据分布与所有地域内的数据分布进行比对得到输入概率比对,筛选出在该地理区域中频繁出现的、能够体现地域特色的词条。具体地,数据分布可用输入概率来表示。
    在筛选出这样的词条后,可以建立该词条与一种及一种以上输入方式下的输入序列之间的对应关系,这样不论用户使用何种输入方式,均能方便的在该地理区域内输出该词条。
    当然,也可以在收集上屏词条的同时收集与上屏词条对应的用户输入序列,在筛选出输入概率比对符合预置输入概率比对条件的上屏词条后,建立该上屏词条与所收集的用户输入序列之间的对应关系,并据此向该地理区域内的用户提供候选项。本申请对此不加限制。
    在本申请的一种应用示例中,表3、4、5分别示出了四川地域内用户上屏词条的第一输入概率、全地域内用户上屏词条的第二输入概率及相应的输入概率比对。
    表3
    词条输入概率什么0.00523994235541276176呵呵0.00460178861020483054怎么0.00424680611763221614
    …………瓜娃子0.00001707681748498965
    表4
    词条输入概率什么0.00513994235541276176呵呵0.00450178861020483054怎么0.00442680611763221614…………瓜娃子0.00000055355348498965
    表5
    词条输入概率比对什么1.019455呵呵1.022213怎么0.959339…………瓜娃子30.849444瓜兮兮73.676168
    可以看出,在四川地域用户和全地域用户两类用户的输入行为数据中,“呵呵”、“什么”、“怎么”都是常见词条,输入概率也趋近;但在常用四川话聊天的用户群体中,“啥子”、“啷个”、“瓜娃子”、“遭不住”、“日白”、“巴适”等词条的输入概率,会显著高于全地域中相同词条的输入词条;由此可以将这些词条筛选出来,作为四川地域的特征词条或特征数据。
    地域词条输入特性方案3、
    在本申请的一种优选实施例中,地域输入特性可以用地域纠错输入特性 来表示,此时,所述已收集的输入行为数据具体可以包括输入序列、输入操作和对应的上屏词条;
    则所述收集某地理区域内用户的输入行为数据的步骤,具体可以包括:
    步骤S501、从所述已收集的输入行为数据中筛选出输入序列、输入操作和对应的上屏词条中一者或多者符合预置地域纠错输入条件的输入行为数据;
    步骤S502、所述分析已收集的输入行为数据,得到该地理区域的分地域数据的步骤,具体为依据所述筛选出的输入行为数据,得到该地理区域的分地域数据。
    在实际应用中,某些地域会有一些错误的发音习惯,例如,某地域当地居民r和l不分,又如,某地域un和ong不分,或者,卷舌音和非卷舌音不分(zh和z不分)等等;正常的文字输入过程中,用户输入编码字符串,从候选项中选择词条上屏即可完成一次文字输入,也即正常的文字输入通常仅包括一次输入和一次上屏;但是,上述错误的发音习惯容易导致异常的文字输入,例如,在本申请的示例1中,某用户欲输入“好热”,但是,该用户r和l不分,第一次在输入序列的编辑框内输入“haole”这个编码字符串,发现找不到想要的候选项,于是在编辑框内删除“le”,输入“re”,最终上屏“好热”。
    由于本申请的输入行为数据可以包括用户在文字输入过程中产生的一切与输入行为相关的数据,那么,可以在输入行为数据中记录输入序列、输入操作和对应的上屏词条,其中,输入序列可用于表示经输入操作传递给输入法的信息,输入操作可以泛指输入序列的输入操作、上屏操作、退格操作、删除操作、交换操作、替换操作等一切操作,上屏词条表示上屏操作对应的词条。如上述示例1中,输入序列分两次输入操作完成:“haole”、“re”,输入操作具体可以包括输入“haole”的操作、删除“le”的操作、输入“re”的操作及上屏“好热”的操作等等,得到的上屏词条为“好热”。再如,输入“shenem”后,发现错输,用交换操作将“shenem”修改为“shenme”。
    本申请实施例中符合预置地域纠错输入条件的输入行为数据可用于表 示异常的文字输入对应的输入行为数据(以下简称异常的输入行为数据);其中异常的文字输入相对于正常的文字输入的主要区别之一是,前者在文字输入过程中有纠错操作而后者没有,所述区别导致异常的输入行为数据与正常的输入行为数据的不同,故通过分析二者的不同,可以总结出异常的输入行为数据的规律,以得到相应的预置地域纠错输入条件。
    在本申请的一种优选实施例中,所述预置地域纠错输入条件至少可以包括如下条件中的一种:纠错操作紧接在未上屏输入序列的输入操作之后;及,纠错操作紧接在上屏词条的上屏操作之后;所述纠错操作至少可以包括如下操作中的一种或多种:退格操作、删除操作、交换操作和替换操作。可以理解,本领域技术人员可以依据异常的输入行为数据的规律采用各种各样的纠错操作输入条件,本申请对具体的纠错操作输入条件不加以限制。
    本申请实施例中,地域输入特性可用于表示一个地理区域内的输入特性,其可用于反映输入行为数据与相应地理区域的关联度,而输入行为数据与相应地理区域的关联度越强越能体现相应地理区域的特色;预置地域输入特性条件则是与地域输入特性相应的条件,也即已收集的输入行为数据中符合预置地域输入特性条件的数据也是具有与相应地理区域的关联度较强、能更好的体现地域特色的输入行为数据,换个说法,筛选得到的数据可以看作相应地理区域内的特征数据。
    以上对依据地域输入特性收集某地理区域内用户的输入行为数据的方案进行了详细介绍,可以理解,本领域技术人员可以根据需要采用上述分析方案中的一者或多者。
    另外,由于上述三种方案是与特定的地域输入特性相对应的,而地域输入特性可用于表示一个地理区域内的输入特性,其不限制于上述三种特定的地域输入特性,故本领域技术人员还可以根据需要,采用其它的地域输入特性(如地理区域内上屏词条的输入概率)及相应的对已收集的输入行为数据进行分析得到该地理区域的分地域数据的方案,也即,上述三种方案并不理解为本申请的应用限制。
    步骤103、接收用户在该地理区域的输入序列;
    本申请实施例中,用户的输入序列具体可以包括键盘输入、语音输入、手写输入和手势输入中的一种或多种。需要说明的是,扩大化意义上的输入序列可以包括原始输入序列和针对原始输入序列转换得到的候选项等等,本申请的各个实施例中,输入序列特指转换之前的原始输入序列。其中,从输入序列到候选项的转换过程,属于现有的技术方案的范畴,故在此不作赘述。
    本申请可以应用于键盘输入法、语音输入法、手写输入法、混合输入法等输入法中,这些输入法分别接收相应的输入序列,例如,键盘输入法接收键盘输入,语音输入法接收语音输入,手写输入法接收手写输入或手势输入,混合输入法接收键盘、语音、手写和手势等的各种混合输入,等等。这里主要以键盘输入也即编码串为例进行介绍,其它输入序列请相互参照即可。
    总之,本申请对所述输入序列不加以限制。
    在接收到用户的输入序列时,可以判断所述输入序列所属的地理区域,也即,用户在输入所述输入序列时所处的地理区域。
    在本申请的一种实施例中,所述确定所述输入序列所属的地理区域的步骤,具体可以包括:
    步骤S601、采集所述输入序列对应的位置信息;
    步骤S602、依据预置的地理区域与位置信息的映射关系,匹配得到所述位置信息对应的地理区域,也即所述输入序列所属的地理区域。
    在实际中,可以针对一个用户的输入序列,依据其IP(网络之间互连的协议,Internet Protocol)地址、移动设备GPS(全球定位系统,GlobalPositioning System)或移动网络(如Wifi无线网络、蜂窝网络等等)采集得到相应的地理位置信息。本申请对具体的采集所述输入序列对应的地理位置信息的方法不加以限制。
    在本申请的一种应用示例中,预置的地理区域与位置信息的映射关系可以为预存地理区域与相应的地理位置信息范围(经纬度范围)的映射关系,具体可以为:
    如果当前地理位置信息经度大于(或大于等于)预存地理区域的GPS经度起始值;
    并且当前地理位置信息经度小于(或小于等于)预存地理区域的GPS经度截止值;
    并且当前地理位置信息纬度大于(或大于等于)预存地理区域的GPS纬度起始值;
    并且当前地理位置信息纬度小于(或小于等于)预存地理区域的GPS纬度截止值;
    则可以确定当前地理位置信息所述的地理区域为匹配成功的该预存地理区域。
    在本申请的另一种应用示例中,可以依据采集得到的位置信息去各种地理服务网站查询得到所属的地理区域。
    在本申请的另一种实施例中,可以根据用户在其移动设备上针对位置或地理区域的选择操作,将用户所选择的位置或地理区域作为输入序列对应的位置信息或所属的地理区域。例如,可以在移动设备上呈现地理区域列表或地图,用户在地理区域列表或地图上选择所处的位置或地理区域即可。
    总之,本申请对具体的确定所述输入序列所属的地理区域的方法不加以限制。
    并且,可以看出,本申请确定所述输入序列所属的地理区域不一定依赖于移动设备对于自身地理位置信息的定位,也即,即使移动设备不具有自身地理位置信息的定位功能,本申请依然能够顺利实施,故本申请具有良好的扩展性。
    步骤104、依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。
    根据上面的描述,本申请实施例在获取分区域数据时,粒度可以是词表或词库,也可以是词条(尤其是在云输入模式下),其中的词条不局限于汉字词条,还可以是混杂字母、数字的词条,也可以是英文、日文、韩文、德文等语言的词条,故步骤104可以依据词表、词库、词条甚至上述输入序列和候选项的对应关系,获取与所述输入序列相应的候选项。
    在地域输入特性用地域纠错输入特性来表示时,本申请实施例的分地域数据还可以是错误输入序列和正确输入序列的对应关系,相应地,在本申请的一种优选实施例中,所述依据所述筛选出的输入行为数据,得到该地理区域的分地域数据的步骤,具体可以包括:
    步骤S701、在所述预置地域纠错输入条件为纠错操作紧接在输入序列的输入操作之后时,依据该纠错操作之前的未上屏输入序列得到错误输入序列,依据该纠错操作之后的未上屏输入序列获取该错误输入序列对应的正确输入序列,并建立错误输入序列和正确输入序列的对应关系;和/或,
    步骤S702、在所述纠错操作紧接在上屏词条的上屏操作之后时,依据该纠错操作之前的上屏词条得到错误上屏词条,依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏词条,并依据该错误上屏词条和正确上屏词条建立错误输入序列和正确输入序列的对应关系;
    则所述依据该地理区域的分地域数据,获取与所述输入序列相应的候选项的步骤,具体可以包括:
    步骤S703、利用所述错误输入序列和正确输入序列的对应关系,对所述输入序列进行纠错,得到纠错后输入序列;
    步骤S704、依据所述纠错后输入序列,获取相应的候选项。
    如上述示例1中,输入序列分两次输入操作完成:“haole”、“re”,紧接在未上屏输入序列“haole”的输入操作之后的纠错操作为删除“le”的操作,则步骤S701可以将删除“le”的操作为分界点,依据删除“le”的操作之前的未上屏输入序列得到错误输入序列;示例1中,删除“le”的操作之前的未上屏输入序列为“haole”,关于如何依据删除“le”的操作之前的未上屏输入序列得到错误输入序列:
    在本发明的一种实施例中,可以将整个“haole”作为错误输入序列;在本发明的另一种实施例中,可以选取“haole”的一部分作为错误输入序列,具体应按照从后到前的顺序进行选取,一个选取原则是选取删除“le”的操作所涉及的序列部分——“le”,作为错误输入序列,另一个选取原则可以是选取能够映射到候选项、且包含有删除“le”的操作所涉及的序列部分的序 列部分作为错误输入序列,以拼音序列为例,按照从后到前的顺序,“e”、“le”“ole”、“aole”均能映射到候选项,其中,“le”“ole”、“aole”均包含有删除“le”的操作所涉及的序列部分,故可以作为错误输入序列。
    示例1中,删除“le”的操作之后的未上屏输入序列为“haore”,依据该纠错操作之后的未上屏输入序列获取该错误输入序列对应的正确输入序列,通常在删除“le”的操作之后的未上屏输入序列中按照从后往前的顺序选取与错误输入序列的长度相等的序列部分即可,本申请对具体的选取方法不加以限制。
    为了更好地说明步骤S702的实现过程,在此给出示例2,示例2中,输入信息分两次输入操作完成:“haole”、“re”,输入操作具体可以包括输入“haole”的操作、上屏“好乐”的操作、删除“乐”的操作、输入“re”的操作及上屏“热”的操作等等,上屏词条分两次上屏操作完成:“好乐”、“热”,最终的上屏词条为“好热”;
    则步骤S702可以首先将删除“乐”的操作作为分界点,依据删除“乐”的操作之前的上屏词条“好乐”得到错误上屏词条:“好乐”或“乐”,依据删除“乐”的操作之后的上屏词条“好热”得到该错误上屏词条对应正确上屏词条,如“好乐”对应“好热”,“乐”对应“热”等等;
    在本申请的一种优选实施例中,错误输入序列和正确输入序列的对应关系还可以是反应某地理区域内的错误发音习惯的对应关系。例如,在示例1和2中,用户实际上是将输入序列中的“l”纠正为“r”,因此,可以将“l”作为错误输入序列,将“r”作为正确输入序列来建立对应关系。对一些有错误发音习惯的地理区域的用户这种优选实施例非常适用,可以将用户的错误发音习惯纠正为正确的输入序列,如z与zh的对应,un与ong的对应关系等。
    本申请实施例中,依据该错误上屏词条和正确上屏词条建立错误输入序列和正确输入序列的对应关系的实现过程具体可以包括:获取该错误上屏词条对应的错误输入序列(实际上所有能够映射到该错误上屏词条的拼音序列或字形序列均可),获取正确上屏词条对应的错误输入序列(实际上所有能够映射到该错误上屏词条的拼音序列或字形序列均可),最后建立错误输入 序列和正确输入序列的对应关系即可。
    需要说明的是,上述只是作为示例,本申请对具体的依据该纠错操作之前的上屏词条得到错误上屏词条,依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏词条,以及,依据该纠错操作之前的上屏词条得到错误上屏词条,依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏词条,并依据该错误上屏词条和正确上屏词条建立错误输入序列和正确输入序列的对应关系不加以限制。
    在本申请的另一种优选实施例中,所述分地域数据所依据的地理区域内用户的输入行为数据可以为实时收集或定期收集的数据。
    现有的技术方案中,根据需要动态地从网络服务模块下载当前地理位置信息所对应的与地理位置相关的候选词数据通常为,判断便携式设备上是否已经加载有当前地理位置信息相关的词库,若是,则不下载,否则下载。这样,在便携式设备上已经加载的当前地理位置信息相关的词库很有可能是半年前或者更久前加载的,容易导致最终得到候选词信息的时效性差;并且,即使在当时从网络服务模块下载当前地理位置信息所对应的与地理位置相关的候选词数据的情况下,网络服务模块侧存储的与地理位置相关的候选词数据往往是事先生成的,仍容易影响最终得到候选词信息的时效性。
    本申请实施例中,实时收集是指在步骤103确定所述输入序列所属的地理区域后进行相应地理区域内数据的收集,依据实时收集的数据分析得到的分区域数据也是实时的,进一步获取得到的候选项也是实时的;因此,相对于现有的技术方案,本申请实施例所述分地域数据所依据的地理区域内用户的输入行为数据为实时收集的数据时,能够提高候选项的时效性。
    本申请实施例中,定期收集是指可按照一定的收集周期进行地理区域内用户的输入行为数据的收集,这里的收集周期可由本领域技术人员依据实际需求确定,如24小时,12小时,6小时,1小时等等;可以理解,比较短的收集周期可以保证候选项的时效性。
    参照图2,示出了本申请一种获取分区域候选项候选项的方法实施例2的流程图,具体可以包括:
    步骤S801、客户端接收用户的输入序列,采集所述输入序列对应的位置数据,并将所述输入序列和对应的地域数据上传至服务器;
    这里的位置数据具体可以包括:依据其IP地址、移动设备GPS或移动网络采集得到相应的地理位置信息,或者,根据用户在其移动设备上针对位置或地理区域的选择操作,所确定的位置或地理区域,等等,本申请实施例对具体的位置数据不加以限制。
    步骤S802、服务器依据所述输入序列对应的地域数据,确定所述输入序列所属的地理区域;
    步骤S803、服务器收集所述输入序列所属的地理区域内用户的输入行为数据;
    步骤S804、服务器对已收集的输入行为数据进行分析,得到该地理区域的分地域数据;
    步骤S805、服务器依据所确定地理区域的分地域数据,获取与所述输入序列相应的候选项。
    需要说明的是,服务器在得到候选项后,可将候选项下发至客户端。
    相对于方法实施例1,方法实施例2中,所述收集用户的行为数据、进行分析、获取相应的候选项等等均由服务器完成。
    现有的技术方案中,在便携式设备上已经加载的当前地理位置信息相关的词库很有可能是半年前或者更久前加载的,容易导致最终得到候选词信息的时效性差;并且,即使在当时从网络服务模块下载当前地理位置信息所对应的与地理位置相关的候选词数据的情况下,网络服务模块侧存储的与地理位置相关的候选词数据往往是事先生成的,仍容易影响最终得到候选词信息的时效性;
    而本申请实施例中,所述分地域数据所依据的地理区域内用户的输入行为数据为实时收集的数据,这里的实时收集是指在确定所述输入序列所属的地理区域后进行相应地理区域内数据的收集,这样依据实时收集的数据分析得到的分区域数据也是实时的,进一步获取得到的候选项也是实时的;因此,相对于现有的技术方案,本申请实施例所述分地域数据所依据的地理区域内用户的输入行为数据为实时收集的数据,能够提高候选项的时效性。
    例如,五道口近几天新开了家日昌餐馆,且有用户在“五道口”地域内输入过“日昌餐馆”词条,则本申请也能够实时收集到“日昌餐馆”词条,并将其作为候选项提供给其他在“五道口”地域内、具有相关输入序列的用 户;而现有的技术方案中在便携式设备上已经加载的当前地理位置信息相关的词库很有可能是半年前或者更久前加载的,其词库无法跟上该实时的变化。
    需要说明的是,在本申请的一些实施例中,服务器还可以将分析得到的分区域数据下发至客户端,由客户端完成依据分区域数据解析输入序列得到候选项的过程。
    另外,在实施本申请的技术方案的过程中,本领域技术人员可以依据实际需求对地理区域的分地域数据进行类别的划分,例如,在本申请的一种应用示例中,地理区域的分地域数据的类别具体可以包括:组织机构、方言、行话等等,其中,组织机构可以理解为能够被在线地图数据覆盖的数据,如地理区域内表示商圈、餐饮、酒店、超市、电影院、景点、学校、银行等组织机构的词条数据;行话、方言可以理解为无法被在线地图数据覆盖的数据,如地理区域内小群体用户使用的词条数据、地理区域内与错误发音习惯相应的词条数据等等。
    为使本领域技术人员更好地理解本申请,以下通过具体的应用场景来说明上述地理区域的分地域数据的类别。
    应用场景1、
    应用场景1主要涉及组织机构类别的地理区域的分地域数据,其中,组织机构类别的地理区域的分地域数据可依据实时收集或定期收集的相应地理区域内用户的输入行为数据分析得到。
    比如一手机用户听说五道口新开了家日昌餐馆,想去那里吃饭。当该用户进入五道口后,不确定餐馆在什么地方,于是打开手机上的在线地图查询,在上面输入“richangcanguan”的编码字符串,并接入服务器;服务器确定“richangcanguan”所属的地理区域为,收集之前在“五道口”地域内登记成功的所有用户的输入行为数据,依据已收集的输入行为数据得到“五道口”地域的分区域数据,并依据分区域数据找到与“richangcanguan”匹配成功的“日昌餐馆”这个词条;此时该用户可以一次性敲出词条,免去了逐字选择(如先选择“日”,再选择“昌”,最后选择“餐馆”)的烦恼,能够提高用户的输入效率。
    应用场景2、
    应用场景2主要涉及行话类别的地理区域的分地域数据,也即地理区域 内小群体用户使用的词条数据,其与组织机构类别的地理区域的分地域数据的区别之一在于,其具有大众化、口语化、通俗的特点,而组织机构类别的地理区域的分地域数据具有正式的特点;其中,行话类别的地理区域的分地域数据可依据实时收集或定期收集的相应地理区域内用户的输入行为数据分析得到。
    比如,搜狐网络大厦内很多用户注册到相应的分区域服务器,这些用户的上屏词条中,“狐首”、“有乐和食”、“宴铭园”、“渗透率”、“Techno”、“CTR”、“川总”、“搜狗输入板”、“号码通”、“运维”的输入概率比较大,其实这些输入概率比较大的词条无法被在线地图数据覆盖,但能够作为搜狐网络大厦内的特征数据或分区域数据;那么,当新来的移动设备接入管理搜狐网络大厦内的分区域服务器时,可以直接使用上述分区域数据响应用户的输入需求,例如,用户的输入序列为“hushou”,则可以直接提供“狐首”这个候选项。
    当然,行话类别的地理区域的分地域数据还可以提供“江南Style”、“元芳”、“新疆办”等组织机构类别的地理区域的分地域数据无法覆盖的词语。
    应用场景3、
    应用场景3主要涉及方言类别的地理区域的分地域数据,也即地理区域内小群体用户使用的词条数据;其中,方言类别的地理区域的分地域数据可依据实时收集或定期收集的相应地理区域内用户的输入行为数据分析得到。
    浙江、福建等地域的用户输入时,经常r、l不分(比如把“好热”说成“好乐”;把“吃肉”说成“吃漏”……);
    由于本申请的输入行为数据可以包括用户在文字输入过程中产生的一切与输入行为相关的数据,那么本申请可以依据浙江、福建等地域内用户的输入行为数据,分析得到相应的分区域纠错属性,并利用所述分区域纠错属性对所述输入序列进行纠错,得到纠错后输入序列,依据所述纠错后输入序列,获取相应的候选项。
    在具体实现中,分区域纠错属性可用于描述错习惯和对习惯之间的映射关系,如l/r,z/zh,un/ong等等;如浙江、福建等地域的用户输入的编码字符串为“chilou”,则可以直接将“chilou”纠正为“chirou”,并获取相应的候选项“吃肉”。
    另外,前面提到,本申请的地理区域可以具有类似行政区域的分级关系,如国家-省-市-区-县等,甚至省、市、区、街道、社区甚至大厦等等分级关 系。那么,在本申请的一种优选实施例中,所述方法还可以包括:在依据该地理区域的分地域数据,获取与所述输入序列相应的候选项失败时,还可以依据该地理区域的上一级地理区域的分地域数据,获取与所述输入序列相应的候选项。例如,“五道口华联”这个地理区域对应的地址范围为海淀区成府路28号,其上一级地理区域为“五道口”,对应的地址范围为海淀区1号-28号,那么,在依据“五道口华联”地理区域的分地域数据,获取与所述输入序列相应的候选项失败时,可以依据其上一级“五道口”地理区域的分地域数据进行候选项的获取。该优选实施例能够增加候选项的获取成功几率,且能够增加候选项的范围。
    需要说明的是,上述获取候选项的方案可以应用于输入法系统,参照图3,示出了本申请一种输入法系统的结构示意图,其具体可以包括:输入输出处理模块301、编码转换模块302、候选生成模块303、网络服务模块304、地域确定模块305和输入法资源模块306;其中,
    输入输出处理模块301,属于系统的UI(用户界面,User Interface)层,负责提供用户界面,接收用户输入操作和上屏操作,展现处理结果;
    编码转换模块302,当用户产生输入操作时,输入输出处理模块301将用户的输入序列实时传送给编码转换模块302,由编码转换模块302完成用户输入序列到候选项的映射;
    对于最普遍的拼音输入法来说,用户的编码字符串是字母(QWERTY键盘)或数字(T9键盘)序列,则候选项是编码字符串对应的汉字词条结果,也就是完成了一次音字转换过程,它常常涉及查询各种词表或词库的操作,以及复杂的寻找最优路径/n-best路径计算。
    候选生成模块303,编码转换模块302在工作过程中,需要检索相关词表,获取候选项,这部分主要由候选生成模块303完成;
    以音字转换过程为例,候选生成模块303会根据编码转换模块302传过来的输入串,查阅用户词库、系统词库、分类词库和云输入词库操作,分别获取候选项结果。一般情况下,候选生成模块303可向输入法资源模块306发起查询请求;在网络可用的情况下,也可向网络服务模块304获取实时的候选项;
    网络服务模块304,主要用于负责输入法网络相关的操作,主要涉及如下几个方面中的任一:
    一方面,当用户输入时,将获取的305的地域确定结果,连同编码转换模块302传过来的输入序列发送给服务器,由服务器实时在线获取输入序列所属地理区域相关的、符合输入序列转换结果的候选项;
    另一方面,将获取的地域确定模块305的地域确定结果,向服务器获取输入序列所属地理区域相关的的词表、词条等分地域数据,并更新到输入法资源模块306中;
    地域确定模块305,用于采集输入序列对应的位置信息或者直接获取输入序列所述的地理区域;其可依据其IP地址、移动设备GPS或移动网络(如Wifi无线网络、蜂窝网络等等)采集得到输入序列对应的地理位置信息,或者,可以根据用户在用户机上针对位置或地理区域的选择操作,将用户所选择的位置或地理区域作为输入序列对应的位置信息或所属的地理区域;
    输入法资源模块306,用于存储输入法的相关资源,这里的资源具体可以包括普通词库、本申请的分地域数据等等,其中,分地域数据可由服务器下发。
    与前述方法实施例相应,本申请还公开了一种获取候选项的装置,参照图4所示的结构图,具体可以包括:
    数据收集单元401,用于收集某地理区域内用户的输入行为数据;
    数据分析单元402,用于分析已收集的输入行为数据,得到该地理区域的分地域数据;
    输入序列接收单元403,用于接收用户在该地理区域的输入序列;及
    候选项获取单元404,用于依据该地理区域的分地域数据,获取与所述输入序列相应的候选项。
    在本申请的一种优选实施例中,所述数据收集单元401具体可以包括:
    筛选子单元,用于从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数据;
    则所述数据分析单元402,可具体用于依据筛选出的输入行为数据,得到该地理区域的分地域数据。
    在本申请的另一种优选实施例中,所述已收集的输入行为数据包括输入序列、输入操作和对应的上屏词条;
    则所述筛选子单元,可以进一步包括:
    纠错筛选模块,用于从所述已收集的输入行为数据中筛选出输入序列、 输入操作和对应的上屏词条中一者或多者符合预置地域纠错输入条件的输入行为数据;
    则所述数据分析单元402,可以具体用于依据所述筛选出的输入行为数据,得到错误输入序列和正确输入序列的对应关系,作为该地理区域的分地域数据。
    在本申请的再一种优选实施例中,所述已收集的输入行为数据包括上屏词条。
    在本申请的一种优选实施例中,所述地域词条输入特性具体可以包括用户数目;所述预置地域词条输入特性条件具体可以包括预置用户数目条件;
    则所述筛选子单元,具体可以包括:
    第一统计模块,用于统计输入所述已收集的输入行为数据中上屏词条的用户数目;
    数目筛选模块,用于从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条件的上屏词条;
    则所述数据分析单元402,可具体用于以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
    在本申请的另一种优选实施例中,所述地域词条输入特性包括输入概率比对;所述预置地域词条输入特性条件包括预置输入概率比对条件;
    则所述所述筛选子单元,具体可以包括:
    第二统计模块,用于针对某地理区域的所述已收集的输入行为数据中某上屏词条,统计其在该地理区域的所述已收集的输入行为数据中所有上屏词条的第一输入概率;
    第三统计模块,用于针对全部地理区域的所述已收集的输入行为数据中某上屏词条,统计其在全部地理区域的所述已收集的输入行为数据中所有上屏词条的第二输入概率;
    概率比对获取模块,用于以某上屏词条的第一输入概率与第二输入概率的比值,作为该上屏词条在第一输入概率对应地理区域内的输入概率比对;及
    概率筛选模块,用于从某地理区域的所述已收集的输入行为数据中筛选出输入概率比对符合预置输入概率比对条件的上屏词条;
    则所述数据分析单元402,可具体用于以所述筛选出的上屏词条作为候选项,建立该候选项和至少一种输入方式下输入序列的对应关系。
    在本申请的一种优选实施例中,所述预置地域纠错输入条件至少可以包括如下条件中的一种或多种:纠错操作紧接在未上屏输入序列的输入操作之后;及,纠错操作紧接在上屏词条的上屏操作之后;
    所述纠错操作至少可以包括如下操作中的一种或多种:退格操作、删除操作、交换操作和替换操作。
    在本申请的另一种优选实施例中,所述数据分析单元402,具体可以包括:
    第一分析子单元,用于在所述预置地域纠错输入条件为纠错操作紧接在输入序列的输入操作之后时,依据该纠错操作之前的未上屏输入序列得到错误输入序列,依据该纠错操作之后的未上屏输入序列获取该错误输入序列对应的正确输入序列,并建立错误输入序列和正确输入序列的对应关系;和/或,
    第二分析子单元,用于在所述纠错操作紧接在上屏词条的上屏操作之后时,依据该纠错操作之前的上屏词条得到错误上屏词条,依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏词条,并依据该错误上屏词条和正确上屏词条建立错误输入序列和正确输入序列的对应关系;
    则所述候选项获取单元403,具体可以包括:
    纠错子单元,用于利用所述错误输入序列和正确输入序列的对应关系,对所述输入序列进行纠错,得到纠错后输入序列;
    纠错后获取子单元,用于依据所述纠错后输入序列,获取相应的候选项。
    在本申请实施例中,优选的是,所述数据收集单元401,可具体用于收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行为数据,作为相应地理区域内用户的输入行为数据。
    在本申请的一种优选实施例中,所述装置还可以包括:
    上一级候选项获取单元,用于在依据该地理区域的分地域数据,获取与所述输入序列相应的候选项失败时,依据该地理区域的上一级地理区域的分地域数据,获取与所述输入序列相应的候选项。
    本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
    本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、 或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
    本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
    这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
    这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
    尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
    以上对本申请所提供的一种获取候选项的方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

    关 键  词:
    一种 获取 候选 方法 装置
      专利查询网所有文档均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种获取候选项的方法及装置.pdf
    链接地址:https://www.zhuanlichaxun.net/p-6149923.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
    经营许可证编号:粤ICP备2021068784号-1