《一种获取候选项的方法及装置.pdf》由会员分享,可在线阅读,更多相关《一种获取候选项的方法及装置.pdf(26页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103853437 A (43)申请公布日 2014.06.11 CN 103853437 A (21)申请号 201210497317.1 (22)申请日 2012.11.28 G06F 3/0483(2013.01) G06F 17/30(2006.01) (71)申请人 北京搜狗科技发展有限公司 地址 100084 北京市海淀区中关村东路 1 号 院 9 号楼搜狐网络大厦 9 层 01 房间 (72)发明人 张扬 (74)专利代理机构 北京润泽恒知识产权代理有 限公司 11319 代理人 苏培华 (54) 发明名称 一种获取候选项的方法及装置 (57) 摘要 本。
2、申请提供了一种获取候选项的方法及装 置, 其中的方法具体包括 : 收集某地理区域内用 户的输入行为数据 ; 分析已收集的输入行为数 据, 得到该地理区域的分地域数据 ; 接收用户在 该地理区域的输入序列 ; 依据该地理区域的分地 域数据, 获取与所述输入序列相应的候选项。 本申 请能够提高用户的输入效率。 (51)Int.Cl. 权利要求书 4 页 说明书 19 页 附图 2 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书4页 说明书19页 附图2页 (10)申请公布号 CN 103853437 A CN 103853437 A 1/4 页 2 1. 一种获取候选项。
3、的方法, 其特征在于, 包括 : 收集某地理区域内用户的输入行为数据 ; 分析已收集的输入行为数据, 得到该地理区域的分地域数据 ; 接收用户在该地理区域的输入序列 ; 依据该地理区域的分地域数据, 获取与所述输入序列相应的候选项。 2. 如权利要求 1 所述的方法, 其特征在于, 所述收集某地理区域内用户的输入行为数 据的步骤, 包括 : 从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为数 据 ; 所述分析已收集的输入行为数据, 得到该地理区域的分地域数据的步骤, 具体为依据 筛选出的输入行为数据, 得到该地理区域的分地域数据。 3. 如权利要求 2 所述的方法, 其特征。
4、在于, 所述已收集的输入行为数据包括输入序列、 输入操作和对应的上屏词条 ; 所述从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为 数据的步骤, 包括 : 从所述已收集的输入行为数据中筛选出输入序列、 输入操作和对应的上屏词条中一者 或多者符合预置地域纠错输入条件的输入行为数据 ; 所述分析已收集的输入行为数据, 得到该地理区域的分地域数据的步骤, 具体为依据 所述筛选出的输入行为数据, 得到错误输入序列和正确输入序列的对应关系, 作为该地理 区域的分地域数据。 4. 如权利要求 2 所述的方法, 其特征在于, 所述已收集的输入行为数据包括上屏词条。 5. 如权利要求 4 。
5、所述的方法, 其特征在于, 所述地域词条输入特性包括用户数目 ; 所述 预置地域词条输入特性条件包括预置用户数目条件 ; 则所述从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行 为数据的步骤, 包括 : 统计输入所述已收集的输入行为数据中上屏词条的用户数目 ; 从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条件的上屏词 条 ; 则所述依据筛选出的输入行为数据, 得到该地理区域的分地域数据的步骤, 包括 : 以所述筛选出的上屏词条作为候选项, 建立该候选项和至少一种输入方式下输入序列 的对应关系。 6. 如权利要求 4 所述的方法, 其特征在于, 所述地域词条输入特。
6、性包括输入概率比对 ; 所述预置地域词条输入特性条件包括预置输入概率比对条件 ; 则所述从所述已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输 入行为数据的步骤, 包括 : 针对某地理区域的所述已收集的输入行为数据中某上屏词条, 统计其在该地理区域的 所述已收集的输入行为数据中所有上屏词条的第一输入概率 ; 针对全部地理区域的所述已收集的输入行为数据中某上屏词条, 统计其在全部地理区 域的所述已收集的输入行为数据中所有上屏词条的第二输入概率 ; 权 利 要 求 书 CN 103853437 A 2 2/4 页 3 以某上屏词条的第一输入概率与第二输入概率的比值, 作为该上屏词条在第。
7、一输入概 率对应地理区域内的输入概率比对 ; 从某地理区域的所述已收集的输入行为数据中筛选出输入概率比对符合预置输入概 率比对条件的上屏词条 ; 则所述依据筛选出的输入行为数据, 得到该地理区域的分地域数据步骤, 包括 : 以所述筛选出的上屏词条作为候选项, 建立该候选项和至少一种输入方式下输入序列 的对应关系。 7. 如权利要求 3 所述的方法, 其特征在于, 所述预置地域纠错输入条件至少包括如下 条件中的一种或多种 : 纠错操作紧接在未上屏输入序列的输入操作之后 ; 及, 纠错操作紧 接在上屏词条的上屏操作之后 ; 所述纠错操作至少包括如下操作中的一种或多种 : 退格操作、 删除操作、 交。
8、换操作和替 换操作。 8. 如权利要求 7 所述的方法, 其特征在于, 所述依据所述筛选出的输入行为数据, 得到 该地理区域的分地域数据的步骤, 包括 : 在所述预置地域纠错输入条件为纠错操作紧接在输入序列的输入操作之后时, 依据该 纠错操作之前的未上屏输入序列得到错误输入序列, 依据该纠错操作之后的未上屏输入序 列获取该错误输入序列对应的正确输入序列, 并建立错误输入序列和正确输入序列的对应 关系 ; 和 / 或, 在所述纠错操作紧接在上屏词条的上屏操作之后时, 依据该纠错操作之前的上屏词 条得到错误上屏词条, 依据该纠错操作之后的上屏词条得到该错误上屏词条对应正确上屏 词条, 并依据该错误。
9、上屏词条和正确上屏词条建立错误输入序列和正确输入序列的对应关 系 ; 则所述依据该地理区域的分地域数据, 获取与所述输入序列相应的候选项的步骤, 包 括 : 利用所述错误输入序列和正确输入序列的对应关系, 对所述输入序列进行纠错, 得到 纠错后输入序列 ; 依据所述纠错后输入序列, 获取相应的候选项。 9.如权利要求1至8中任一项所述的方法, 其特征在于, 所述收集某地理区域内用户的 输入行为数据的步骤, 包括 : 收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行 为数据, 作为相应地理区域内用户的输入行为数据。 10. 如权利要求 1 所述的方法, 其特征在于, 还包。
10、括 : 在依据该地理区域的分地域数据, 获取与所述输入序列相应的候选项失败时, 依据该 地理区域的上一级地理区域的分地域数据, 获取与所述输入序列相应的候选项。 11. 一种获取候选项的装置, 其特征在于, 包括 : 数据收集单元, 用于收集某地理区域内用户的输入行为数据 ; 数据分析单元, 用于分析已收集的输入行为数据, 得到该地理区域的分地域数据 ; 输入序列接收单元, 用于接收用户在该地理区域的输入序列 ; 及 候选项获取单元, 用于依据该地理区域的分地域数据, 获取与所述输入序列相应的候 权 利 要 求 书 CN 103853437 A 3 3/4 页 4 选项。 12. 如权利要求 。
11、11 所述的装置, 其特征在于, 所述数据收集单元, 包括 : 筛选子单元, 用于从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件 的输入行为数据 ; 则所述数据分析单元, 具体用于依据筛选出的输入行为数据, 得到该地理区域的分地 域数据。 13. 如权利要求 12 所述的装置, 其特征在于, 所述已收集的输入行为数据包括输入序 列、 输入操作和对应的上屏词条 ; 则所述筛选子单元, 包括 : 纠错筛选模块, 用于从所述已收集的输入行为数据中筛选出输入序列、 输入操作和对 应的上屏词条中一者或多者符合预置地域纠错输入条件的输入行为数据 ; 则所述数据分析单元, 具体用于依据所述筛选出。
12、的输入行为数据, 得到错误输入序列 和正确输入序列的对应关系, 作为该地理区域的分地域数据。 14. 如权利要求 12 所述的装置, 其特征在于, 所述已收集的输入行为数据包括上屏词 条。 15. 如权利要求 14 所述的装置, 其特征在于, 所述地域词条输入特性包括用户数目 ; 所 述预置地域词条输入特性条件包括预置用户数目条件 ; 则所述筛选子单元, 包括 : 第一统计模块, 用于统计输入所述已收集的输入行为数据中上屏词条的用户数目 ; 数目筛选模块, 用于从所述已收集的输入行为数据中筛选出用户数目符合预置用户数 目条件的上屏词条 ; 则所述数据分析单元, 具体用于以所述筛选出的上屏词条作。
13、为候选项, 建立该候选项 和至少一种输入方式下输入序列的对应关系。 16. 如权利要求 14 所述的装置, 其特征在于, 所述地域词条输入特性包括输入概率比 对 ; 所述预置地域词条输入特性条件包括预置输入概率比对条件 ; 则所述所述筛选子单元, 包括 : 第二统计模块, 用于针对某地理区域的所述已收集的输入行为数据中某上屏词条, 统 计其在该地理区域的所述已收集的输入行为数据中所有上屏词条的第一输入概率 ; 第三统计模块, 用于针对全部地理区域的所述已收集的输入行为数据中某上屏词条, 统计其在全部地理区域的所述已收集的输入行为数据中所有上屏词条的第二输入概率 ; 概率比对获取模块, 用于以某。
14、上屏词条的第一输入概率与第二输入概率的比值, 作为 该上屏词条在第一输入概率对应地理区域内的输入概率比对 ; 及 概率筛选模块, 用于从某地理区域的所述已收集的输入行为数据中筛选出输入概率比 对符合预置输入概率比对条件的上屏词条 ; 则所述数据分析单元, 具体用于以所述筛选出的上屏词条作为候选项, 建立该候选项 和至少一种输入方式下输入序列的对应关系。 17. 如权利要求 13 所述的装置, 其特征在于, 所述预置地域纠错输入条件至少包括如 下条件中的一种或多种 : 纠错操作紧接在未上屏输入序列的输入操作之后 ; 及, 纠错操作 紧接在上屏词条的上屏操作之后 ; 权 利 要 求 书 CN 10。
15、3853437 A 4 4/4 页 5 所述纠错操作至少包括如下操作中的一种或多种 : 退格操作、 删除操作、 交换操作和替 换操作。 18. 如权利要求 17 所述的方法, 其特征在于, 所述数据分析单元, 包括 : 第一分析子单元, 用于在所述预置地域纠错输入条件为纠错操作紧接在输入序列的输 入操作之后时, 依据该纠错操作之前的未上屏输入序列得到错误输入序列, 依据该纠错操 作之后的未上屏输入序列获取该错误输入序列对应的正确输入序列, 并建立错误输入序列 和正确输入序列的对应关系 ; 和 / 或, 第二分析子单元, 用于在所述纠错操作紧接在上屏词条的上屏操作之后时, 依据该纠 错操作之前的。
16、上屏词条得到错误上屏词条, 依据该纠错操作之后的上屏词条得到该错误上 屏词条对应正确上屏词条, 并依据该错误上屏词条和正确上屏词条建立错误输入序列和正 确输入序列的对应关系 ; 则所述候选项获取单元, 包括 : 纠错子单元, 用于利用所述错误输入序列和正确输入序列的对应关系, 对所述输入序 列进行纠错, 得到纠错后输入序列 ; 纠错后获取子单元, 用于依据所述纠错后输入序列, 获取相应的候选项。 19.如权利要求11至18中任一项所述的装置, 其特征在于, 所述数据收集单元, 具体用 于收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户的输入行为 数据, 作为相应地理区域内用户的。
17、输入行为数据。 20. 如权利要求 11 所述的装置, 其特征在于, 还包括 : 上一级候选项获取单元, 用于在依据该地理区域的分地域数据, 获取与所述输入序列 相应的候选项失败时, 依据该地理区域的上一级地理区域的分地域数据, 获取与所述输入 序列相应的候选项。 权 利 要 求 书 CN 103853437 A 5 1/19 页 6 一种获取候选项的方法及装置 技术领域 0001 本申请涉及文字输入技术领域, 特别是涉及一种获取候选项的方法及装置。 背景技术 0002 目前随着计算机技术以及互联网技术的普及与发展, 一方面, 用于实现计算机文 字输入的输入法越来越深入到人们的生活中, 另一方。
18、面, 用户对于输入法的智能性要求也 越来越高。 0003 以手机为代表的移动设备近年来发展迅猛, CPU 和存储设备性能上都有大幅提高。 与之相应的, 移动设备上的应用也越来越丰富, 用户界面也越来越友善。 0004 如果移动设备上安装的输入法能提供基于地理位置的候选项, 则能够大大提高用 户输入效率和操作体验。申请号为 201110256454.1, 发明名称为 “便携式设备上基于地理 位置动态调整候选词的系统及方法” 的中国发明专利 (以下简称为现有的技术方案的技术 方案) 公开了一种便携式设备上基于地理位置动态调整候选词的技术方案, 相应技术方案 的方法流程具体可以包括 : 0005 步。
19、骤 1、 位置更新模块实时对便携式设备的当前地理位置进行定位, 获得当前地理 位置信息, 并将当前地理位置信息送至引擎模块 ; 0006 步骤 2、 引擎模块接收到所述当前地理位置信息, 并根据需要动态地从网络服务模 块下载当前地理位置信息所对应的与地理位置相关的候选词数据 ; 0007 步骤 3、 引擎模块将下载得到的与地理位置相关的候选词数据存入字典模块 ; 0008 步骤 4、 输入模块根据用户的输入动作产生相应的输入信号, 并将该输入信号送至 引擎模块 ; 0009 步骤 5、 引擎模块接收到所述输入信号, 在字典模块中搜索并得到对应的输入候选 词信息, 并将所述候选词信息送至候选词生。
20、成模块 ; 0010 步骤 6、 候选词生成模块接收到所述候选词信息, 生成输入候选项列表。 0011 上述现有的技术方案的技术方案中, 地图数据是其候选词数据的主要来源, 地图 数据中通常包括有商圈、 餐饮等服务信息的名称, 能够在一定程度上满足用户的输入需求, 但是, 地图数据具有如下局限性 : 一是, 地图数据所覆盖的服务信息的名称有限, 无法满足 用户的非服务信息的名称的输入需求, 如地图数据中是无法覆盖到 “江南 Style” 、“元芳” 、 “Techno” 这种词汇的 ; 二是, 地图数据所使用的词语通常过于正式, 不能符合某些用户的口 语化输入习惯, 如有些用户喜欢用 “新疆办。
21、” 来表示 “新疆驻北京办事处” 等等, 而 “新疆办” 在地图数据中是不存在的 ; 三是, 地图数据有自己的更新周期, 如果地图数据的更新周期偏 长, 则导致上述现有的技术方案的候选词数据长期得不到更新, 这样, 如果某个商圈内新开 了一家餐馆, 则上述现有的技术方案的候选词数据不能及时获取该餐馆的相应数据 ; 总之, 上述现有的技术方案不能智能地了解用户的输入需求, 不能总是在输入过程中出现用户想 要的候选词, 影响了用户的输入效率, 这对输入法的智能性提出了更高的要求。 0012 另外, 采用上述现有的技术方案的技术方案, 只要实时定位的当前地理位置发生 说 明 书 CN 1038534。
22、37 A 6 2/19 页 7 变化, 就需要与网络服务模块通信以下载与新地理位置相应的候选词数据, 这样, 在移动设 备用户频繁切换地理位置的情况下, 容易给移动设备和网络服务模块之间带来频繁、 大量 的通信开销。 0013 还有, 移动设备上字典模块中日积月累不同地理位置的候选词数据, 容易占据移 动设备的存储空间。 0014 总之, 需要本领域技术人员迫切解决的一个技术问题就是 : 如何能够提高用户的 输入效率。 发明内容 0015 本申请所要解决的技术问题是提供一种获取候选项的方法, 能够提高用户的输入 效率。 0016 为了解决上述问题, 本申请公开了一种获取候选项的方法, 包括 :。
23、 0017 收集某地理区域内用户的输入行为数据 ; 0018 分析已收集的输入行为数据, 得到该地理区域的分地域数据 ; 0019 接收用户在该地理区域的输入序列 ; 0020 依据该地理区域的分地域数据, 获取与所述输入序列相应的候选项。 0021 另一方面, 本申请还公开了一种获取候选项的装置, 包括 : 0022 数据收集单元, 用于收集某地理区域内用户的输入行为数据 ; 0023 数据分析单元, 用于分析已收集的输入行为数据, 得到该地理区域的分地域数 据 ; 0024 输入序列接收单元, 用于接收用户在该地理区域的输入序列 ; 及 0025 候选项获取单元, 用于依据该地理区域的分地。
24、域数据, 获取与所述输入序列相应 的候选项。 0026 与现有的技术方案相比, 本申请具有以下优点 : 0027 本申请依据该地理区域的分地域数据, 获取与用户在该地理区域的输入序列相应 的候选项。 0028 首先, 由于所述分地域数据是依据地理区域内用户的输入行为数据分析得到的, 其来源并不局限于地图数据, 故能够有效避免地图数据词语有限、 词语正式、 更新周期长等 特点对候选项的影响 ; 更重要的是, 地理区域内用户在相同的地域环境中很有可能使用输 入行为数据来表达与该地域环境相应的特征信息, 而对地理区域内用户的输入行为数据进 行分析所得到的分区域数据是能够体现地理区域的特色的 ; 这样。
25、, 本申请将某地理区域的 分区域数据应用于该地理区域内用户的文字输入过程中候选项的获取, 则能够获取得到反 映该地理区域内特征或特色信息的候选项, 从而有利于在文字输入过程中出现用户想要的 候选项, 能够提高输入法的智能性和用户的输入效率 ; 0029 例如, 在分区域数据描述的地理区域内, 用户的特征数据反映地理区域内的错误 发音习惯时, 本申请能够自动对错误的输入序列进行纠错处理以得到正确的候选项, 故能 够避免相应地理区域内用户的一系列纠错操作, 提高输入效率。 0030 其次, 现有的技术方案中, 地理位置与候选词数据是一一对应的, 一方面, 存储候 选词数据也需要存储相应的地理位置信。
26、息, 容易占据服务器和移动设备的存储空间 ; 另一 说 明 书 CN 103853437 A 7 3/19 页 8 方面, 当前地理位置是实时定位的, 一旦移动设备的当前地理位置发生变化, 就需要与网络 服务模块通信以下载与新地理位置相应的候选词数据, 这容易给移动设备和网络服务模块 之间带来频繁、 大量的通信开销 ; 0031 而本申请在文字输入过程中所使用的分区域数据是针对地理区域的, 其存储无需 考虑具体的地理位置信息, 故能够节省服务器和移动设备的存储空间 ; 并且, 即使移动设备 的当前地理位置发生变化, 但只要移动设备所处的地理区域不变, 就可以避免与服务器通 信以获取地理区域的分。
27、区域数据, 故也能节省移动设备和服务器的通信开销。 0032 再者, 本申请确定所述输入序列所属的地理区域不一定依赖于移动设备对于自身 地理位置信息的定位, 也即, 即使移动设备不具有自身地理位置信息的 GPS 等定位功能, 本 申请依然能够顺利实施, 故本申请具有良好的扩展性。 0033 进一步, 现有的技术方案中, 在便携式设备上已经加载的当前地理位置信息相关 的词库很有可能是半年前或者更久前加载的, 容易导致最终得到候选词信息的时效性差 ; 并且, 即使在当时从网络服务模块下载当前地理位置信息所对应的与地理位置相关的候选 词数据的情况下, 网络服务模块侧存储的与地理位置相关的候选词数据往。
28、往是事先生成 的, 仍容易影响最终得到候选词信息的时效性 ; 0034 而本申请中, 所述分地域数据所依据的地理区域内用户的输入行为数据可以为实 时收集的数据, 这里的实时收集是指在确定所述输入序列所属的地理区域后进行相应地理 区域内数据的收集, 这样依据实时收集的数据分析得到的分区域数据也是实时的, 进一步 获取得到的候选项也是实时的 ; 因此, 相对于现有的技术方案, 本申请所述分地域数据所依 据的地理区域内用户的输入行为数据为实时收集的数据, 能够提高候选项的时效性。 附图说明 0035 图 1 是本申请一种获取候选项的方法实施例 1 的流程图 ; 0036 图 2 是本申请一种获取候选。
29、项的方法实施例 2 的流程图 ; 0037 图 3 是本申请一种输入法系统的结构示意图 ; 0038 图 4 是本申请一种获取候选项的装置实施例的结构图。 具体实施方式 0039 为使本申请的上述目的、 特征和优点能够更加明显易懂, 下面结合附图和具体实 施方式对本申请作进一步详细的说明。 0040 本申请实施例采用分区域数据表示一切可供用户选择的、 可按地理区域属性进行 区分的数据 ; 其中, 分地域数据可依据地理区域内用户的输入行为数据分析得到。这里, 地 理区域内用户既可以包括地理区域内的常住用户, 又可以包括路过或者短期居住的用户, 地理区域内用户的输入行为数据对相应地理区域的分地域数。
30、据都会造成影响。例如, 如果 某个地理区域内用户对某些特征信息比较敏感, 则很有可能使用输入行为数据来表达这些 特征信息 ; 这样, 依据地理区域内用户的输入行为数据分析得到的分区域数据就能够作为 相应地理区域的特征数据, 与其它地理区域的数据区分开来。 0041 本申请实施例采用某地理区域内的分区域数据为该地理区域内的用户服务 ; 具体 而言, 依据该地理区域的分地域数据, 获取与用户在该地理区域的输入序列相应的候选项。 说 明 书 CN 103853437 A 8 4/19 页 9 0042 由于所述分地域数据是依据地理区域内用户的输入行为数据分析得到的, 其来源 并不局限于地图数据, 故。
31、能够有效避免地图数据词语有限、 词语正式、 更新周期长等特点对 候选项的影响 ; 更重要的是, 地理区域内用户在相同的地域环境中很有可能使用输入行为 数据来表达与相同的地域环境相应的特征信息, 而对地理区域内用户的输入行为数据进行 分析得到的分区域数据是能够体现地理区域的特色的 ; 这样, 本申请将某地理区域的分区 域数据应用于该地理区域内用户的文字输入过程中候选项的获取, 则能够获取得到反映该 地理区域内特征或特色信息的候选项, 从而有利于在文字输入过程中出现用户想要的候选 项, 能够提高输入法的智能性和用户的输入效率。 0043 参照图 1, 示出了本申请一种获取候选项的方法实施例 1 的。
32、流程图, 具体可以包 括 : 0044 步骤 101、 收集某地理区域内用户的输入行为数据 ; 0045 本申请实施例中, 地理区域主要用于表示为实行用户及用户的输入行为数据管理 而划分的区域。 本领域技术人员可以根据实际需要进行地理区域的划分, 例如, 本申请的地 理区域可以具有类似行政区域的分级关系, 如国家 - 省 - 市 - 区 - 县等。另外, 本领域技术 人员可以根据实际需要设置所述地理区域的细粒度, 例如, 对于城市而言, 所述地理区域的 细粒度具体可以包括省、 市、 区、 街道、 社区甚至大厦等等, 社区的典型例子具体包括 :“五道 口” 、“东王庄” 、“西王庄” 、“望京”。
33、 等等, 大厦的例子可以包括 “搜狐网络大厦” 、“同方大厦” 、 “紫光大厦” 等等 ; 对于农村而言, 所述地理区域的细粒度具体可以包括省、 市、 县、 乡镇、 村 等等 ; 本申请对地理区域的具体划分和具体细粒度不加以限制。 0046 在本申请的一种实施例中, 所述收集某地理区域内用户的输入行为数据的步骤, 具体可以包括 : 0047 步骤 S111、 收集在分区域服务器登记成功或者接入分区域服务器所在地理区域的 用户的输入行为数据, 作为相应地理区域内用户的输入行为数据。 0048 本申请实施例中, 分区域服务器与地理区域对应, 可用于管理一个地理区域内的 用户及用户的输入行为数据。 。
34、输入行为数据可泛指用户在文字输入过程中产生的一切与输 入行为相关的数据, 这里的输入行为具体可以包括 : 输入序列的输入操作、 上屏操作、 退格 操作、 删除操作等等, 其中退格操作和删除等操作既可以包括针对输入序列的操作, 也包括 对已上屏词条的操作, 本申请对具体的输入行为及输入行为数据不加以限制。 0049 在实际应用中, 用户可以主动向分区域服务器发起登记。 例如, 登记过程的一种示 例可以为 : 用户在开机且网络可用时发送登记请求到最近的分区域服务器, 表征自己的在 线状态 ; 分区域服务器则可依据用户的登记请求, 确认用户所在的登记地理区域, 并向用户 返回相应的登记成功消息, 通。
35、常登记成功消息中可以携带用户在登记地理区域内的 ID(标 识, Identity) 、 用户所在登记地理区域的名称等信息。 登记成功的用户与用户之间, 便构成 了对等 (peer) 关系。 0050 在本申请实施例中, 接入分区域服务器所在地理区域的用户可由分区域服务器主 动获取得到, 例如, 分区域服务器可以通过端口扫描获取所管理地理区域内的用户, 或者, 分区域服务器可以向所管理地理区域内的输入法客户端发送接入消息, 如果输入法客户端 针对该接入消息返回响应, 则将相应的输入法客户端作为接入所在地理区域的用户。 0051 总之, 在分区域服务器登记成功或者接入分区域服务器所在地理区域的用户。
36、均在 说 明 书 CN 103853437 A 9 5/19 页 10 地理区域内的用户的范围内, 二者的主要区别之一在于, 前者由用户主动发起, 后者由分区 域服务器主动发起。 0052 在本申请的一种应用示例中, 分区域服务器的工作流程具体可以包括 : 0053 步骤 S201、 管理地理区域内的用户, 更新各用户状态 ; 0054 通常用户状态可以包括在线、 离线两种状态。 0055 步骤 S202、 收集地理区域内用户的输入行为数据 ; 0056 步骤 S203、 对已收集的用户的输入行为数据数据进行分析, 得到分地域数据。 0057 在本申请的一种优选实施例中, 所述登记成功的用户的。
37、输入行为数据具体可以包 括登记成功的用户在所有地理区域内产生的输入行为数据, 或者, 登记成功的用户在登记 地理区域内产生的输入行为数据。 例如, 用户在望京居住在五道口上班, 且该用户在望京和 五道口所属的地理区域均登记过 ; 那么, 对于五道口分区域服务器而言, 登记成功的用户在 所有地理区域内产生的输入行为数据具体可以包括用户在五道口、 望京甚至其它地理区域 内产生的输入行为数据, 而登记成功的用户在登记地理区域内产生的输入行为数据仅仅包 括用户在五道口地理区域内产生的输入行为数据。 比较登记成功的用户在所有地理区域内 产生的输入行为数据和登记成功的用户在登记地理区域内产生的输入行为数据。
38、, 前者更为 丰富, 后者更能够反映一个地理区域内的特征信息。 0058 步骤 102、 分析已收集的输入行为数据, 得到该地理区域的分地域数据 ; 0059 本申请实施例中, 分区域数据可用于表示可供用户选择的、 可按地理区域属性进 行区分的数据。 0060 在获取分区域数据时, 粒度可以是词表或词库, 也可以是词条 ( 尤其是云输入模 式下 ), 其中的词条不局限于汉字词条, 还可以是混杂字母、 数字的词条, 也可以是英文、 日 文、 韩文、 德文等语言的词条。 0061 本申请实施例中, 可采用地域输入特性表示一个地理区域内的输入特性, 其可用 于反映输入行为数据与相应地理区域的关联度,。
39、 而输入行为数据与相应地理区域的关联度 越强越能体现相应地理区域的特色 ; 预置地域输入特性条件则是与地域输入特性相应的条 件, 也即已收集的输入行为数据中符合预置地域输入特性条件的数据也是具有与相应地理 区域的关联度较高、 更能体现地域特色的输入行为数据, 换个说法, 筛选得到的数据可以看 作相应地理区域内的特征数据。 0062 在本申请的一种优选实施例中, 地域输入特性可以用地域词条输入特性来表示, 则所述收集某地理区域内用户的输入行为数据的步骤, 具体可以包括 : 0063 从已收集的输入行为数据中筛选出符合预置地域词条输入特性条件的输入行为 数据 ; 0064 所述分析已收集的输入行为。
40、数据, 得到该地理区域的分地域数据的步骤, 具体为 依据筛选出的输入行为数据, 得到该地理区域的分地域数据。 0065 本申请可以提供如下地域词条输入特性的方案 ; 0066 地域词条输入特性方案 1、 0067 所述地域词条输入特性具体可以包括用户数目 ; 所述预置地域词条输入特性条件 具体可以包括预置用户数目条件 ; 所述已收集的输入行为数据可以包括上屏词条 ; 在一些 优选实施例中, 已收集的输入行为数据还可以包括用户标识、 和已上屏词条对应的用户输 说 明 书 CN 103853437 A 10 6/19 页 11 入序列 ; 0068 则所述从已收集的输入行为数据中筛选出符合预置地域。
41、词条输入特性条件的输 入行为数据的步骤, 包括 : 0069 步骤 S301、 统计输入所述已收集的输入行为数据中上屏词条的用户数目 ; 0070 步骤 S302、 从所述已收集的输入行为数据中筛选出用户数目符合预置用户数目条 件的上屏词条 ; 0071 则所述依据筛选出的输入行为数据, 得到该地理区域的分地域数据的步骤, 具体 可以包括 : 0072 步骤 S303、 以所述筛选出的上屏词条作为候选项, 建立该候选项和至少一种输入 方式下输入序列的对应关系。 0073 本申请实施例中, 输入方式指的是文字的词条与输入序列之间的对应关系, 例如 全拼输入方式、 简拼输入方式、 手写输入方式、 。
42、笔画输入方式、 五笔输入方式等等。 0074 地域词条输入特性方案 1 中, 用户数目可用于表示一个地理区域内输入某词条的 用户数目, 其可用于反映相应地理区域内对于某词条的使用范围 ; 通常, 用户数目越多, 表 示该词条的使用范围越大, 该词条与相应地理区域的关联度越强, 故可以依据用户数目得 到预置地域输入特性条件, 以筛选出与相应地理区域的关联度较强、 体现地域特色的词条。 0075 在筛选出这样的词条后, 可以建立该词条与一种及一种以上输入方式下的输入序 列之间的对应关系, 这样不论用户使用何种输入方式, 均能方便的在该地理区域内输出该 词条。 0076 当然, 也可以在收集上屏词条。
43、的同时收集与上屏词条对应的用户输入序列, 在筛 选出用户数目符合预置用户数目条件的上屏词条后, 建立该上屏词条与所收集的用户输入 序列之间的对应关系, 并据此向该地理区域内的用户提供候选项。本申请对此不加限制。 0077 参照表 1, 示出了本申请一种包括用户标识、 输入序列和对应的上屏词条的一个地 理区域内已收集的输入行为数据的示例。 0078 表 1 0079 地理区域内用户 ID输入序列上屏词条 1jianmian见面 1richang日常 1richang日昌 2richang日昌 2pengtou碰头 3chigefan吃个饭 3wudaokou五道口 说 明 书 CN 103853。
44、437 A 11 7/19 页 12 3chengtie城铁 3richang日昌 3richangcanguan日昌餐馆 0080 步骤 S301 可以统计输入所述已收集的输入行为数据中上屏词条的用户数目, 例 如, 表 2 为依据表 1 得到的统计数据, 为清楚说明起见, 表 2 还列出了上屏词条对应的输入 序列。 0081 表 2 : 表 1 的统计数据 0082 0083 本领域技术人员可以依据实际需要, 设置各种各样的预置用户数目条件, 本申请 对具体的预置用户数目条件不加以限制。 0084 在此给出一些预置用户数目条件的应用示例 : 0085 示例 1、 预置用户数目条件可以为输入。
45、所述已收集的输入行为数据中上屏词条的 用户数目大于第一阈值, 这里的第一阈值可由本领域技术人员依据实际需求设定, 如为 10、 20 甚至 200 等等。 0086 示例 2、 预置用户数目条件可以为输入所述已收集的输入行为数据中上屏词条的 用户数目排在整个地理区域内所有已收集的输入行为数据中上屏词条的用户数目的前 N 位, 这里的排序为从多到少的排序, N 可由本领域技术人员依据实际需求设定, 如为 10、 20 甚至 200 等等。 0087 示例 3、 预置用户数目条件可以为输入所述已收集的输入行为数据中上屏词条的 用户数目排在该上屏词条对应的输入序列的所有上屏词条的用户数目的前 M 位。
46、, 这里的排 序为从多到少的排序, M 可由本领域技术人员依据实际需求设定, 如 M=1 时表示输入序列对 应上屏词条的用户数目最多, M=2 时表示输入序列对应上屏词条的用户数目最多和次多等 等。以 “richang” 对应的输入行为数据为例, 假设预置用户数目条件为输入序列对应上屏 词条的用户数目最多, 则最终筛选出的上屏词条为 “日昌” 。 0088 另外, 需要说明的是, 对于筛选时出的上屏词条, 还可以同时保存相应的用户数 目, 并保存在所建立的该候选项和所获取输入序列的对应关系时, 这样, 后续步骤 104 依据 该地理区域的分地域数据, 获取与所述输入序列相应的候选项后, 可以依。
47、据所获取候选项 的用户数目, 调整候选项在候选项列表中的次序, 如用户数目多的候选项排在用户数目少 的候选项的后面, 等等。 0089 地域词条输入特性方案 2、 0090 所述地域词条输入特性具体可以包括输入概率比对 ; 所述预置地域词条输入特性 说 明 书 CN 103853437 A 12 8/19 页 13 条件具体可以包括预置输入概率比对条件 ; 所述已收集的输入行为数据可以包括上屏词 条 ; 在一些优选实施例中, 已收集的输入行为数据还可以包括已上屏词条对应的用户输入 序列 ; 0091 则所述从所述已收集的输入行为数据中筛选出符合预置地域词条输入特性条件 的输入行为数据的步骤, 。
48、具体可以包括 : 0092 步骤 S301、 针对某地理区域的所述已收集的输入行为数据中某上屏词条, 统计其 在该地理区域的所述已收集的输入行为数据中所有上屏词条的第一输入概率 ; 0093 步骤 S302、 针对全部地理区域的所述已收集的输入行为数据中某上屏词条, 统计 其在全部地理区域的所述已收集的输入行为数据中所有上屏词条的第二输入概率 ; 0094 步骤 S303、 以某上屏词条的第一输入概率与第二输入概率的比值, 作为该上屏词 条在第一输入概率对应地理区域内的输入概率比对 ; 0095 步骤 S304、 从某地理区域的所述已收集的输入行为数据中筛选出输入概率比对符 合预置输入概率比对。
49、条件的上屏词条 ; 0096 则所述依据筛选出的输入行为数据, 得到该地理区域的分地域数据步骤, 具体可 以包括 : 0097 步骤 S305、 以所述筛选出的上屏词条作为候选项, 建立该候选项和至少一种输入 方式下输入序列的对应关系。 0098 地域词条输入特性方案 2 将某地理区域内的数据分布与所有地域内的数据分布 进行比对得到输入概率比对, 筛选出在该地理区域中频繁出现的、 能够体现地域特色的词 条。具体地, 数据分布可用输入概率来表示。 0099 在筛选出这样的词条后, 可以建立该词条与一种及一种以上输入方式下的输入序 列之间的对应关系, 这样不论用户使用何种输入方式, 均能方便的在该地理区域内输出该 词条。 0100 当然, 也可以在收集上屏词条的同时收集与上屏词条对应的用户输入序列, 在筛 选出输入概率比对符合预置输入概率比对条件的上屏词条后, 建立该上屏词条与所收集的 用户。