一种表情解析的方法和系统.pdf

上传人：t****

文档编号：4218971

上传时间：2018-09-07

格式：PDF

页数：11

大小：1.29MB

《一种表情解析的方法和系统.pdf》由会员分享，可在线阅读，更多相关《一种表情解析的方法和系统.pdf（11页完整版）》请在专利查询网上搜索。

1、(10)申请公布号 CN 102779189 A (43)申请公布日 2012.11.14 C N 1 0 2 7 7 9 1 8 9 A *CN102779189A* (21)申请号 201210227200.1 (22)申请日 2012.06.30 G06F 17/30(2006.01) (71)申请人北京神州泰岳软件股份有限公司地址 100089 北京市海淀区万泉庄路28号万柳新贵大厦A座6层601室 (72)发明人鞠训卓 (74)专利代理机构北京市隆安律师事务所 11323 代理人权鲜枝 (54) 发明名称一种表情解析的方法和系统 (57) 摘要本发明公开一种表情解析的方法和系。

2、统，所述方法包括：根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。本发明能够解决表情解析速度慢的问题。 (51)Int.Cl. 权利要求书2页说明书5页附图3页 (19)中华人民共和国国家知识产权局 (12)发明专利申请权利要求书 2 页说明书 5 页附图 3 页 1/2页 2 1.一种表情解析的方法，其特征在于，所述方法包括：根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情。

3、代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。 2.根据权利要求1所述的方法，其特征在于，所述利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码具体包括：从目标文本中取字符作为当前解析字符串的初始字符，按如下步骤解析当前解析字符串，步骤1，在表情平衡二叉树中检索当前解析字符串，如果检索到，则执行步骤2，如果没有检索到，则执行步骤3；步骤2，确定当前解析字符串为表情代码；步骤3，在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文。

4、本中取下一个字符添加到当前解析字符串中，执行步骤1，如果没有检索到，则执行步骤4；步骤4，确定当前解析字符串不为表情代码。 3.根据权利要求1所述的方法，其特征在于，所述根据表情代码构建前缀平衡二叉树具体包括：从各个表情代码中提取前缀子字符串，组成前缀集合；对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；依据前缀集合构建前缀平衡二叉树。 4.根据权利要求2所述的方法，其特征在于，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括：如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析。

5、字符串的初始字符。 5.根据权利要求2所述的方法，其特征在于，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括：如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。 6.根据权利要求2所述的方法，其特征在于，所述步骤2还包括：依据检索到的表情代码确定当前解析字符串代表的表情。 7.一种表情解析的系统，其特征在于，所述系统包括：平衡二叉树构建模块，用于根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；文。

6、本解析模块，用于利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。 8.根据权利要求7所述的系统，其特征在于，所述文本解析模块具体包括：权利要求书CN 102779189 A 2/2页 3 字符提取单元，用于从目标文本中取字符作为当前解析字符串的初始字符，调用表情判断单元开始解析当前解析字符串，表情判断单元，用于在表情平衡二叉树中检索当前解析字符串，如果检索到，则确定当前解析字符串为表情代码，并调用字符提取单元，如果没有检索到，则调用前缀判断单元；前缀判断单元，用于在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文本中。

7、取下一个字符添加到当前解析字符串中，调用表情判断单元，如果没有检索到，则确定当前解析字符串不为表情代码，并调用字符提取单元。 9.根据权利要求7所述的系统，其特征在于，所述平衡二叉树构建模块具体用于：从各个表情代码中提取前缀子字符串，组成前缀集合；对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；依据前缀集合构建前缀平衡二叉树。 10.根据权利要求8所述的系统，其特征在于，所述字符提取单元具体用于：如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符；和/或，如果上次解析的当。

8、前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。权利要求书CN 102779189 A 1/5页 4 一种表情解析的方法和系统技术领域 0001 本发明涉及计算机领域，特别涉及一种表情解析的方法和系统。背景技术 0002 IM（Instant Message，即时消息）工具已经成为人们日常生活和工作中不可或缺的通信工具。随着智能手机的用户的增多，运行在智能手机上的IM工具也越来越丰富等。能够发送和接收表情是IM应用一个重要的组成部分，缺少表情的IM应用会带来用户体验的下降。在智能手机平台上，。

9、处理器速度有限，内存也较为紧张，在这种情况下，如何提高表情解析的速度，占用较少的内存，就显得尤为重要。 0003 现有技术中进行表情解析时，使用多叉树进行遍历。在针对给定的表情代码集合，创建用于存储表情代码的多叉树时，在程序中需要对每个表情代码使用硬编码，不利于表情的扩展。在使用该多叉树进行表情解析的时候，遍历速度慢导致表情解析速度慢。发明内容 0004 本发明提供了一种表情解析的方法和系统，以解决表情解析速度慢的问题。 0005 本发明公开了一种表情解析的方法，所述方法包括： 0006 根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中。

10、节点为表情代码中前缀子字符串； 0007 利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。 0008 其中，所述利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码具体包括： 0009 从目标文本中取字符作为当前解析字符串的初始字符，按如下步骤解析当前解析字符串， 0010 步骤1，在表情平衡二叉树中检索当前解析字符串，如果检索到，则执行步骤2，如果没有检索到，则执行步骤3； 0011 步骤2，确定当前解析字符串为表情代码； 0012 步骤3，在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文本。

11、中取下一个字符添加到当前解析字符串中，执行步骤1，如果没有检索到，则执行步骤4； 0013 步骤4，确定当前解析字符串不为表情代码。 0014 其中，所述根据表情代码构建前缀平衡二叉树具体包括： 0015 从各个表情代码中提取前缀子字符串，组成前缀集合； 0016 对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中； 0017 依据前缀集合构建前缀平衡二叉树。 0018 其中，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括： 0019 如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前说明书CN 102779189 A 2/5页 5 解析字符串中最。

12、后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符。 0020 其中，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括： 0021 如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。 0022 其中，所述步骤2还包括： 0023 依据检索到的表情代码确定当前解析字符串代表的表情。 0024 本发明还公开了一种表情解析的系统，所述系统包括： 0025 平衡二叉树构建模块，用于根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为。

13、表情代码中前缀子字符串； 0026 文本解析模块，用于利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。 0027 其中，所述文本解析模块具体包括： 0028 字符提取单元，用于从目标文本中取字符作为当前解析字符串的初始字符，调用表情判断单元开始解析当前解析字符串， 0029 表情判断单元，用于在表情平衡二叉树中检索当前解析字符串，如果检索到，则确定当前解析字符串为表情代码，并调用字符提取单元，如果没有检索到，则调用前缀判断单元； 0030 前缀判断单元，用于在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文本中取下一个字符添加到。

14、当前解析字符串中，调用表情判断单元，如果没有检索到，则确定当前解析字符串不为表情代码，并调用字符提取单元。 0031 其中，所述平衡二叉树构建模块具体用于：从各个表情代码中提取前缀子字符串，组成前缀集合；对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；依据前缀集合构建前缀平衡二叉树。 0032 其中，所述字符提取单元具体用于： 0033 如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符； 0034 和/或， 0035 如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次。

15、解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。 0036 本发明的有益效果是：通过构建表情平衡二叉树和前缀平衡二叉树，在表情平衡二叉树和前缀平衡二叉树中进行检索来从目标文本中解析表情，能够提高表情解析的速度，更加适应智能手机等处理速度有限的终端设备。附图说明 0037 图1为本发明表情解析的方法的流程图。 0038 图2为本发明具体实施方式中解析当前解析字符串的方法流程图。 0039 图3为本发明表情解析的方法的实施例的流程图。 0040 图4为本发明表情解析的系统的结构图。说明书CN 102779189 A 3/5页 6 0041 图5为本。

16、发明具体实施方式中文本解析模块的结构图。具体实施方式 0042 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。 0043 参见图1，为本发明提供的表情解析的方法的流程。 0044 所述方法包括如下步骤。 0045 步骤S100，根据表情代码构建表情平衡二叉树和前缀平衡二叉树。 0046 表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串。 0047 步骤S200，利用表情平衡二叉树和前缀平衡二叉树对目标文本进行检索，从目标文本中解析出表情代码。 0048 其中，前缀子字符串为表情代码中第一个字符到除最后一个字符之外。

17、的各个字符的字符串。即表情代码表示为：E 0 E 1 .E i .E m ，其中E i 为该表情符号的第i个字符，则该表情代码的前缀子字符串包括：E 0 ，E 0 E 1 ，.，E 0 E 1 .E i ，.，E 0 E 1 .E i .E m-1 。 0049 本发明中字符串可以为一个字符或多个字符。 0050 在一具体实施方式中，所述步骤S200实现的具体流程如图2所示。 0051 从目标文本中取字符作为当前解析字符串的初始字符，按如下步骤解析当前解析字符串。 0052 步骤S210，在表情平衡二叉树中检索当前解析字符串，如果检索到，则执行步骤 S220，如果没有检索到，则执行步骤S。

18、230。 0053 步骤S220，确定当前解析字符串为表情代码。 0054 步骤S230，在前缀平衡二叉树中检索当前解析字符串，如果检索到，则执行步骤 S250，如果没有检索到，则执行步骤S240。 0055 步骤S240，确定当前解析字符串不为表情代码。 0056 步骤S250，从目标文本中取下一个字符添加到当前解析字符串中，执行步骤S210 0057 进一步地，步骤S220还包括：依据检索到的表情代码确定当前解析字符串代表的表情。 0058 在一具体实施方式中，所述根据表情代码构建前缀平衡二叉树具体包括： 0059 步骤S110，从各个表情代码中提取前缀子字符串，组成前缀集合。 0060。

19、步骤S120，对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中。 0061 步骤S130，依据前缀集合构建前缀平衡二叉树。 0062 例如，表情代码组成的集合为ab,abc,abd,ba,bd,bca,bcd。根据该集合利用公知构建平衡二叉树的方法，构建表情平衡二叉树。 0063 表情代码ab的前缀子字符串包括：a。 0064 表情代码abc的前缀子字符串包括：a，ab。 0065 表情代码abd的前缀子字符串包括：a，ab。 0066 表情代码ba的前缀子字符串包括：b。 0067 表情代码bd的前缀子字符串包括：b。说明书CN 102779189 A 4/5页 7 006。

20、8 表情代码bca的前缀子字符串包括：b，bc。 0069 表情代码bcd的前缀子字符串包括：b，bc。 0070 除去其中重复部分，最终得前缀集合a,ab,b,bc。 0071 初始的前缀平衡二叉树为空，按公知平衡二叉树构建方法，将前缀集合中字符串插入前缀平衡二叉树中。 0072 在一较佳的具体实施方式中，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括： 0073 如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符。 0074 在一较佳的具体实施方式中，所述从目标文本中取字符作为。

21、当前解析字符串的初始字符具体包括： 0075 如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。 0076 实施例 0077 参见图3，为本发明表情解析的方法的实施例的流程图。 0078 在实施例中，设置文本参量text，用于保存解析出来的非表情字符串，设置前缀参量prefix，用于保存本次解析的当前解析字符串。步骤S301，进行初始化，将参量text和 prefix置空。 0079 步骤S302，判断目标文本是否扫描完毕，如果是，则执行步骤S308，否则，执行步骤S303。 0080 步骤。

22、S303，将所取目标文本中当前字符加入prefix中。 0081 在初始时，取目标文本中第一个字符加入prefix中。 0082 初始之后，每次都为取当前字符的下一个字符为当前字符，加入prefix。 0083 步骤S304，在表情平衡二叉树中检索prefix，判断prefix是否为表情代码，如果是，则执行步骤S305，否则，执行步骤S306。 0084 步骤S305，将text保存，将prefix保存，清空text和prefix。 0085 步骤S306，在前缀平衡二叉树中检索prefix，判断prefix是否为前缀子字符串，如果是，则执行步骤S302，否则，执行步骤S307。 0086。

23、步骤S307，将prefix的第一个字符压到text中，当前字符回溯length （prefix）-1个位置，清空prefix。 0087 步骤S308，将prefix压入text中，将text保存，清空prefix。 0088 将使用本发明的技术方案（以下简称新版本）与使用多叉树的旧有技术方案（以下简称旧版本）进行性能比较，结果如下。 0089 1,测试用例包含500个普通字符，没有表情 0090 旧版本：运行该测试用例1000次，耗时7000毫秒； 0091 新版本：运行该测试用例2000次，耗时3000毫秒； 0092 2，测试用例只包含200个表情： 0093 旧版本：运行该测试用。

24、例2000次，耗时117000毫秒； 0094 新版本：运行该测试用例2000次，耗时27000毫秒；说明书CN 102779189 A 5/5页 8 0095 3，测试用例包含400个字符，其中表情和普通文本混合： 0096 旧版本：运行该测试用例2000次，耗时29000毫秒； 0097 新版本：运行该测试用例2000次，耗时9000毫秒。 0098 一种表情解析的系统的结构如图4所示。 0099 平衡二叉树构建模块100，用于根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串； 0100 文本解析模块20。

25、0，用于利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。 0101 参见图5，为本发明具体实施方式中文本解析模块的结构图。 0102 在一较佳的实施方式中，所述文本解析模块200具体包括： 0103 字符提取单元210，用于从目标文本中取字符作为当前解析字符串的初始字符，调用表情判断单元220开始解析当前解析字符串。 0104 表情判断单元220，用于在表情平衡二叉树中检索当前解析字符串，如果检索到，则确定当前解析字符串为表情代码，并调用字符提取单元210，如果没有检索到，则调用前缀判断单元230。 0105 前缀判断单元230，用于在前缀平。

26、衡二叉树中检索当前解析字符串，如果检索到，则从目标文本中取下一个字符添加到当前解析字符串中，调用表情判断单元220，如果没有检索到，则确定当前解析字符串不为表情代码，并调用字符提取单元210。 0106 在一较佳的实施方式中，所述平衡二叉树构建模块100具体用于：从各个表情代码中提取前缀子字符串，组成前缀集合；对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；依据前缀集合构建前缀平衡二叉树。 0107 在一较佳的实施方式中，所述字符提取单元210具体用于： 0108 如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作。

27、为本次解析的当前解析字符串的初始字符； 0109 在一较佳的实施方式中，所述字符提取单元210具体用于： 0110 如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。 0111 以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。说明书CN 102779189 A 1/3页 9 图1 图2 说明书附图CN 102779189 A 2/3页 10 图3 图4 说明书附图CN 102779189 A 10 3/3页 11 图5 说明书附图CN 102779189 A 11 。

摘要
申请专利号：	CN201210227200.1	申请日：	2012.06.30
公开号：	CN102779189A	公开日：	2012.11.14
当前法律状态：	授权	有效性：	有权
法律详情：	授权\|\|\|实质审查的生效IPC(主分类):G06F 17/30申请日:20120630\|\|\|公开
IPC分类号：	G06F17/30	主分类号：	G06F17/30
申请人：	北京神州泰岳软件股份有限公司
发明人：	鞠训卓
地址：	100089 北京市海淀区万泉庄路28号万柳新贵大厦A座6层601室
优先权：
专利代理机构：	北京市隆安律师事务所 11323	代理人：	权鲜枝
PDF完整版下载：	PDF下载

内容摘要

本发明公开一种表情解析的方法和系统，所述方法包括：根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。本发明能够解决表情解析速度慢的问题。

权利要求书

1：一种表情解析的方法，其特征在于，所述方法包括：根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。
2：根据权利要求 1 所述的方法，其特征在于，所述利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码具体包括：从目标文本中取字符作为当前解析字符串的初始字符，按如下步骤解析当前解析字符串，步骤 1，在表情平衡二叉树中检索当前解析字符串，如果检索到，则执行步骤 2，如果没有检索到，则执行步骤 3 ；步骤 2，确定当前解析字符串为表情代码；步骤 3，在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文本中取下一个字符添加到当前解析字符串中，执行步骤 1，如果没有检索到，则执行步骤 4 ；步骤 4，确定当前解析字符串不为表情代码。
3：根据权利要求 1 所述的方法，其特征在于，所述根据表情代码构建前缀平衡二叉树具体包括：从各个表情代码中提取前缀子字符串，组成前缀集合；对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；依据前缀集合构建前缀平衡二叉树。
4：根据权利要求 2 所述的方法，其特征在于，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括：如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符。
5：根据权利要求 2 所述的方法，其特征在于，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括：如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。
6：根据权利要求 2 所述的方法，其特征在于，所述步骤 2 还包括：依据检索到的表情代码确定当前解析字符串代表的表情。
7：一种表情解析的系统，其特征在于，所述系统包括：平衡二叉树构建模块，用于根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；文本解析模块，用于利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。
8：根据权利要求 7 所述的系统，其特征在于，所述文本解析模块具体包括： 2 字符提取单元，用于从目标文本中取字符作为当前解析字符串的初始字符，调用表情判断单元开始解析当前解析字符串，表情判断单元，用于在表情平衡二叉树中检索当前解析字符串，如果检索到，则确定当前解析字符串为表情代码，并调用字符提取单元，如果没有检索到，则调用前缀判断单元；前缀判断单元，用于在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文本中取下一个字符添加到当前解析字符串中，调用表情判断单元，如果没有检索到，则确定当前解析字符串不为表情代码，并调用字符提取单元。
9：根据权利要求 7 所述的系统，其特征在于，所述平衡二叉树构建模块具体用于：从各个表情代码中提取前缀子字符串，组成前缀集合；对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；依据前缀集合构建前缀平衡二叉树。
10：根据权利要求 8 所述的系统，其特征在于，所述字符提取单元具体用于：如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符；和 / 或，如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。

说明书

一种表情解析的方法和系统
    【技术领域】
     本发明涉及计算机领域，特别涉及一种表情解析的方法和系统。背景技术 IM（Instant Message，即时消息）工具已经成为人们日常生活和工作中不可或缺的通信工具。随着智能手机的用户的增多，运行在智能手机上的 IM 工具也越来越丰富等。能够发送和接收表情是 IM 应用一个重要的组成部分，缺少表情的 IM 应用会带来用户体验的下降。在智能手机平台上，处理器速度有限，内存也较为紧张，在这种情况下，如何提高表情解析的速度，占用较少的内存，就显得尤为重要。
     现有技术中进行表情解析时，使用多叉树进行遍历。在针对给定的表情代码集合，创建用于存储表情代码的多叉树时，在程序中需要对每个表情代码使用硬编码，不利于表情的扩展。在使用该多叉树进行表情解析的时候，遍历速度慢导致表情解析速度慢。
     发明内容
     本发明提供了一种表情解析的方法和系统，以解决表情解析速度慢的问题。
     本发明公开了一种表情解析的方法，所述方法包括：
     根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；
     利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。
     其中，所述利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码具体包括：
     从目标文本中取字符作为当前解析字符串的初始字符，按如下步骤解析当前解析字符串，
     步骤 1，在表情平衡二叉树中检索当前解析字符串，如果检索到，则执行步骤 2，如果没有检索到，则执行步骤 3 ；
     步骤 2，确定当前解析字符串为表情代码；
     步骤 3，在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文本中取下一个字符添加到当前解析字符串中，执行步骤 1，如果没有检索到，则执行步骤 4 ；
     步骤 4，确定当前解析字符串不为表情代码。
     其中，所述根据表情代码构建前缀平衡二叉树具体包括：
     从各个表情代码中提取前缀子字符串，组成前缀集合；
     对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；
     依据前缀集合构建前缀平衡二叉树。
     其中，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括：
     如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符。
     其中，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括：
     如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。
     其中，所述步骤 2 还包括：
     依据检索到的表情代码确定当前解析字符串代表的表情。
     本发明还公开了一种表情解析的系统，所述系统包括：
     平衡二叉树构建模块，用于根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；
     文本解析模块，用于利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。
     其中，所述文本解析模块具体包括：
     字符提取单元，用于从目标文本中取字符作为当前解析字符串的初始字符，调用表情判断单元开始解析当前解析字符串，表情判断单元，用于在表情平衡二叉树中检索当前解析字符串，如果检索到，则确定当前解析字符串为表情代码，并调用字符提取单元，如果没有检索到，则调用前缀判断单元；
     前缀判断单元，用于在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文本中取下一个字符添加到当前解析字符串中，调用表情判断单元，如果没有检索到，则确定当前解析字符串不为表情代码，并调用字符提取单元。
     其中，所述平衡二叉树构建模块具体用于：从各个表情代码中提取前缀子字符串，组成前缀集合；对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；依据前缀集合构建前缀平衡二叉树。
     其中，所述字符提取单元具体用于：
     如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符；
     和 / 或，
     如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。
     本发明的有益效果是：通过构建表情平衡二叉树和前缀平衡二叉树，在表情平衡二叉树和前缀平衡二叉树中进行检索来从目标文本中解析表情，能够提高表情解析的速度，更加适应智能手机等处理速度有限的终端设备。
     附图说明
     图 1 为本发明表情解析的方法的流程图。图 2 为本发明具体实施方式中解析当前解析字符串的方法流程图。图 3 为本发明表情解析的方法的实施例的流程图。图 4 为本发明表情解析的系统的结构图。图 5 为本发明具体实施方式中文本解析模块的结构图。具体实施方式
     为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
     参见图 1，为本发明提供的表情解析的方法的流程。
     所述方法包括如下步骤。
     步骤 S100，根据表情代码构建表情平衡二叉树和前缀平衡二叉树。
     表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串。
     步骤 S200，利用表情平衡二叉树和前缀平衡二叉树对目标文本进行检索，从目标文本中解析出表情代码。
     其中，前缀子字符串为表情代码中第一个字符到除最后一个字符之外的各个字符的字符串。即表情代码表示为： E0E1...Ei...Em，其中 Ei 为该表情符号的第 i 个字符，则该表情代码的前缀子字符串包括： E0， E0E1， ...， E0E1...Ei， ...， E0E1...Ei...Em-1。
     本发明中字符串可以为一个字符或多个字符。
     在一具体实施方式中，所述步骤 S200 实现的具体流程如图 2 所示。
     从目标文本中取字符作为当前解析字符串的初始字符，按如下步骤解析当前解析字符串。
     步骤 S210，在表情平衡二叉树中检索当前解析字符串，如果检索到，则执行步骤 S220，如果没有检索到，则执行步骤 S230。
     步骤 S220，确定当前解析字符串为表情代码。
     步骤 S230，在前缀平衡二叉树中检索当前解析字符串，如果检索到，则执行步骤 S250，如果没有检索到，则执行步骤 S240。
     步骤 S240，确定当前解析字符串不为表情代码。
     步骤 S250，从目标文本中取下一个字符添加到当前解析字符串中，执行步骤 S210
     进一步地，步骤 S220 还包括：依据检索到的表情代码确定当前解析字符串代表的表情。
     在一具体实施方式中，所述根据表情代码构建前缀平衡二叉树具体包括：
     步骤 S110，从各个表情代码中提取前缀子字符串，组成前缀集合。
     步骤 S120，对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中。
     步骤 S130，依据前缀集合构建前缀平衡二叉树。
     例如，表情代码组成的集合为 {ab,abc,abd,ba,bd,bca,bcd}。根据该集合利用公知构建平衡二叉树的方法，构建表情平衡二叉树。
     表情代码 ab 的前缀子字符串包括： a。
     表情代码 abc 的前缀子字符串包括： a， ab。
     表情代码 abd 的前缀子字符串包括： a， ab。
     表情代码 ba 的前缀子字符串包括： b。
     表情代码 bd 的前缀子字符串包括： b。表情代码 bca 的前缀子字符串包括： b， bc。
     表情代码 bcd 的前缀子字符串包括： b， bc。
     除去其中重复部分，最终得前缀集合 {a,ab,b,bc}。
     初始的前缀平衡二叉树为空，按公知平衡二叉树构建方法，将前缀集合中字符串插入前缀平衡二叉树中。
     在一较佳的具体实施方式中，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括：
     如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符。
     在一较佳的具体实施方式中，所述从目标文本中取字符作为当前解析字符串的初始字符具体包括：
     如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。
     实施例
     参见图 3，为本发明表情解析的方法的实施例的流程图。在实施例中，设置文本参量 text，用于保存解析出来的非表情字符串，设置前缀参量 prefix，用于保存本次解析的当前解析字符串。步骤 S301，进行初始化，将参量 text 和 prefix 置空。
     步骤 S302，判断目标文本是否扫描完毕，如果是，则执行步骤 S308，否则，执行步骤 S303。
     步骤 S303，将所取目标文本中当前字符加入 prefix 中。
     在初始时，取目标文本中第一个字符加入 prefix 中。
     初始之后，每次都为取当前字符的下一个字符为当前字符，加入 prefix。
     步骤 S304，在表情平衡二叉树中检索 prefix，判断 prefix 是否为表情代码，如果是，则执行步骤 S305，否则，执行步骤 S306。
     步骤 S305，将 text 保存，将 prefix 保存，清空 text 和 prefix。
     步骤 S306，在前缀平衡二叉树中检索 prefix，判断 prefix 是否为前缀子字符串，如果是，则执行步骤 S302，否则，执行步骤 S307。
     步骤 S307，将 prefix 的第一个字符压到 text 中，当前字符回溯 length （prefix） -1 个位置，清空 prefix。
     步骤 S308，将 prefix 压入 text 中，将 text 保存，清空 prefix。
     将使用本发明的技术方案（以下简称新版本）与使用多叉树的旧有技术方案（以下简称旧版本）进行性能比较，结果如下。
     1, 测试用例包含 500 个普通字符，没有表情
     旧版本：运行该测试用例 1000 次，耗时 7000 毫秒；
     新版本：运行该测试用例 2000 次，耗时 3000 毫秒；
     2，测试用例只包含 200 个表情：
     旧版本：运行该测试用例 2000 次，耗时 117000 毫秒；
     新版本：运行该测试用例 2000 次，耗时 27000 毫秒；
     3，测试用例包含 400 个字符，其中表情和普通文本混合：
     旧版本：运行该测试用例 2000 次，耗时 29000 毫秒；
     新版本：运行该测试用例 2000 次，耗时 9000 毫秒。
     一种表情解析的系统的结构如图 4 所示。
     平衡二叉树构建模块 100，用于根据表情代码构建表情平衡二叉树和前缀平衡二叉树，表情平衡二叉树中节点为表情代码；前缀平衡二叉树中节点为表情代码中前缀子字符串；
     文本解析模块 200，用于利用表情平衡二叉树和前缀平衡二叉树从目标文本对目标文本进行检索，从目标文本中解析出表情代码。
     参见图 5，为本发明具体实施方式中文本解析模块的结构图。
     在一较佳的实施方式中，所述文本解析模块 200 具体包括：
     字符提取单元 210，用于从目标文本中取字符作为当前解析字符串的初始字符，调用表情判断单元 220 开始解析当前解析字符串。
     表情判断单元 220，用于在表情平衡二叉树中检索当前解析字符串，如果检索到，则确定当前解析字符串为表情代码，并调用字符提取单元 210，如果没有检索到，则调用前缀判断单元 230。前缀判断单元 230，用于在前缀平衡二叉树中检索当前解析字符串，如果检索到，则从目标文本中取下一个字符添加到当前解析字符串中，调用表情判断单元 220，如果没有检索到，则确定当前解析字符串不为表情代码，并调用字符提取单元 210。
     在一较佳的实施方式中，所述平衡二叉树构建模块 100 具体用于：从各个表情代码中提取前缀子字符串，组成前缀集合；对于前缀集合中多个相同前缀子字符串，保留一个在前缀集合中；依据前缀集合构建前缀平衡二叉树。
     在一较佳的实施方式中，所述字符提取单元 210 具体用于：
     如果上次解析的当前解析字符串为表情代码，则从目标文本中取上次解析的当前解析字符串中最后一个字符的下一个字符，作为本次解析的当前解析字符串的初始字符；
     在一较佳的实施方式中，所述字符提取单元 210 具体用于：
     如果上次解析的当前解析字符串不为表情代码，则从目标文本中取上次解析的当前解析字符串的初始字符的下一个字符，作为本次解析的当前解析字符串的初始字符。
     以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。