抽取用户细粒度典型意见数据处理系统及方法.pdf
《抽取用户细粒度典型意见数据处理系统及方法.pdf》由会员分享,可在线阅读,更多相关《抽取用户细粒度典型意见数据处理系统及方法.pdf(14页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911353588.8 (22)申请日 2019.12.24 (71)申请人 深圳视界信息技术有限公司 地址 518000 广东省深圳市南山区粤海街 道科技园社区高新中一道长园新材料 港10栋1楼 (72)发明人 刘宝强肖云飞 (74)专利代理机构 深圳市汇信知识产权代理有 限公司 44477 代理人 赵英杰 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 16/215(2019.01) G06F 16/。
2、25(2019.01) G06K 9/62(2006.01) G06Q 30/02(2012.01) (54)发明名称 一种抽取用户细粒度典型意见数据处理系 统及方法 (57)摘要 本发明属于数据处理技术领域, 公开了一种 抽取用户细粒度典型意见数据处理系统及方法, 对数据进行清洗, 过滤掉噪声数据; 对清洗后的 数据进行分字, 分词; 使用词嵌入模型训练字向 量、 词向量表示, 生成相应的文件; 定义产品常见 属性; 抽取用户评论中与产品相关的属性; 将所 有抽取到的属性文本采用字向量加权求平均值 的方法转换为向量表示; 对文本进行聚类; 得到 产品不同属性的用户典型意见。 本发明抽取出用 。
3、户评论中与产品相关的属性文本, 将相同属性、 相同情感倾向的文本尽可能地聚到同一簇中, 得 到不同属性的用户典型意见。 有效地提高了聚类 结果的准确性, 并使得聚类结果的颗粒度更小, 快速得到用户对产品不同属性的典型意见。 权利要求书2页 说明书7页 附图4页 CN 111091000 A 2020.05.01 CN 111091000 A 1.一种抽取用户细粒度典型意见数据处理方法, 其特征在于, 所述抽取用户细粒度典 型意见数据处理方法包括以下步骤: 第一步, 对数据进行清洗, 过滤掉噪声数据; 对清洗后的数据进行分字, 分词; 第二步, 使用词嵌入模型训练字向量、 词向量表示, 生成相应。
4、的文件; 定义产品常见属 性; 第三步, 使用命名实体识别的方法, 抽取用户评论中与产品相关的属性; 第四步, 将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示; 第五步, 以属性向量为特征, 对文本进行聚类; 得到产品不同属性的用户典型意见。 2.如权利要求1所述的抽取用户细粒度典型意见数据处理方法, 其特征在于, 所述抽取 用户细粒度典型意见数据处理方法数据进行清洗包括: 过滤掉与本产品无关的用户评论, 水军评论以及用户评论中出现的无意义的符号; 对用户评论中出现的标点符号、 英文字母, 采用统一的书写方式, 转换为统一的表述; 对于没有任何标点符号分割的较长文本评论, 采。
5、 用textrank的方法, 对文本进行分割, 人为添加标点符号进行断句。 3.如权利要求1所述的抽取用户细粒度典型意见数据处理方法, 其特征在于, 所述抽取 用户细粒度典型意见数据处理方法对清洗后的数据进行分词过程中, 对于专业领域的词 汇、 网络用语或缩写, 出现分词错误, 人工构建自定义分词词典; 所述抽取用户细粒度典型意见数据处理方法字或词的向量化表示, 使用Word2vec或 Glove模型对文本数据进行训练, 生成相应的字向量、 词向量文件。 4.如权利要求1所述的抽取用户细粒度典型意见数据处理方法, 其特征在于, 所述抽取 用户细粒度典型意见数据处理方法在产品属性定义阶段, 通过。
6、调研, 人工自定义得到与产 品相关的常见属性; 所述抽取用户细粒度典型意见数据处理方法采用命名实体识别的方法抽取用户评论 中与该产品相关的属性, 命名实体识别使用BiLSTM+CRF网络模型, 以输入文本字向量和词 向量的组合作为特征输入, 对模型进行训练, 以识别出与产品相关的属性描述。 5.如权利要求1所述的抽取用户细粒度典型意见数据处理方法, 其特征在于, 所述抽取 用户细粒度典型意见数据处理方法将抽取到的属性文本转换为向量前, 通过相似度计算, 生成同义词典, 将属性文本中所有的同义词进行同义词替换, 并使用停用词词典过滤掉无 实际意义的词语, 通过字向量加权求平均值的方法生成属性文本。
7、的向量表示。 6.如权利要求1所述的抽取用户细粒度典型意见数据处理方法, 其特征在于, 所述抽取 用户细粒度典型意见数据处理方法以属性向量为特征, 使用Kmeans算法对文本进行聚类, 在聚类过程中选取聚类初始中心点: (1)对抽取到的属性文本统计所有文本出现的频率; (2)选择出现次数大于一定阈值的属性文本; (3)计算文本之间的相似度, 挑选出相似度小 于一定阈值的文本向量作为聚类初始中心点。 7.如权利要求1所述的抽取用户细粒度典型意见数据处理方法, 其特征在于, 所述抽取 用户细粒度典型意见数据处理方法聚类结束后中心观点的选取包括: (1)计算每个簇中文 本之间的相似度; (2)将簇中。
8、相似度较大的文本映射为同一文本, 统计每个簇中, 所有文本 出现的次数; (3)将出现频率最高的文本作为该簇的中心观点; 所述抽取用户细粒度典型意见数据处理方法计算所有簇中每个属性文本与所有中心 观点之间的相似度, 对相似度小于阈值的属性文本所属的簇进行调整, 将其分配到与该簇 权利要求书 1/2 页 2 CN 111091000 A 2 中心观点相似度较大的簇中, 最后抽取每个簇的中心观点, 作为用户对该属性的典型意见。 8.一种实施权利要求17任意一项所述抽取用户细粒度典型意见数据处理方法的抽 取用户细粒度典型意见数据处理系统, 其特征在于, 所述抽取用户细粒度典型意见数据处 理系统包括:。
9、 数据处理模块, 用于对数据进行清洗, 过滤掉噪声数据, 对清洗后的数据进行分字, 分 词; 文件定义模块, 用于使用词嵌入模型训练字向量、 词向量表示, 生成相应的文件, 定义 产品常见属性; 产品属性抽取模块, 用于使用命名实体识别的方法, 抽取用户评论中与产品相关的属 性; 属性文本转换模块, 用于将所有抽取到的属性文本采用字向量加权求平均值的方法转 换为向量表示; 文本聚类模块, 用于以属性向量为特征, 对文本进行聚类; 得到产品不同属性的用户典 型意见。 9.一种实现权利要求17任意一项所述抽取用户细粒度典型意见数据处理方法的信 息数据处理终端。 10.一种计算机可读存储介质, 包括。
10、指令, 当其在计算机上运行时, 使得计算机执行如 权利要求17任意一项所述的抽取用户细粒度典型意见数据处理方法。 权利要求书 2/2 页 3 CN 111091000 A 3 一种抽取用户细粒度典型意见数据处理系统及方法 技术领域 0001 本发明属于数据处理技术领域, 尤其涉及一种抽取用户细粒度典型意见数据处理 系统及方法。 背景技术 0002 目前, 最接近的现有技术: 随着互联网技术的不断发展, 网络购物改变了我们的生 活方式, 为我们的生活提供了极大的便捷。 通常当我们在某一电商平台上买到某一款产品 后, 会将自己的购物体验以及使用感受发表出来, 以表达自己对该产品的观点。 而这些观点。
11、 对于商家以及想要购买该产品的用户而言是非常重要的。 商家通过对大量的用户评论进行 分析, 可以了解用户对该产品的看法, 并对用户不满意的点进行改进, 以帮助产品的优化。 而想要购买该产品的用户, 可以参考已经购买过该产品用户的使用体验, 辅助决策, 决定是 否购买该产品。 0003 目前已经有相关技术方法, 可以从用户评论中得到用户对该产品的观点。 常见方 法包括: (1)通过文本多分类的方法, 得到用户对该产品的情感倾向以表达用户对此产品的 看法。 该方法并不能得到用户对该产品某一属性特有的看法, 而大多数情况下, 对于同一产 品不同的属性, 用户所持有的观点是不相同的。 (2)通过文本多。
12、标签多分类的方法, 得到用 户对该产品不同属性的情感倾向以表达用户对此产品不同属性的看法。 该方法并不能得到 用户对不同属性观点的具体表述, 只能得到不同属性的情感倾向。 但很多时候, 通过对属性 观点表述的具体阅读, 可以得到更多的信息。 (3)通过对文本数据直接进行聚类, 得到用户 对该产品的典型意见。 由于文本评论中会存在与该产品无关的描述, 因此导致聚类的结果 不理想; 另外, 通过对评论直接进行聚类, 可以得到用户对该产品的整体观点, 但不能得到 用户对该产品不同属性的观点。 0004 综上所述, 现有技术存在的问题是: 现有技术通过对文本数据直接进行聚类导致 聚类的结果不理想; 另。
13、外, 通过对评论直接进行聚类, 可以得到用户对该产品的整体观点, 但不能得到用户对该产品不同属性的观点。 0005 解决上述技术问题的难度: 通常聚类结果由两方面来决定: 聚类数据、 聚类算法。 为了准确得到用户细粒度典型意见, 需要对聚类数据进行预处理, 使得每一个聚类文本, 都 带有明显的特征。 本发明通过命名实体识别的方法, 抽取用户评论文本中提及到的产品属 性, 将一条评论数据拆分成多条数据, 让每一条数据, 能够完整的表达用户对产品某一属性 的意见, 并且过滤掉无关信息。 另外, 为了使聚类算法能够更好的将同一属性同一意见聚类 到同一簇中, 不同的属性不同意见聚类到不同簇中, 需根据。
14、聚类数据的特征, 对聚类算法进 行调整。 本发明对聚类的初始中心点进行了自定义并对聚类结果进行了调整, 使聚类的结 果更加准确。 0006 解决上述技术问题的意义: 扩展了聚类方法的应用领域。 由于现有聚类方法存在 的效果缺陷, 使得它只能成为人们进行文本分析时的一种辅助手段, 通常先通过聚类方法 对数据分布特征进行大致了解, 然后再通过自然语言处理技术中别的方法, 对不同特征的 说明书 1/7 页 4 CN 111091000 A 4 数据进行处理, 得到数据的具体信息。 而上述技术问题的解决, 扩展了聚类方法的应用领 域, 通过聚类方法可以直接得到数据的详细信息, 即用户对产品不同属性的典。
15、型意见。 另 外, 上述技术问题的解决, 为抽取用户细粒度典型意见提出了一种全新的简单高效的方法。 对于用户细粒度典型意见的抽取目前通常采用多标签分类的方法来实现, 但该方法只能得 到用户对产品不同属性总体的意见, 并不能得到用户意见的具体描述, 通过上述技术问题 的解决, 既可以得到用户对产品不同属性的总体意见, 也可以得到该意见的具体描述。 发明内容 0007 针对现有技术存在的问题, 本发明提供了一种抽取用户细粒度典型意见数据处理 系统及方法。 0008 本发明是这样实现的, 一种抽取用户细粒度典型意见数据处理方法, 所述抽取用 户细粒度典型意见数据处理方法包括以下步骤: 0009 第一。
16、步, 对数据进行清洗, 过滤掉噪声数据; 对清洗后的数据进行分字, 分词; 0010 第二步, 使用词嵌入模型训练字向量、 词向量表示, 生成相应的文件; 定义产品常 见属性; 0011 第三步, 使用命名实体识别的方法, 抽取用户评论中与产品相关的属性; 0012 第四步, 将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表 示; 0013 第五步, 以属性向量为特征, 对文本进行聚类; 得到产品不同属性的用户典型意 见。 0014 进一步, 所述抽取用户细粒度典型意见数据处理方法数据进行清洗包括: 过滤掉 与本产品无关的用户评论, 水军评论以及用户评论中出现的无意义的符号; 对。
17、用户评论中 出现的标点符号、 英文字母, 采用统一的书写方式, 转换为统一的表述; 对于没有任何标点 符号分割的较长文本评论, 采用textrank的方法, 对文本进行分割, 人为添加标点符号进行 断句。 0015 进一步, 所述抽取用户细粒度典型意见数据处理方法对清洗后的数据进行分词过 程中, 对于专业领域的词汇、 网络用语或缩写, 出现分词错误, 人工构建自定义分词词典; 0016 所述抽取用户细粒度典型意见数据处理方法字或词的向量化表示, 使用Word2vec 或Glove模型对文本数据进行训练, 生成相应的字向量、 词向量文件; 0017 进一步, 所述抽取用户细粒度典型意见数据处理方。
18、法在产品属性定义阶段, 通过 调研, 人工自定义得到与产品相关的常见属性; 0018 所述抽取用户细粒度典型意见数据处理方法采用命名实体识别的方法抽取用户 评论中与该产品相关的属性, 命名实体识别使用BiLSTM+CRF网络模型, 以输入文本字向量 和词向量的组合作为特征输入, 对模型进行训练, 以识别出与产品相关的属性描述。 0019 进一步, 所述抽取用户细粒度典型意见数据处理方法将抽取到的属性文本转换为 向量前, 通过相似度计算, 生成同义词典, 将属性文本中所有的同义词进行同义词替换, 并 使用停用词词典过滤掉无实际意义的词语, 通过字向量加权求平均值的方法生成属性文本 的向量表示。 。
19、0020 进一步, 所述抽取用户细粒度典型意见数据处理方法以属性向量为特征, 使用 说明书 2/7 页 5 CN 111091000 A 5 Kmeans算法对文本进行聚类, 在聚类过程中选取聚类初始中心点: (1)对抽取到的属性文本 统计所有文本出现的频率; (2)选择出现次数大于一定阈值的属性文本; (3)计算文本之间 的相似度, 挑选出相似度小于一定阈值的文本向量作为聚类初始中心点。 0021 进一步, 所述抽取用户细粒度典型意见数据处理方法聚类结束后中心观点的选取 包括: (1)计算每个簇中文本之间的相似度; (2)将簇中相似度较大的文本映射为同一文本, 统计每个簇中, 所有文本出现的。
20、次数; (3)将出现频率最高的文本作为该簇的中心观点; 0022 所述抽取用户细粒度典型意见数据处理方法计算所有簇中每个属性文本与所有 中心观点之间的相似度, 对相似度小于阈值的属性文本所属的簇进行调整, 将其分配到与 该簇中心观点相似度较大的簇中, 最后抽取每个簇的中心观点, 作为用户对该属性的典型 意见。 0023 本发明的另一目的在于提供一种实施所述抽取用户细粒度典型意见数据处理方 法的抽取用户细粒度典型意见数据处理系统, 所述抽取用户细粒度典型意见数据处理系统 包括: 0024 数据处理模块, 用于对数据进行清洗, 过滤掉噪声数据, 对清洗后的数据进行分 字, 分词; 0025 文件定。
21、义模块, 用于使用词嵌入模型训练字向量、 词向量表示, 生成相应的文件, 定义产品常见属性; 0026 产品属性抽取模块, 用于使用命名实体识别的方法, 抽取用户评论中与产品相关 的属性; 0027 属性文本转换模块, 用于将所有抽取到的属性文本采用字向量加权求平均值的方 法转换为向量表示; 0028 文本聚类模块, 用于以属性向量为特征, 对文本进行聚类; 得到产品不同属性的用 户典型意见。 0029 本发明的另一目的在于提供一种实现所述抽取用户细粒度典型意见数据处理方 法的信息数据处理终端。 0030 本发明的另一目的在于提供一种计算机可读存储介质, 包括指令, 当其在计算机 上运行时, 。
22、使得计算机执行所述的抽取用户细粒度典型意见数据处理方法。 0031 综上所述, 本发明的优点及积极效果为: 本发明先通过命名实体识别抽取出与该 产品相关的属性文本, 避免了无关文本对分析结果的影响; 然后使用Kmeans算法对抽取到 的属性文本进行聚类, 得到用户对产品不同属性的典型意见。 本发明方法既弥补了现有技 术的不足, 而属性抽取方法与属性聚类方法的相互结合, 又克服了这两种方法自身存在的 不足, 通过可以快速、 有效地得到用户细粒度典型意见, 以帮助企业更好地进行产品优化。 本发明提出了一种基于文本挖掘的用户细粒度典型意见抽取方法, 可有效地抽取用户对同 一产品不同属性的典型意见。 。
23、0032 本发明克服了现有技术的缺陷, 提出了一种全新的用户细粒度典型意见抽取方 法。 通过命名实体识别的方法, 得到用户评论中与产品属性相关的描述, 过滤掉与产品无关 的信息, 得到产品细粒度的描述。 通过聚类算法, 将同一属性的相同观点聚类到同一簇中, 以纠正通过命名实体识别方法抽取出的错误属性, 提高结果的准确率。 对Kmeans聚类中心 点的初始化, 根据不同簇之间文本相似度尽可能小的原则, 采用自定义方法得到初始聚类 说明书 3/7 页 6 CN 111091000 A 6 中心点, 提高了聚类结果的准确率。 附图说明 0033 图1是本发明实施例提供的抽取用户细粒度典型意见数据处理。
24、系统的结构示意 图; 0034 图中: 1、 数据处理模块; 2、 文件定义模块; 3、 产品属性抽取模块; 4、 属性文本转换 模块; 5、 文本聚类模块。 0035 图2是本发明实施例提供的抽取用户细粒度典型意见数据处理方法的流程图。 0036 图3是本发明实施例提供的抽取用户细粒度典型意见数据处理方法的实现流程 图。 0037 图4是本发明实施例提供的将用户评论按照标点符号进行拆分后聚类的结果网络 截屏。 0038 图5是本发明实施例提供的使用本发明对用户评论进行聚类的结果网络截屏。 具体实施方式 0039 为了使本发明的目的、 技术方案及优点更加清楚明白, 以下结合实施例, 对本发明 。
25、进行进一步详细说明。 应当理解, 此处所描述的具体实施例仅仅用以解释本发明, 并不用于 限定本发明。 0040 针对现有技术存在的问题, 本发明提供了一种抽取用户细粒度典型意见数据处理 系统及方法, 下面结合附图对本发明作详细的描述。 0041 如图1所示, 本发明实施例提供的抽取用户细粒度典型意见数据处理系统包括: 0042 数据处理模块1, 用于对数据进行清洗, 过滤掉噪声数据, 对清洗后的数据进行分 字, 分词。 0043 文件定义模块2, 用于使用词嵌入(Word Embeddings)模型训练字向量、 词向量表 示, 生成相应的文件, 定义产品常见属性。 0044 产品属性抽取模块3。
26、, 用于使用命名实体识别的方法, 抽取用户评论中与产品相关 的属性。 0045 属性文本转换模块4, 用于将所有抽取到的属性文本采用字向量加权求平均值的 方法转换为向量表示。 0046 文本聚类模块5, 用于以属性向量为特征, 对文本进行聚类; 得到产品不同属性的 用户典型意见。 0047 如图2所示, 本发明实施例提供的抽取用户细粒度典型意见数据处理方法包括以 下步骤: 0048 S201: 对数据进行清洗, 过滤掉噪声数据; 对清洗后的数据进行分字, 分词; 0049 S202: 使用词嵌入(Word Embeddings)模型训练字向量、 词向量表示, 生成相应的 文件; 定义产品常见属。
27、性; 0050 S203: 使用命名实体识别的方法, 抽取用户评论中与产品相关的属性; 0051 S204: 将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表 示; 说明书 4/7 页 7 CN 111091000 A 7 0052 S205: 以属性向量为特征, 对文本进行聚类; 得到产品不同属性的用户典型意见。 0053 下面结合附图对本发明的技术方案作进一步的描述。 0054 如图3所示, 本发明实施例提供的抽取用户细粒度典型意见数据处理方法具体包 括以下步骤: 0055 (1)对数据进行清洗, 过滤掉噪声数据。 0056 (2)对清洗后的数据进行分字, 分词。 0057 。
28、(3)使用词嵌入(Word Embeddings)模型训练字向量、 词向量表示, 并生成相应的 文件。 0058 (4)定义产品常见属性。 0059 (5)使用命名实体识别的方法, 抽取用户评论中与产品相关的属性。 0060 (6)将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示。 0061 (7)以属性向量为特征, 对文本进行聚类。 0062 (8)得到产品不同属性的用户典型意见。 0063 在本发明的优选实施例中, 在对数据进行清洗阶段, 主要的工作包括: 过滤掉与本 产品无关的用户评论, 水军评论以及用户评论中出现的无意义的符号; 对用户评论中出现 的标点符号、 英文字母。
29、, 采用统一的书写方式, 将其转换为统一的表述; 对于没有任何标点 符号分割的较长文本评论, 采用textrank的方法, 对文本进行分割, 人为添加标点符号进行 断句。 0064 在本发明的优选实施例中, 在对清洗后的数据进行分词过程中, 对于一些专业领 域的词汇、 网络用语或缩写, 出现分词错误的情况。 为了减少这种错误对后续算法结果的影 响, 人工构建自定义分词词典, 提高分词的准确率。 0065 在本发明的优选实施例中, 字或词的向量化表示, 使用Word2vec或Glove模型对文 本数据进行训练, 生成相应的字向量、 词向量文件。 0066 在本发明的优选实施例中, 在产品属性定义。
30、阶段, 通过调研, 人工自定义得到与该 产品相关的常见属性。 0067 在本发明的优选实施例中, 采用命名实体识别的方法抽取用户评论中与该产品相 关的属性。 其中命名实体识别使用BiLSTM(Bi-directional Long Short-Term Memory)+ CRF网络模型, 以输入文本字向量和词向量的组合作为特征输入, 对模型进行训练, 以识别 出与产品相关的属性描述。 0068 在本发明的优选实施例中, 将抽取到的属性文本转换为向量前, 为了使得聚类过 程中同一簇中的属性文本相似度更大, 不同簇的属性文本之间相似度更小, 通过相似度计 算, 生成同义词典, 将属性文本中所有的同。
31、义词进行同义词替换, 并使用停用词词典过滤掉 无实际意义的词语, 最终通过字向量加权求平均值的方法生成属性文本的向量表示。 0069 在本发明的优选实施例中, 以属性向量为特征, 使用Kmeans算法对文本进行聚类。 在聚类过程中通过以下方法选取聚类初始中心点: (1)对抽取到的属性文本统计所有文本 出现的频率; (2)选择出现次数大于一定阈值的属性文本; (3)计算文本之间的相似度, 挑选 出相似度小于一定阈值的文本向量作为聚类初始中心点。 0070 在本发明的优选实施例中, 聚类结束后中心观点的选取包括以下几个步骤: (1)计 算每个簇中文本之间的相似度; (2)将簇中相似度较大的文本映射。
32、为同一文本, 统计每个簇 说明书 5/7 页 8 CN 111091000 A 8 中, 所有文本出现的次数; (3)将出现频率最高的文本作为该簇的中心观点。 另外, 要求所选 取的中心观点文本字数应该在一定的阈值范围内, 以此保证中心观点可以更全面的表述出 该簇所表达的观点。 0071 在本发明的优选实施例中, 为了使聚类后的结果更加合理, 计算所有簇中每个属 性文本与所有中心观点之间的相似度, 对相似度小于一定阈值的属性文本所属的簇进行调 整, 将其分配到与该簇中心观点相似度较大的簇中, 最后采用方法, 抽取每个簇的中心观 点, 作为用户对该属性的典型意见。 0072 下面结合具体实施例对。
33、本发明的技术方案作进一步的描述。 0073 本发明实施例提供的抽取用户细粒度典型意见数据处理方法采集用户对该产品 的相关评论, 进行数据清洗, 去掉噪声数据。 噪声数据通常包括: 与本产品无关的用户评论, 水军评论。 如 “终于又收到一个包裹, 不过还有下一季。 我的一个赠品包裹应该还在编剧手 里。 ” ,“作为一个四钻买家, 经常网购, 总有大量的包裹收, 总有很多评价要写。 但是, 总写评 价花掉我大量的时间和精力, 所以在某段时间里, 我懒得去评价或者随便写写, 但是又觉得 好像对不住辛苦工作的卖家客服, 仓管, 老板, 于是写下此模板。 ” 等无意义的文本。 并对用 户评论中出现的标点。
34、符号、 英文字母, 采用统一的书写方式, 将其转换为统一的表述; 对于 没有任何标点符号分割的较长文本评论, 采用textrank的方法, 对文本进行分割, 人为添加 标点符号进行断句。 0074 对清洗后的数据进行分字, 分词; 对于一些专业领域的词汇、 网络用语或缩写, 会 出现分词错误的情况。 为了减少这种错误对后续算法结果的影响, 人工构建自定义分词词 典, 从而提高分词的准确率。 如 “颜值党” 、“学生党” 、“刘海屏” 、“水滴屏” 等网络用语、 专业 术语, 分词算法通常很难正确的进行分词, 因此通过添加自定义词典, 提高分词准确率。 0075 使用词嵌入(Word Embed。
35、dings)模型训练字向量、 词向量表示, 并生成相应的文 件; 常用的词向量生成算法包括: Word2vec、 Glove、 fastText等。 0076 定义产品常见属性; 以手机为例, 通常包括拍照、 电池、 外观、 屏幕、 网络、 价格、 机 身颜色、 屏占比、 设计、 做工、 工艺、 操作系统、 摄像头等属性。 不同产品具有的属性个数通常 不同。 0077 使用命名实体识别的方法, 抽取用户评论中与产品相关的属性; 其中命名实体识 别使用BiLSTM(Bi-directional Long Short-Term Memory)+CRF网络模型, 以输入文本字 向量和词向量的组合作为。
36、特征输入, 对模型进行训练, 以识别出与产品相关的属性描述。 以 手机为例, 抽取到与电池属性相关的描述有:“续航能力非常优秀” 、“电池容量不够” 、“充电 速度特别快” 、“快充很给力” 、“充电时烫的厉害” 、“没有无线充电” 等。 0078 通过同义词典将属性文本中出现的同义词进行同义词替换后, 将所有抽取到的属 性文本采用字向量加权求平均值的方法转换为向量表示; 如为了得到 “快充很给力” 这句话 的向量表示, 首先获取 “快” 、“充” 、“很” 、“给” 、“力” 每个字的向量表示, 然后将所有的字向 量进行加和求平均值, 得到该句话的向量表示。 0079 以属性向量为特征, 对。
37、文本进行聚类, 并采用自定义方法初始化聚类中心; 如聚类 结束后, 某一簇下出现的文本包括:“充电速度很快” 、“充电不需要花费太多时间” 、“充电速 度不是一般的快” 、“充电挺快的” 、“充电速度也快” 、“充的也快” 、“充电挺快” 等。 0080 得到产品不同属性的用户典型意见。 以上述聚类结果为例, 可以得到用户对充电 说明书 6/7 页 9 CN 111091000 A 9 速度很满意。 0081 为了验证本发明的有效性, 在相同的数据集下(随机抽取9700条数据), 对比了使 用聚类算法直接对用户评论进行聚类与使用本发明中提到的方法对用户评论进行聚类, 得 到用户细粒度典型意见的。
38、效果。 由于聚类结果数据量较多, 本专利中以 “电池耐用” 观点为 例, 展示了不同抽取方法, 在得到同一观点时, 对应的具体的文本描述, 结果如下图所示。 其 中图四为将用户评论按照标点符号进行拆分后聚类的结果, 图五为使用本发明对用户评论 进行聚类的结果。 0082 从实验结果中可以看出, 对文本进行拆分后, 直接进行聚类虽然可以得到用户细 粒度典型意见, 但聚类的结果不够准确。 聚类结果中虽然出现了与 “电池耐用” 相关的文本 描述, 但也包含了它的反面意见 “耗电很快” , 以及别的属性意见 “运行速度很快” 。 而使用本 发明对用户评论进行聚类, 可以准确得到同一属性同一意见的用户观。
39、点, 即 “待机时间长” 、 “电池耐用” 。 0083 应当注意, 本发明的实施方式可以通过硬件、 软件或者软件和硬件的结合来实现。 硬件部分可以利用专用逻辑来实现; 软件部分可以存储在存储器中, 由适当的指令执行系 统, 例如微处理器或者专用设计硬件来执行。 本领域的普通技术人员可以理解上述的设备 和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现, 例如在诸如磁 盘、 CD或DVD-ROM的载体介质、 诸如只读存储器(固件)的可编程的存储器或者诸如光学或电 子信号载体的数据载体上提供了这样的代码。 本发明的设备及其模块可以由诸如超大规模 集成电路或门阵列、 诸如逻辑芯片、 。
40、晶体管等的半导体、 或者诸如现场可编程门阵列、 可编 程逻辑设备等的可编程硬件设备的硬件电路实现, 也可以用由各种类型的处理器执行的软 件实现, 也可以由上述硬件电路和软件的结合例如固件来实现。 0084 以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明, 凡在本发明的精 神和原则之内所作的任何修改、 等同替换和改进等, 均应包含在本发明的保护范围之内。 说明书 7/7 页 10 CN 111091000 A 10 图1 说明书附图 1/4 页 11 CN 111091000 A 11 图2 说明书附图 2/4 页 12 CN 111091000 A 12 图3 图4 说明书附图 3/4 页 13 CN 111091000 A 13 图5 说明书附图 4/4 页 14 CN 111091000 A 14 。
- 内容关键字: 抽取 用户 细粒度 典型 意见 数据处理系统 方法
多功能信号采集控制器.pdf
用于汽车曲轴加工用表面打磨装置.pdf
金属锂锭包装装置.pdf
漏电检测设备.pdf
用于管件与端盖焊接的夹具.pdf
电池检测防爆机构.pdf
塑料造粒机用输送装置.pdf
可调路灯.pdf
用于保护电池及储存运输安全的熔断片.pdf
用于不锈钢开平机的可调限位装置.pdf
摆动脉冲出水结构及出水装置.pdf
车载充电器.pdf
隧道内部照明装置.pdf
抗冲击耐腐蚀风机叶片.pdf
装盒机入盒机构及装盒机.pdf
轨道集装箱门式起重机的运行机构.pdf
电极植入设备.pdf
阀门加工用尺寸检测装置.pdf
汽车地桩锁的防撞装置.pdf
污水处理用生态浮床.pdf
汽车散热器管路折弯工装.pdf
玻璃幕墙拼接装置.pdf
钢筋衍架楼承板防漏浆结构及楼承板.pdf
充电桩用防撞阻拦杆.pdf
电视音频测试装置.pdf
定位装夹设备及加工系统.pdf
基于BIM和AI大模型的工程进度管理方法及系统.pdf
基于4D毫米波雷达的目标航迹起始方法.pdf
基于多层级虚拟电厂的能量协调控制分配方法及系统.pdf
钻孔灌注桩清孔装置及其施工方法.pdf
建筑施工安全智能监控系统及方法.pdf
接插件到位检测方法、装置、设备及其介质.pdf
一种升降式旋转室外消火栓.pdf
框架结构T型连接柱.pdf
防静电地板吸板器.pdf
一种建筑用箱体或井口预留孔洞活动模具.pdf
速成拉建房屋.pdf
预制桥面板精轧螺纹钢筋弧形连接构造.pdf
一种内固定式伸缩门滑行导轨及伸缩门.pdf
多用途封井器.pdf
一种新型圆弧建筑模板紧固件.pdf
一种超实木防水组合踢脚线.pdf
电气柜前门板门锁装置.pdf
双人正杆器.pdf
一种纳米铝塑复合板.pdf
强磁打捞器.pdf
一种基于无刷直流电机的环卫车电动扫盘系统.pdf
一种可调节型门铰链.pdf
一种用于基桩竖向抗压静载试验的船筏式试验装置.pdf
免贴墙砖.pdf
一种聚氨酯仿石材防火保温装饰复合板.pdf