文本表示方法及装置.pdf

上传人:jo****n 文档编号:10494272 上传时间:2021-06-22 格式:PDF 页数:19 大小:537.71KB
收藏 版权申诉 举报 下载
文本表示方法及装置.pdf_第1页
第1页 / 共19页
文本表示方法及装置.pdf_第2页
第2页 / 共19页
文本表示方法及装置.pdf_第3页
第3页 / 共19页
文档描述:

《文本表示方法及装置.pdf》由会员分享,可在线阅读,更多相关《文本表示方法及装置.pdf(19页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010406112.2 (22)申请日 2020.05.14 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518044 广东省深圳市南山区高新区 科技中一路腾讯大厦35层 (72)发明人 李伟康 (74)专利代理机构 北京同达信恒知识产权代理 有限公司 11291 代理人 李娟 (51)Int.Cl. G06F 16/31(2019.01) G06F 40/30(2020.01) (54)发明名称 一种文本表示方法及装置 (57)摘要 本申请涉及计算机技术领域, 尤。

2、其涉及一种 文本表示方法及装置, 获得待处理文本中各个字 的字向量表示; 获得所述待处理文本中各个分词 的原词向量表示; 将所述各个字的字向量表示和 对应的各个分词的原词向量表示进行融合, 获得 所述各个分词的融合向量表示; 根据所述各个分 词的融合向量表示, 获得所述待处理文本的文本 向量表示, 这样, 将字词融合, 可以丰富文本表示 信息, 提高文本表示的准确性。 权利要求书2页 说明书11页 附图5页 CN 111581335 A 2020.08.25 CN 111581335 A 1.一种文本表示方法, 其特征在于, 包括: 获得待处理文本中各个字的字向量表示; 获得所述待处理文本中各。

3、个分词的原词向量表示; 将所述各个字的字向量表示和对应的各个分词的原词向量表示进行融合, 获得所述各 个分词的融合向量表示; 根据所述各个分词的融合向量表示, 获得所述待处理文本的文本向量表示。 2.如权利要求1所述的方法, 其特征在于, 将所述各个字的字向量表示和对应的各个分 词的原词向量表示进行融合, 获得所述各个分词的融合向量表示, 具体包括: 分别针对每个分词, 将分词对应的字的字向量表示进行融合处理, 获得各个分词对应 的中间向量表示; 分别针对每个分词, 将分词的原词向量表示和中间向量表示进行融合处理, 获得各个 分词的融合向量表示。 3.如权利要求2所述的方法, 其特征在于, 所。

4、述将分词对应的字的字向量表示进行融合 处理, 具体包括: 将分词对应的字的字向量表示, 进行以下一种或多种操作: 向量相减操作、 向量相乘操 作、 向量相加操作、 向量并连操作、 输入到神经网络模型进行向量融合操作。 4.如权利要求3所述的方法, 其特征在于, 获得各个分词对应的中间向量表示, 具体包 括: 若进行了一种操作, 则将所述各个分词对应的操作后的字向量表示, 作为对应分词的 中间向量表示; 若进行了至少两种操作, 则分别获得所述各个分词对应的各操作后的字向量表示, 并 分别将所述各个分词对应的各操作后的字向量表示, 进行并连操作, 获得对应分词的中间 向量表示。 5.如权利要求2所。

5、述的方法, 其特征在于, 所述将分词的原词向量表示和中间向量表示 进行融合处理, 包括: 将分词的原词向量表示和中间向量表示, 进行以下一种或多种操作: 向量相减操作、 向 量相乘操作、 向量相加操作、 向量并连操作、 张量内积计算操作。 6.如权利要求5所述的方法, 其特征在于, 所述获得各个分词的融合向量表示, 具体包 括: 若进行了一种操作, 则将所述各个分词对应的操作后的原词向量表示和中间向量表 示, 作为对应分词的融合向量表示; 若进行了至少两种操作, 则分别获得所述各个分词对应的操作后的原词向量表示和中 间向量表示, 并分别将所述各个分词对应的操作后的原词向量表示和中间向量表示, 。

6、进行 并连操作, 获得对应分词的融合向量表示。 7.如权利要求1-6任一项所述的方法, 其特征在于, 根据所述各个分词的融合向量表 示, 获得所述待处理文本的文本向量表示, 具体包括: 获得所述待处理文本对应的用户的用户画像特征信息; 根据所述各个分词的融合向量表示和所述用户画像特征信息, 获得所述待处理文本的 文本向量表示。 权利要求书 1/2 页 2 CN 111581335 A 2 8.如权利要求1-6任一项所述的方法, 其特征在于, 根据所述各个分词的融合向量表 示, 获得所述待处理文本的文本向量表示, 具体包括: 获得所述待处理文本的上下文多模态信息; 根据所述各个分词的融合向量表示。

7、和所述上下文多模态信息, 获得所述待处理文本的 文本向量表示。 9.一种文本表示装置, 其特征在于, 包括: 第一获得模块, 用于获得待处理文本中各个字的字向量表示; 第二获得模块, 用于获得所述待处理文本中各个分词的原词向量表示; 融合模块, 用于将所述各个字的字向量表示和对应的各个分词的原词向量表示进行融 合, 获得所述各个分词的融合向量表示; 第三获得模块, 用于根据所述各个分词的融合向量表示, 获得所述待处理文本的文本 向量表示。 10.如权利要求9所述的装置, 其特征在于, 所述融合模块具体用于: 分别针对每个分词, 将分词对应的字的字向量表示进行融合处理, 获得各个分词对应 的中间。

8、向量表示; 分别针对每个分词, 将分词的原词向量表示和中间向量表示进行融合处理, 获得各个 分词的融合向量表示。 11.如权利要求10所述的装置, 其特征在于, 所述融合模块具体用于: 将分词对应的字的字向量表示, 进行以下一种或多种操作: 向量相减操作、 向量相乘操 作、 向量相加操作、 向量并连操作、 输入到神经网络模型进行向量融合操作。 12.如权利要求10所述的装置, 其特征在于, 所述融合模块具体用于: 将分词的原词向量表示和中间向量表示, 进行以下一种或多种操作: 向量相减操作、 向 量相乘操作、 向量相加操作、 向量并连操作、 张量内积计算操作。 13.如权利要求9-12任一项所。

9、述的装置, 其特征在于, 所述第三获得模块具体用于: 获得所述待处理文本对应的用户的用户画像特征信息; 根据所述各个分词的融合向量表示和所述用户画像特征信息, 获得所述待处理文本的 文本向量表示。 14.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现权利要求1-8任一项所述方法的步 骤。 15.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序 被处理器执行时实现权利要求1-8任一项所述方法的步骤。 权利要求书 2/2 页 3 CN 111581335 A 3 一种文本表示方法及装置。

10、 技术领域 0001 本申请涉及计算机技术领域, 尤其涉及一种文本表示方法及装置。 背景技术 0002 文本表示方法指的是文本的向量化方法, 将文本表示为包含语义信息的向量有助 于进行分类、 检索和推荐等应用, 如何准确地进行文本表示是非常有必要的。 0003 相关技术中, 文本表示方法, 主要是直接以字或词为最小单元, 即元单元, 然后将 其转化为向量表示, 进而利用相关网络获得句子文本整体的向量表示, 但是相关技术中, 直 接采用一个字或词作为元单元来进行文本表示, 忽略了字词之间的信息, 并且单独的一个 字歧义也较大, 不能准确地表示文本信息。 发明内容 0004 本申请实施例提供一种文。

11、本表示方法及装置, 以提高文本表示的准确性。 0005 本申请实施例提供的具体技术方案如下: 0006 本申请一个实施例提供了一种文本表示方法, 包括: 0007 获得待处理文本中各个字的字向量表示; 0008 获得所述待处理文本中各个分词的原词向量表示; 0009 将所述各个字的字向量表示和对应的各个分词的原词向量表示进行融合, 获得所 述各个分词的融合向量表示; 0010 根据所述各个分词的融合向量表示, 获得所述待处理文本的文本向量表示。 0011 本申请另一个实施例提供了一种文本表示装置, 包括: 0012 第一获得模块, 用于获得待处理文本中各个字的字向量表示; 0013 第二获得模。

12、块, 用于获得所述待处理文本中各个分词的原词向量表示; 0014 融合模块, 用于将所述各个字的字向量表示和对应的各个分词的原词向量表示进 行融合, 获得所述各个分词的融合向量表示; 0015 第三获得模块, 用于根据所述各个分词的融合向量表示, 获得所述待处理文本的 文本向量表示。 0016 本申请另一个实施例提供了一种电子设备, 包括存储器、 处理器及存储在存储器 上并可在处理器上运行的计算机程序, 所述处理器执行所述程序时实现上述任一种文本表 示方法的步骤。 0017 本申请另一个实施例提供了一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程序被处理器执行时实现上述任一种文本。

13、表示方法的步骤。 0018 本申请实施例中, 获得待处理文本中各个字的字向量表示和各个分词的原词向量 表示, 并将各个字的字向量表示和对应的各个分词的原词向量表示进行融合, 获得各个分 词的融合向量表示, 进而根据各个分词的融合向量表示, 获得待处理文本的文本向量表示, 这样, 通过融合字词信息, 可以充分挖掘文本中字词信息, 并考虑字内词间的信息, 可以获 说明书 1/11 页 4 CN 111581335 A 4 得更加准确和信息丰富的元单元表示, 从而可以丰富文本的信息表示, 提高文本向量表示 的准确性。 附图说明 0019 图1为本申请实施例中文本表示方法的应用架构示意图; 0020 。

14、图2为本申请实施例中文本表示方法流程图; 0021 图3为本申请实施例中向量相减操作示意图; 0022 图4为本申请实施例中向量相乘操作示意图; 0023 图5为本申请实施例中向量相加操作示意图; 0024 图6为本申请实施例中向量并连操作示意图; 0025 图7为本申请实施例中通过RNN模型融合操作示意图; 0026 图8为本申请实施例中通过CNN模型融合操作示意图; 0027 图9为本申请实施例中通过前馈神经网络模型融合操作示意图; 0028 图10为本申请实施例中张量内积计算操作示意图; 0029 图11为本申请实施例中文本表示装置结构示意图; 0030 图12为本申请实施例中电子设备的。

15、结构示意图。 具体实施方式 0031 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本申请一部分实施例, 并不是全部的实施例。 基于 本申请中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例, 都属于本申请保护的范围。 0032 为便于对本申请实施例的理解, 下面先对几个概念进行简单介绍: 0033 短文本: 视频领域的文本长度过短的标题或评论, 也可以为其它应用领域中长度 较短的文本, 例如智能设备中的问答语句等, 本申请实施例中待处理文本主要是针对短文 本, 可以解决短文本信息不足的问题,。

16、 丰富短文本的信息表示, 当然并不仅限于短文本。 0034 字词融合: 表示充分挖掘和利用字和词的信息。 0035 元: 构成句子的最小单元, 例如字、 词。 0036 文本表示: 表示是文本的向量化, 将文本表示为包含语义信息的向量。 0037 人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控 制的机器模拟、 延伸和扩展人的智能, 感知环境、 获取知识并使用知识获得最佳结果的理 论、 方法、 技术及应用系统。 换句话说, 人工智能是计算机科学的一个综合技术, 它企图了解 智能的实质, 并生产出一种新的能以人类智能相似的方式做出反应的智能机器。。

17、 人工智能 也就是研究各种智能机器的设计原理与实现方法, 使机器具有感知、 推理与决策的功能。 0038 人工智能技术是一门综合学科, 涉及领域广泛, 既有硬件层面的技术也有软件层 面的技术。 人工智能基础技术一般包括如传感器、 专用人工智能芯片、 云计算、 分布式存储、 大数据处理技术、 操作/交互系统、 机电一体化等技术。 人工智能软件技术主要包括计算机 视觉技术、 语音处理技术、 自然语言处理技术以及机器学习/深度学习等几大方向。 0039 自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智 说明书 2/11 页 5 CN 111581。

18、335 A 5 能领域中的一个重要方向。 它研究能实现人与计算机之间用自然语言进行有效通信的各种 理论和方法。 自然语言处理是一门融语言学、 计算机科学、 数学于一体的科学。 因此, 这一领 域的研究将涉及自然语言, 即人们日常使用的语言, 所以它与语言学的研究有着密切的联 系。 自然语言处理技术通常包括文本处理、 语义理解、 机器翻译、 机器人问答、 知识图谱等技 术。 例如, 本申请实施例中主要涉及自然语言处理技术, 可以对待处理文本中进行字词切 分, 并对字或分词进行编码操作等, 进而将字词融合, 在融合处理时也可以采用神经网络模 型进行处理, 从而得到待处理文本的融合后的元单元表示, 。

19、对整个待处理文本进行建模, 获 得文本向量表示。 并且, 本申请实施例中, 还可以利用自然语言处理技术中的语句分类、 机 器翻译等技术, 获得待处理文本的文本向量表示后, 对待处理文本进行识别、 分类、 翻译生 成等操作。 0040 随着人工智能技术研究和进步, 人工智能技术在多个领域展开研究和应用, 例如 常见的智能家居、 智能穿戴设备、 虚拟助理、 智能音箱、 智能营销、 无人驾驶、 自动驾驶、 无人 机、 机器人、 智能医疗、 智能客服等, 随着技术的发展, 人工智能技术将在更多的领域得到应 用, 并发挥越来越重要的价值。 0041 本申请实施例提供的方案主要涉及人工智能的自然语言处理技。

20、术, 具体通过如下 实施例进行说明: 0042 文本的向量表示在分类、 检索、 推荐等业务应用是非常重要的, 相关技术中, 文本 表示方法主要是以字或词为元单元, 然后通过词典将其转化为独热(one-hot)编码形式或 借助word2vec等方式将其转化为稠密向量, 进而利用神经网络, 对句子进行整体建模, 获得 最终文本向量表示, 但是相关技术中直接采用一个字或词作为元单元来进行文本表示, 忽 略了字词之间的信息, 并且单独的一个字歧义也较大, 不能准确地表示文本信息, 例如, 一 个字可能是多个词的组成, 若用户单独的字作为一个元单元进行表示, 不能准确地表示当 前上下文信息, 尤其是针对。

21、短文本, 由于其内容有限, 充分挖掘字词间的融合信息是非常重 要的。 0043 因此针对上述问题, 本申请实施例中提供了一种新的文本表示方法, 获得待处理 文本中各个字的字向量表示和各个分词的原词向量表示, 并将各个字的字向量表示和对应 的各个分词的原词向量表示进行融合, 获得各个分词的融合向量表示, 进而根据各个分词 的融合向量表示, 获得待处理文本的文本向量表示, 这样, 结合字信息、 分词信息及其融合 信息, 获得待处理文本的元单元的向量表示, 即各个分词的融合向量表示, 丰富了元单元表 示信息, 进而最终获得整体的文本向量表示, 可以优化文本表示能力, 提高文本表示的准确 性和表示质量。

22、。 0044 参阅图1所示, 为本申请实施例中文本表示方法的应用架构示意图, 包括终端100、 服务器200。 0045 终端100可以是智能手机、 平板电脑、 便携式个人计算机、 台式计算机、 智能电视、 智能机器人等任何智能设备, 终端100上可以安装有各种应用程序(Application, APP), 例 如用户想要搜索视频, 通过终端100中的视频APP, 输入检索文本, 终端100可以将检索文本 发送给服务器200, 服务器200基于本申请实施例中的文本表示方法, 融合字词信息, 获得检 索文本的各个分词的融合向量表示, 并获得检索文本的文本向量表示, 进而根据检索文本 的文本向量表。

23、示, 检索匹配与之关联的视频, 并将检索后的视频返回给终端100, 终端100展 说明书 3/11 页 6 CN 111581335 A 6 示服务器200返回的视频, 这样, 由于检索文本表示更加准确, 进而也可以提高检索准确性 和效果。 0046 服务器200能够为终端100提供各种网络服务, 对于不同的应用程序, 服务器200可 以认为是相应的后台服务器, 其中, 服务器200可以是一台服务器、 若干台服务器组成的服 务器集群或云计算中心。 0047 终端100与服务器200之间可以通过互联网相连, 实现相互之间的通信。 可选地, 上 述的互联网使用标准通信技术和/或协议。 互联网通常为。

24、因特网、 但也可以是任何网络, 包 括但不限于局域网(Local Area Network, LAN)、 城域网(Metropolitan Area Network, MAN)、 广域网(Wide Area Network, WAN)、 移动、 有线或者无线网络、 专用网络或者虚拟专用 网络的任何组合。 在一些实施例中, 使用包括超文本标记语言(Hyper Text Mark-up Language, HTML)、 可扩展标记语言(Extensible Markup Language, XML)等的技术和/或格 式来代表通过网络交换的数据。 此外还可以使用诸如安全套接字层(Secure Soc。

25、ket Layer, SSL)、 传输层安全(Transport Layer Security, TLS)、 虚拟专用网络(Virtual Private Network, VPN)、 网际协议安全(Internet Protocol Security, IPsec)等常规加密 技术来加密所有或者一些链路。 在另一些实施例中, 还可以使用定制和/或专用数据通信技 术取代或者补充上述数据通信技术。 0048 值得说明的是, 本申请各实施例中文本表示方法可以由服务器200侧执行, 当然也 可以由终端100执行, 或者也可以由终端100和服务器200共同执行, 本申请实施例中并不进 行限制, 以由服。

26、务器200执行为例, 例如, 服务器200从终端100获取待处理文本, 确定待处理 文本中各个字的字向量表示和各个分词的原词向量表示, 并进行字词融合, 获得各个分词 的融合向量表示, 根据各个分词的融合向量表示, 获得待处理文本的文本向量表示, 进而可 以基于待处理文本的文本向量表示进行相关业务处理。 0049 需要说明的是, 本申请实施例中的应用架构图是为了更加清楚地说明本申请实施 例中的技术方案, 并不构成对本申请实施例提供的技术方案的限制, 并且也不仅限于短文 本的表示, 同时也不限于应用于视频、 智能客服、 翻译等业务领域, 但是对于其它的应用架 构和业务应用, 本申请实施例提供的技。

27、术方案对于类似的问题, 同样适用。 0050 本申请各个实施例中, 以文本表示方法应用于图1所示的应用架构为例进行示意 性说明。 0051 基于上述实施例, 参阅图2所示, 为本申请实施例中文本表示方法流程图, 该方法 以由服务器执行为例进行说明, 具体该方法包括: 0052 步骤200: 获得待处理文本中各个字的字向量表示。 0053 具体地, 将待处理文本进行分字处理, 并基于已训练的机器学习模型, 对各个字进 行编码, 将各个字映射为包含上下文信息的字向量表示。 0054 其中, 机器学习模型可以为word2vec模型、 golve模型等, 本申请实施例中并不进 行限制, 对机器学习模型。

28、进行预训练, 利用预训练方法得到的字向量表, 将各个字映射为字 向量表示。 word2vec模型可以利用上下文信息, 将字或分词映射到K维向量空间, 获得字或 分词的向量表示, 而glove模型更倾向于进行分析前后语境之间的共现关系, 通过共现关系 抽象出词向量, 共现表示共同出现, 其实就是看一个词有没有在另一个词的附近出现, 所谓 的附近, 其实就是一个移动窗口的概念, 定义窗口的半径(从中心词到边缘的距离)后, 确定 说明书 4/11 页 7 CN 111581335 A 7 方圆多少范围内出现词的个数, 就是共现。 0055 步骤210: 获得待处理文本中各个分词的原词向量表示。 00。

29、56 执行步骤210时, 具体包括: 采用分词工具, 将待处理文本进行分词, 获得待处理文 本的各个分词, 并基于已训练的机器学习模型, 对各个分词进行编码, 获得各个分词的原词 向量表示。 0057 其中, 分词工具可以为结巴(jieba)分词工具, jieba分词主要是基于统计词典, 构 造一个前缀词典, 并利用前缀词典对文本进行切分, 得到所有的切分可能, 根据切分位置, 构造一个有向无环图, 然后通过动态规划算法, 计算得到最大概率路径, 即获得最终的切分 形式。 0058 并且编码的机器学习模型也可以采用word2vec模型、 golve模型等, 本申请实施例 中并不进行限制, 对机。

30、器学习模型进行预训练, 利用预训练方法得到的词向量表, 将各个分 词映射为包含上下文信息的词向量。 0059 当然, 本申请实施例对于获得待处理文本中各个字的字向量表示和各个分词的原 词向量表示, 其具体实现方式并不进行限制, 可以采用相关技术进行处理。 0060 步骤220: 将各个字的字向量表示和对应的各个分词的原词向量表示进行融合, 获 得各个分词的融合向量表示。 0061 执行步骤220时, 具体包括: 0062 S1、 分别针对每个分词, 将分词对应的字的字向量表示进行融合处理, 获得各个分 词对应的中间向量表示。 0063 S2、 分别针对每个分词, 将分词的原词向量表示和中间向量。

31、表示进行融合处理, 获 得各个分词的融合向量表示。 0064 也就是说, 本申请实施例中, 主要目的是融合字词信息, 先将分词对应的字向量表 示进行融合, 获得一个基于字向量表示的分词的新的中间向量表示, 然后将原词向量表示 和中间向量表示进行融合, 获得分词的最终的融合向量表示, 这样, 可以充分挖掘文本中字 和分词信息, 丰富元单元信息表示, 提高元单元表示准确性。 0065 步骤230: 根据各个分词的融合向量表示, 获得待处理文本的文本向量表示。 0066 本申请实施例中, 获得待处理文本的各个分词的融合向量表示后, 各个分词的融 合向量表示即作为元单元表示, 进而获得待处理文本的文本。

32、向量表示, 具体本申请实施例 中提供了一种可能的实施方式, 将各个分词的融合向量表示输入到已训练的神经网络模 型, 获得待处理文本的文本向量表示。 0067 其中, 神经网络模型可以为循环神经网络(Recurrent Neural Network, RNN)、 卷 积神经网络(Convolutional Neural Network, CNN)、 循环神经网络、 注意力网络、 图神经网 络等, 本申请实施例中并不进行限制, 基于神经网络模型对待处理文本进行建模, 以获得待 处理文本的整体文本向量表示。 0068 本申请实施例中, 获得待处理文本中各个字的字向量表示和各个分词的原词向量 表示, 。

33、并将各个字的字向量表示和对应的各个分词的原词向量表示进行融合, 获得各个分 词的融合向量表示, 进而根据所述各个分词的融合向量表示, 获得所述待处理文本的文本 向量表示, 这样, 将字词融合, 可以充分挖掘文本中字词信息, 获得更加准确丰富的元表示, 进而丰富文本的信息表示, 尤其是针对短文本信息不足的问题, 能够更加精准地进行文本 说明书 5/11 页 8 CN 111581335 A 8 表示。 0069 基于上述实施例, 下面对本申请实施例中上述步骤220的中间向量表示和融合向 量表示的实现方式进行具体说明, 具体分为以下两部分: 0070 第一部分: 分别针对每个分词, 将分词对应的字。

34、的字向量表示进行融合处理, 获得 各个分词对应的中间向量表示。 0071 具体地: S1、 将分词对应的字的字向量表示进行融合处理, 具体包括: 将分词对应 的字的字向量表示, 进行以下一种或多种操作: 向量相减操作、 向量相乘操作、 向量相加操 作、 向量并连操作、 输入到神经网络模型进行向量融合操作。 0072 例如, 参阅图3所示, 为本申请实施例中向量相减操作示意图, 将分词对应的字的 字向量表示进行向量相减操作, 即将分词对应的字向量表示的对应元素逐个相减, 获得相 减后的向量, 例如, 分词 “你好” , 对应的字分别为 “你” 和 “好” ,“你” 对应的字向量表示为a1, “好。

35、” 对应的字向量表示为a2, 将a1和a2对应元素进行相减, 获得一个新的向量。 0073 例如, 参阅图4所示, 为本申请实施例中向量相乘操作示意图, 将分词对应的字的 字向量表示进行向量相乘操作, 即向量对应元素逐个相乘, 获得一个新的向量。 0074 例如, 参阅图5所示, 为本申请实施例中向量相加操作示意图, 将分词对应的字的 字向量表示进行向量相加操作, 即向量对应元素逐个相加, 获得一个新的向量。 0075 例如, 参阅图6所示, 为本申请实施例中向量并连操作示意图, 将分词对应的字的 字向量表示进行向量并连操作, 即将向量首尾并连在一起, 获得一个新的向量, 例如, 分词 “你好。

36、” , 对应的字分别为 “你” 和 “好” ,“你” 对应的字向量表示为a1,“好” 对应的字向量表示 为a2, 将a1和a2之间并连, 获得的新的向量为a1a2。 0076 其中, 输入已训练的神经网络模型, 具体地, 分别将各个分词对应的字的字向量表 示, 输入到已训练的神经网络, 获得对应分词的一个新的向量。 0077 本申请实施例中, 神经网络模型可以为RNN、 CNN或前馈神经网络等, 并不进行限 制, 通过神经网络模型进行建模, 可以将字向量表示进行融合, 获得分词基于字向量表示的 新的向量。 0078 例如, 参阅图7所示, 为本申请实施例中通过RNN模型融合操作示意图, 将分词。

37、对应 的字的字向量表示输入RNN模型, 输出融合后的向量, 即该分词的新的向量。 0079 例如, 参阅图8所示, 为本申请实施例中通过CNN模型融合操作示意图, 将分词对应 的字的字向量表示输入CNN模型, 输出融合后的向量, 即该分词的新的向量。 0080 例如, 参阅图9所示, 为本申请实施例中通过前馈神经网络模型融合操作示意图, 将分词对应的字的字向量表示输入前馈神经网络模型, 输出融合后的向量, 即该分词的新 的向量。 0081 需要说明的是, 一个分词对应的字可能为多个, 并不仅限于上述示例中的两个, 并 且通常一个分词对应的字是大于两个的, 而神经网络模型对于输入为多个向量进行建。

38、模时 效果更好, 因此, 对分词对应的字的字向量表示进行融合处理, 可以采用神经网络模型, 并 且向量相减、 向量相加、 向量相乘和向量并连对多个向量进行操作均是适用的, 可以将多个 向量融合为一个向量, 从而实现对分词对应的字的信息进行融合。 0082 当然, 本申请实施例中并不仅限于上述几种融合操作处理, 也可以采用其它方式 进行融合, 本申请实施例中并不进行限制。 说明书 6/11 页 9 CN 111581335 A 9 0083 S2、 获得各个分词对应的中间向量表示。 0084 具体可以分为两种情况: 0085 第一种情况: 若进行了一种操作, 则将各个分词对应的操作后的字向量表示。

39、, 作为 对应分词的中间向量表示。 0086 也就是说, 本申请实施例中可以仅采用一种操作, 来实现字信息融合, 例如仅采用 向量相加操作, 则将分词对应的字的字向量表示, 进行向量相加操作, 相加操作后获得向 量, 即作为对应分词的中间向量表示。 0087 第二种情况: 若进行了至少两种操作, 则分别获得各个分词对应的各操作后的字 向量表示, 并分别将各个分词对应的各操作后的字向量表示, 进行并连操作, 获得对应分词 的中间向量表示。 0088 即本申请实施例中还可以对字向量表示融合处理时, 同时采用多种操作, 最后再 将多种操作后获得的向量并连融合, 例如, 采用了向量相加和向量相减, 则。

40、通过向量相加操 作后获得一个新的向量, 通过向量相减后获得一个新的向量, 然后将这两个新的向量进行 并连操作, 从而获得对应分词的中间向量表示。 0089 另外若一个分词对应的字只有一个, 例如对待处理文本 “我爱天空” , 进行分词后, 获得的各个分词为 “我”“爱”“天空” , 则 “我” 和 “爱” 分词对应的字只有一个, 则可以直接将 字 “我” 和 “爱” 对应的字向量表示, 作为对应分词 “我” 和 “爱” 的中间向量表示。 0090 第二部分: 分别针对每个分词, 将分词的原词向量表示和中间向量表示进行融合 处理, 获得各个分词的融合向量表示。 0091 具体地: 0092 S1。

41、、 将分词的原词向量表示和中间向量表示进行融合处理, 具体包括: 将分词的原 词向量表示和中间向量表示, 进行以下一种或多种操作: 向量相减操作、 向量相乘操作、 向 量相加操作、 向量并连操作、 张量内积计算操作。 0093 其中, 分词的原词向量表示和中间向量表示进行融合处理时, 向量相减操作、 向量 相乘操作、 向量相加操作和向量并连操作和上述图3-图6的原理是相同的, 只是这里的原词 向量表示和中间向量表示进行融合处理是针对两个向量。 0094 并且, 针对张量内积计算操作, 例如参阅图10所示, 为本申请实施例中张量内积计 算操作示意图, 将分词的原词向量表示和中间向量表示, 进行张。

42、量内积计算, 计算结果即为 分词的融合向量表示。 0095 需要说明的是, 由于分词的原词向量表示和中间向量表示, 是针对两个向量的融 合处理, 而张量内积通常针对两个向量计算比较简单效率更高, 因此比较适用于分词的融 合向量表示的计算, 并且向量相减操作、 向量相乘操作、 向量相加操作、 向量并连操作对于 两个向量计算也是适用的。 0096 并且, 本申请实施例中并不仅限于上述几种融合操作处理, 也可以采用其它方式 对原词向量表示和中间向量表示进行融合操作, 本申请实施例中并不进行限制。 0097 S2、 获得各个分词的融合向量表示。 0098 具体也可以分为两种情况: 0099 第一种情况。

43、: 若进行了一种操作, 则将各个分词对应的操作后的原词向量表示和 中间向量表示, 作为对应分词的融合向量表示。 说明书 7/11 页 10 CN 111581335 A 10 0100 第二种情况: 若进行了至少两种操作, 则分别获得各个分词对应的操作后的原词 向量表示和中间向量表示, 并分别将各个分词对应的操作后的原词向量表示和中间向量表 示, 进行并连操作, 获得对应分词的融合向量表示。 0101 即本申请实施例中可以采用一种或多种操作方式, 对原词向量表示和中间向量表 示进行融合处理, 本申请实施例中并不进行限制。 0102 这样, 本申请实施例中, 采用多种机制进行信息融合, 先将分词。

44、的字融合, 然后将 字融合后的中间向量表示和原词向量表示进行融合, 获得最终分词的融合向量表示, 可以 充分挖掘文本中字词信息, 能够获得更加丰富的元单元表示, 提高元单元表示的准确性。 0103 进一步地, 针对不同的应用场景, 还可以融合其它信息来获得待处理文本的文本 向量表示, 以丰富文本的信息表示, 具体地本申请实施例中提供了几种可能的实施方式: 0104 第一种实施方式: 根据各个分词的融合向量表示, 获得待处理文本的文本向量表 示, 具体包括: 0105 获得待处理文本对应的用户的用户画像特征信息; 根据各个分词的融合向量表示 和用户画像特征信息, 获得待处理文本的文本向量表示。 。

45、0106 例如, 视频领域的短文本往往与其所对应的视频内容相关, 并且不同用户对同一 个视频会有不同的态度, 例如喜欢或不喜欢, 这样在对短文本进行向量表示时, 可以将用户 画像信息融合进短文本的表示中, 其中, 用户画像特征信息例如为年龄、 职业、 爱好、 性别 等, 本申请实施例中并不进行限制。 0107 具体地例如, 获得用户画像特征信息, 通过神经网络模型建模后, 可以将各种用户 画像特征信息融合, 获得融合后向量, 然后再与各个分词的融合向量表示同时输入神经网 络模型, 进而获得最终待处理文本的文本向量表示。 0108 这样, 待处理文本的文本向量表示中融合了用户画像特征信息, 因此。

46、可构建个性 化的文本表示方法, 进而在用户搜索视频或对平台用户进行推荐时可以提供更准确的内 容, 优化用户体验。 0109 第二种实施方式: 根据各个分词的融合向量表示, 获得待处理文本的文本向量表 示, 具体包括: 0110 获得待处理文本的上下文多模态信息; 根据各个分词的融合向量表示和上下文多 模态信息, 获得待处理文本的文本向量表示。 0111 其中, 上下文多模态信息, 可以为图片、 视频、 音频等, 本申请实施例中并不进行限 制。 0112 本申请实施例中, 可以考虑待处理文本的上下文环境中所存在的多模态信息, 例 如将上下文多模态信息、 各个分词的融合向量表示, 都输入到神经网络。

47、模型中进行建模, 从 而输出最终待处理文本的文本向量表示, 这样, 文本向量表示中还融合了上下文多模态信 息, 可以进一步丰富文本的向量化表示。 0113 进一步地, 基于上述实施例, 下面采用具体应用场景进行说明, 本申请实施例中的 文本表示方法可以应用在不同的业务领域, 例如视频推荐、 分类、 生成、 识别、 检索等, 并不 进行限制, 这样, 本申请实施例中获得待处理文本的文本向量表示后, 还提供了一种可能的 实施方式, 根据待处理文本的文本向量表示和指定业务目标, 对待处理文本进行相应业务 处理。 说明书 8/11 页 11 CN 111581335 A 11 0114 这样, 由于本。

48、申请实施例中的文本表示方法, 可以丰富文本表示信息, 提高文本表 示的准确性和表示质量, 进而基于最终的文本向量表示, 进行相关业务处理时, 可以优化相 关业务的文本的识别和生成能力, 还可以提高文本分类、 搜索和推荐准确性和效果等, 例 如, 在视频相关搜索或推荐时使用本申请实施例中的文本表示方法来获得文本的文本向量 表示, 对相关内容进行聚类, 从而可以提高平台展示的内容质量, 降低无关视频内容对用户 观看兴趣的干扰。 0115 基于同一发明构思, 本申请实施例中还提供了一种文本表示装置, 该文本表示装 置可以是硬件结构、 软件模块、 或硬件结构加软件模块。 基于上述实施例, 参阅图11所。

49、示, 本 申请实施例中文本表示装置, 具体包括: 0116 第一获得模块1100, 用于获得待处理文本中各个字的字向量表示; 0117 第二获得模块1110, 用于获得所述待处理文本中各个分词的原词向量表示; 0118 融合模块1120, 用于将所述各个字的字向量表示和对应的各个分词的原词向量表 示进行融合, 获得所述各个分词的融合向量表示; 0119 第三获得模块1130, 用于根据所述各个分词的融合向量表示, 获得所述待处理文 本的文本向量表示。 0120 可选的, 将所述各个字的字向量表示和对应的各个分词的原词向量表示进行融 合, 获得所述各个分词的融合向量表示时, 融合模块1120具体。

50、用于: 0121 分别针对每个分词, 将分词对应的字的字向量表示进行融合处理, 获得各个分词 对应的中间向量表示; 0122 分别针对每个分词, 将分词的原词向量表示和中间向量表示进行融合处理, 获得 各个分词的融合向量表示。 0123 可选的, 所述将分词对应的字的字向量表示进行融合处理时, 融合模块1120具体 用于: 0124 将分词对应的字的字向量表示, 进行以下一种或多种操作: 向量相减操作、 向量相 乘操作、 向量相加操作、 向量并连操作、 输入到神经网络模型进行向量融合操作。 0125 可选的, 获得各个分词对应的中间向量表示时, 融合模块1120具体用于: 0126 若进行了一。

展开阅读全文
内容关键字: 文本 表示 方法 装置
关于本文
本文标题:文本表示方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10494272.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1