数据处理方法及装置.pdf

上传人:柴****2 文档编号:10295438 上传时间:2021-06-17 格式:PDF 页数:19 大小:814.99KB
收藏 版权申诉 举报 下载
数据处理方法及装置.pdf_第1页
第1页 / 共19页
数据处理方法及装置.pdf_第2页
第2页 / 共19页
数据处理方法及装置.pdf_第3页
第3页 / 共19页
文档描述:

《数据处理方法及装置.pdf》由会员分享,可在线阅读,更多相关《数据处理方法及装置.pdf(19页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010589941.9 (22)申请日 2020.06.24 (71)申请人 北京奇艺世纪科技有限公司 地址 100080 北京市海淀区海淀北一街2号 鸿城拓展大厦10、 11层 (72)发明人 张轩玮 (74)专利代理机构 北京华夏泰和知识产权代理 有限公司 11662 代理人 沈园园刘蔓莉 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 。

2、G06K 9/00(2006.01) G06F 16/78(2019.01) (54)发明名称 数据处理方法及装置 (57)摘要 本发明实施例提供了一种数据处理方法及 装置, 方法包括: 获取用于生成内容标签的多媒 体数据和用于对多媒体数据进行描述的文本信 息; 确定文本信息中每个分词的词向量; 对多媒 体数据进行特征提取, 得到多媒体数据对应的图 像特征向量; 通过自注意力机制对词向量和图像 特征向量之间的全局联系, 并得到全局向量信 息; 将图像特征向量作为解码器的第一输入之 后, 将全局向量信息依次输入解码器, 以得到在 图像特征向量指导下对各个全局向量进行解码 后的输出向量; 确定与输。

3、出向量对应的内容标 签。 本申请可以在文本信息缺乏全面或关键信息 的情况下, 通过使用图像特征, 使内容标签能够 结合多媒体数据包含的信息, 从而达到提高标签 准确率的优点。 权利要求书2页 说明书12页 附图4页 CN 111767727 A 2020.10.13 CN 111767727 A 1.一种数据处理方法, 其特征在于, 包括: 获取用于生成内容标签的多媒体数据和用于对所述多媒体数据进行描述的文本信息; 其中, 所述多媒体数据包括: 视频或图像; 确定所述文本信息中每个分词的词向量; 对所述多媒体数据进行特征提取, 得到所述多媒体数据对应的图像特征向量; 通过自注意力机制获取所述词。

4、向量和图像特征向量之间的全局联系, 根据所述全局联 系分别得到与所述词向量和图像特征向量对应全局向量信息; 将所述图像特征向量作为解码器的第一输入之后, 将所述全局向量信息依次输入所述 解码器, 以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的输出向量; 确定与所述输出向量对应的所述内容标签。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述文本信息中每个分词的词向 量, 包括: 对所述文本信息进行分词处理, 得到构成所述文本信息的所述分词; 根据所述分词以及预设的标签词得到对应的词表; 根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述词向量。 3.根据权利。

5、要求1所述的方法, 其特征在于, 所述对所述多媒体数据进行特征提取, 得 到所述多媒体数据对应的图像特征向量, 包括: 将所述多媒体数据输入预设的深度神经网络中; 获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到的所 述图像特征向量。 4.根据权利要求1所述的方法, 其特征在于, 所述通过自注意力机制对所述词向量和图 像特征向量之间的全局联系, 根据所述全局联系得到与所述词向量和图像特征向量对应全 局向量信息, 包括: 对所述词向量进行向量维度调整得到调维词向量, 对所述图像特征向量进行向量维度 调整得到所述调维图像特征向量; 将各个所述调维词向量与所述调维图像特征向量输入。

6、编码器进行拼接融合后, 获得各 个所述调维词向量与所述调维图像特征向量的对应的向量信息; 通过所述自注意力机制得到各个所述向量信息之间的全局联系; 根据所述全局联系对所述向量信息进行调整, 得到所述全局向量信息。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述图像特征向量作为解码器的第 一输入之后, 将所述全局向量信息依次输入所述解码器, 以得到在所述图像特征向量指导 下对各个所述全局向量进行解码后的输出向量, 包括: 将所述图像特征向量输入所述解码器作为第一输入; 确定将所述全局向量信息按序输入至所述解码器的次序信息; 确定所述图像特征向量对初始全局向量信息的第一影响权重, 所述初。

7、始全局向量信息 为第一个输入所述解码器的全局向量信息; 按照所述第一影响权重, 根据所述图像特征向量对所述初始全局向量进行调整, 得到 调整后初始全局向量; 所述初始全局向量为所述解码器对初始全局向量信息进行解码后得 到; 权利要求书 1/2 页 2 CN 111767727 A 2 确定所述调整后初始全局向量对所述次序信息中的下一全局向量信息的第二影响权 重, 并根据所述调整后初始全局向量、 下一全局向量信息和第二影响权重得到调整后的下 一全局向量; 按此循环直至得到所有调整后的全局向量; 根据所述调整后的全局向量得到所述输出向量。 6.根据权利要求2所述的方法, 其特征在于, 所述确定与所。

8、述输出向量对应的所述内容 标签, 包括: 确定所述词表中各个词语的候选词向量; 分别确定与各个所述输出向量的第一距离最近的所述候选词向量; 将第一距离最近的所述候选词向量对应的词语作为所述输出向量对应的所述内容标 签。 7.根据权利要求6所述的方法, 其特征在于, 在根据所述词向量和所述图像特征向量得 到对应的所述内容标签之后, 还包括: 获取所述内容标签的总数; 在所述内容标签的总数大于预设的上限阈值时, 获取对应于同一所述内容标签的所述 候选词向量与所述输出向量之间的第二距离; 确定所述内容标签与第二距离之间的对应关系; 按照所述第二距离由小至大对所述内容标签进行排列; 按照所述对应关系删。

9、除排列次序大于所述上限阈值的所述内容标签。 8.一种数据处理装置, 其特征在于, 包括: 获取模块, 用于获取用于生成内容标签的多媒体数据和用于对所述多媒体数据进行描 述的文本信息; 其中, 所述多媒体数据包括: 视频或图像; 确定模块, 用于确定所述文本信息中每个分词的词向量; 向量获取模块, 用于对所述多媒体数据进行特征提取, 得到所述多媒体数据对应的图 像特征向量; 全局模块, 用于通过自注意力机制对所述词向量和图像特征向量之间的全局联系, 根 据所述全局联系分别得到与所述词向量和图像特征向量对应全局向量信息; 解码模块, 用于将所述图像特征向量作为解码器的第一输入之后, 将所述全局向量。

10、信 息依次输入所述解码器, 以得到在所述图像特征向量指导下对各个所述全局向量进行解码 后的输出向量; 标签确定模块, 用于确定与所述输出向量对应的所述内容标签。 9.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器, 通信接口, 存储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执行存储器上所存放的程序时, 实现权利要求1-7任一所述的方法步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1-7中任一所述的方法。 权利要求书 2/2 页 3 CN 111。

11、767727 A 3 数据处理方法及装置 技术领域 0001 本发明涉及人工智能技术领域, 特别是涉及一种数据处理方法及装置。 背景技术 0002 目前对数据打标签的方法主要基于文本, 但是, 由于视频内容能够表现的特征很 多, 仅通过文本难以完全的表征出视频中的所有信息。 当文本内容仅包括若干个词组时, 词 组所能提供的信息有限, 若不结合具体的视频内容, 很有可能该文本内容是无法表征出主 要的信息, 甚至很难从中解析得到有用的信息。 0003 针对上述问题, 现有技术也提供了相关的解决方法, 但是现有技术中提供的图文 融合的方法大多基于在输入端将两者的特征进行简单拼接使用, 这样只在编码器。

12、使用, 只 是得到了更多的特征, 而文本与视频之间仍然特征之间相互独立, 效果有限, 在解码器不能 充分利用视频等多媒体数据的内容。 0004 针对相关技术中存在的无法利用多媒体数据得到准确标签的问题, 目前尚未提供 有效的解决方案。 发明内容 0005 本发明实施例的目的在于提供一种数据处理方法及装置, 以解决相关技术中无法 利用多媒体数据得到准确标签的问题。 具体技术方案如下: 0006 在本发明实施的第一方面, 首先提供了一种数据处理方法, 包括: 0007 获取用于生成内容标签的多媒体数据和用于对所述多媒体数据进行描述的文本 信息; 其中, 所述多媒体数据包括: 视频或图像; 0008。

13、 确定所述文本信息中每个分词的词向量; 0009 对所述多媒体数据进行特征提取, 得到所述多媒体数据对应的图像特征向量; 0010 通过自注意力机制获取所述词向量和图像特征向量之间的全局联系, 根据所述全 局联系分别得到与所述词向量和图像特征向量对应全局向量信息; 0011 将所述图像特征向量作为解码器的第一输入之后, 将所述全局向量信息依次输入 所述解码器, 以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的输出向 量; 0012 确定与所述输出向量对应的所述内容标签。 0013 可选的, 如前述的方法, 所述确定所述文本信息中每个分词的词向量, 包括: 0014 对所述文本信息进。

14、行分词处理, 得到构成所述文本信息的所述分词; 0015 根据所述分词以及预设的标签词得到对应的词表; 0016 根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述词向量。 0017 可选的, 如前述的方法, 所述对所述多媒体数据进行特征提取, 得到所述多媒体数 据对应的图像特征向量, 包括: 0018 将所述多媒体数据输入预设的深度神经网络中; 说明书 1/12 页 4 CN 111767727 A 4 0019 获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到 的所述图像特征向量。 0020 可选的, 如前述的方法, 所述通过自注意力机制对所述词向量和图像特。

15、征向量之 间的全局联系, 根据所述全局联系分别得到与所述词向量和图像特征向量对应全局向量信 息, 包括: 0021 对所述词向量进行向量维度调整得到调维词向量, 对所述图像特征向量进行向量 维度调整得到所述调维图像特征向量; 0022 将各个所述调维词向量与所述调维图像特征向量输入编码器进行拼接融合后, 获 得各个所述调维词向量与所述调维图像特征向量的对应的向量信息; 0023 通过自注意力机制得到各个所述向量信息之间的全局联系; 0024 根据所述全局联系对所述向量信息进行调整, 得到所述全局向量信息。 0025 可选的, 如前述的方法, 所述将所述图像特征向量作为解码器的第一输入之后, 将。

16、 所述全局向量信息依次输入所述解码器, 以得到在所述图像特征向量指导下对各个所述全 局向量进行解码后的输出向量, 包括: 0026 将所述图像特征向量输入所述解码器作为第一输入; 0027 确定将所述全局向量信息按序输入至所述解码器的次序信息; 0028 确定所述图像特征向量对初始全局向量信息的第一影响权重, 所述初始全局向量 信息为第一个输入所述解码器的全局向量信息; 0029 按照所述第一影响权重, 根据所述图像特征向量对所述初始全局向量进行调整, 得到调整后初始全局向量; 所述初始全局向量为解码器对初始全局向量信息进行解码后得 到; 0030 确定所述调整后初始全局向量对所述次序信息中的。

17、下一全局向量信息的第二影 响权重, 并根据所述调整后初始全局向量、 下一全局向量信息和第二影响权重得到调整后 的下一全局向量; 按此循环直至得到所有调整后的全局向量; 0031 根据调整后的所述全局向量得到所述输出向量。 0032 可选的, 如前述的方法, 所述确定与所述输出向量对应的所述内容标签, 包括: 0033 确定所述词表中各个词语的候选词向量; 0034 分别确定与各个所述输出向量的第一距离最近的所述候选词向量; 0035 将第一距离最近的所述候选词向量对应的词语作为所述输出向量对应的所述内 容标签。 0036 可选的, 如前述的方法, 在根据所述词向量和所述图像特征向量得到对应的所。

18、述 内容标签之后, 还包括: 0037 获取所述内容标签的总数; 0038 在所述内容标签的总数大于预设的上限阈值时, 获取对应于同一所述内容标签的 所述候选词向量与所述输出向量之间的第二距离; 0039 确定所述内容标签与第二距离之间的对应关系; 0040 按照所述第二距离由小至大对所述内容标签进行排列; 0041 按照所述对应关系删除排列次序大于所述上限阈值的所述内容标签。 0042 在本发明实施的第二方面, 还提供了一种数据处理装置, 包括: 说明书 2/12 页 5 CN 111767727 A 5 0043 获取模块, 用于获取用于生成内容标签的多媒体数据和用于对所述多媒体数据进 行。

19、描述的文本信息; 其中, 所述多媒体数据包括: 视频或图像; 0044 确定模块, 用于确定所述文本信息中每个分词的词向量; 0045 向量获取模块, 用于对所述多媒体数据进行特征提取, 得到所述多媒体数据对应 的图像特征向量; 0046 全局模块, 用于通过自注意力机制对所述词向量和图像特征向量之间的全局联 系, 根据所述全局联系分别得到与所述词向量和图像特征向量对应全局向量信息; 0047 解码模块, 用于将所述图像特征向量作为解码器的第一输入之后, 将所述全局向 量信息依次输入所述解码器, 以得到在所述图像特征向量指导下对各个所述全局向量进行 解码后的输出向量; 0048 标签确定模块,。

20、 用于确定与所述输出向量对应的所述内容标签。 0049 可选的, 如前述的装置, 所述确定模块包括: 0050 分词单元, 用于对所述文本信息进行分词处理, 得到构成所述文本信息的所述分 词; 0051 词表单元, 用于根据所述分词以及预设的标签词得到对应的词表; 0052 词向量单元, 用于根据预先训练得到的词向量模型以及所述词表确定每个所述分 词的所述词向量。 0053 可选的, 如前述的装置, 所述向量获取模块包括: 0054 第一输入单元, 用于将所述多媒体数据输入预设的深度神经网络中; 0055 提取单元, 用于获取所述深度神经网络中的特征提取层对所述多媒体数据进行特 征提取后得到的。

21、所述图像特征向量。 0056 可选的, 如前述的装置, 所述全局模块包括: 0057 调维单元, 用于对所述词向量进行向量维度调整得到调维词向量, 对所述图像特 征向量进行向量维度调整得到所述调维图像特征向量; 0058 融合单元, 用于将各个所述调维词向量与所述调维图像特征向量输入编码器进行 拼接融合后, 获得各个所述调维词向量与所述调维图像特征向量的对应的向量信息; 0059 自注意力单元, 用于通过所述自注意力机制得到各个所述向量信息之间的全局联 系; 0060 调整单元, 用于根据所述全局联系对所述向量信息进行调整, 得到所述全局向量 信息。 0061 可选的, 如前述的装置, 所述解。

22、码模块包括: 0062 第二输入单元, 用于将所述图像特征向量输入所述解码器作为第一输入; 0063 次序单元, 用于确定将所述全局向量信息按序输入至所述解码器的次序信息; 0064 第一确定单元, 用于确定所述图像特征向量对初始全局向量信息的第一影响权 重, 所述初始全局向量信息为第一个输入所述解码器的全局向量信息; 0065 影响单元, 用于按照所述第一影响权重, 根据所述图像特征向量对所述初始全局 向量进行调整, 得到调整后初始全局向量; 所述初始全局向量为所述解码器对初始全局向 量信息进行解码后得到; 确定所述调整后初始全局向量对所述次序信息中的下一全局向量 信息的第二影响权重, 并根。

23、据所述调整后初始全局向量、 下一全局向量信息和第二影响权 说明书 3/12 页 6 CN 111767727 A 6 重得到调整后的下一全局向量; 按此循环直至得到所有调整后的全局向量; 0066 输出向量单元, 用于根据所述调整后的全局向量得到所述输出向量。 0067 可选的, 如前述的装置, 所述标签确定模块包括: 0068 候选词向量确定单元, 用于确定所述词表中各个词语的候选词向量; 0069 词向量筛选单元, 用于分别确定与各个所述输出向量的第一距离最近的所述候选 词向量; 0070 标签确定单元, 用于将第一距离最近的所述候选词向量对应的词语作为所述输出 向量对应的所述内容标签。 。

24、0071 可选的, 如前述的装置, 还包括: 标签筛选模块; 所述标签筛选模块包括: 0072 总数确定单元, 用于获取所述内容标签的总数; 0073 筛选单元, 用于在所述内容标签的总数大于预设的上限阈值时, 获取对应于同一 所述内容标签的所述候选词向量与所述输出向量之间的第二距离; 0074 对应关系单元, 用于确定所述内容标签与第二距离之间的对应关系; 0075 排列单元, 用于按照所述第二距离由小至大对所述内容标签进行排列; 0076 删除单元, 用于按照所述对应关系删除排列次序大于所述上限阈值的所述内容标 签。 0077 在本发明实施的又一方面, 还提供了一种计算机可读存储介质, 所。

25、述计算机可读 存储介质中存储有指令, 当其在计算机上运行时, 使得计算机执行上述任一所述的方法。 0078 在本发明实施的又一方面, 还提供了一种包含指令的计算机程序产品, 当其在计 算机上运行时, 使得计算机执行上述任一所述的方法。 0079 本发明实施例提供的一种数据处理方法及装置, 其中方法包括: 获取用于生成内 容标签的多媒体数据和用于对所述多媒体数据进行描述的文本信息; 其中, 所述多媒体数 据包括: 视频或图像; 确定所述文本信息中每个分词的词向量; 对所述多媒体数据进行特征 提取, 得到所述多媒体数据对应的图像特征向量; 通过自注意力机制对所述词向量和图像 特征向量之间的全局联系。

26、, 根据所述全局联系分别得到与所述词向量和图像特征向量对应 全局向量信息; 将所述图像特征向量作为解码器的第一输入之后, 将所述全局向量信息依 次输入所述解码器, 以得到在所述图像特征向量指导下对各个所述全局向量进行解码后的 输出向量; 确定与所述输出向量对应的所述内容标签。 通过所述词向量和所述图像特征得 到对应的所述内容标签, 可以在文本信息缺乏全面或关键信息的情况下, 通过使用图像特 征, 使内容标签在生成时能够结合多媒体数据本身包含的信息, 从而最终达到提高标签的 召回和准确率的优点。 附图说明 0080 为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施例或现 有技术。

27、描述中所需要使用的附图作简单地介绍。 0081 图1为本发明实施例中一种数据处理方法的流程图; 0082 图2为本发明另一实施例中一种数据处理方法的流程图; 0083 图3为本发明另一实施例中一种的数据处理方法的流程图; 0084 图4为本发明另一实施例中一种数据处理方法的流程图; 说明书 4/12 页 7 CN 111767727 A 7 0085 图5为本发明实施例中一种数据处理装置的框图; 0086 图6为本申请实施例提供的一种电子设备的结构示意图。 具体实施方式 0087 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行描述。 0088 如图1所示为本申请一种实施例中数。

28、据处理方法, 包括如下所述步骤S1至S6: 0089 步骤S1.获取用于生成内容标签的多媒体数据和用于对多媒体数据进行描述的文 本信息; 其中, 多媒体数据包括: 视频或图像。 0090 具体的, 多媒体数据可以包括但不限于: 图片、 视频或动图文件中的一种或多种; 文本信息可以是: 一个或多个关键词、 长句或文章等等; 由于本申请是用于对包含多媒体数 据及文本信息的数据进行关键词提取, 并进行打标签, 因此文本信息与多媒体数据是属于 同一个数据的信息; 举例来说: 当多媒体数据是一段视频时, 则文本信息可以是用于对该段 视频进行内容概述的文本内容。 0091 步骤S2.确定文本信息中每个分词。

29、的词向量。 0092 具体的, 不管是机器学习还是深度学习本质上都是对数字的数字, 词向量做的事 情就是将词语映射到向量空间里, 并用向量来表示。 从概念上讲, 它涉及从每个单词一维的 空间到具有更低维度的连续向量空间的数学嵌入。 生成这种映射的方法包括神经网络, 单 词共生矩阵的降维, 概率模型, 可解释的知识库方法, 和术语的显式表示单词出现的背景。 0093 确定文本信息中每个分词的词向量可以通过诸如word2vec、 glove、 ELMo、 BERT等 语言模型方法实现。 0094 步骤S3.对多媒体数据进行特征提取, 得到多媒体数据对应的图像特征向量。 0095 具体的, 对多媒体。

30、数据进行特征提取, 是用于识别得到该多媒体数据中的关键信 息, 且可以通过CNN等神经网络模型对多媒体数据进行特征提取, 进而得到对应的图像特征 信息。 0096 步骤S4.通过自注意力机制获取词向量和图像特征向量之间的全局联系, 根据全 局联系分别得到与词向量和图像特征向量对应全局向量信息。 0097 通过自注意力机制得到的全局联系可以捕捉各个特征的内部相关性, 进而使得到 的全局向量信息可以更加准确地表征的具体含义, 进而可以有效提高标签结果的准确性。 0098 步骤S5.将图像特征向量作为解码器的第一输入之后, 将全局向量信息依次输入 解码器, 以得到在图像特征向量指导下对各个全局向量进。

31、行解码后的输出向量。 0099 具体的, 在现有技术中, 解码器进行解码时会参考前一解码的信息对当前的待解 码信息进行处理, 但是, 当第一个需要进行解码信息输入解码器时, 由于不存在前序的已解 码信息, 因此会将前序输入解码器的信息记为0, 因此, 第一个需要进行解码的信息不存在 对其产生影响的其他信息, 本实施例中, 将图像特征向量作为解码器的第一个输入, 进而可 以通过图像特征向量指导接下来对全局向量信息的解码过程, 使得多媒体数据能够进一步 对最终标签的生成产生影响。 0100 其中, 解码器可以用于对编码器的输出结果进行解码, 并进行输出, 得到输出向 量。 一般的, 解码器是一种循。

32、环神经网络。 0101 步骤S6.确定与输出向量对应的内容标签。 说明书 5/12 页 8 CN 111767727 A 8 0102 由于通过前述步骤, 虽然各个输出向量都是通过输入编码器的调维词向量与调维 图像特征向量得到, 但是在通过前述步骤处理之后, 又与输入编码器的调维词向量与调维 图像特征向量存在差异, 因此无法直接得到对应的词语作为内容标签, 需要通过输入向量 在词表中进行选择得到。 0103 采用本实施例中的方法, 可以在文本信息缺乏全面或关键信息的情况下, 通过使 用图像特征, 进而能够结合多媒体数据本身包含的信息, 从而最终达到提高标签的召回和 准确率的优点。 0104 在。

33、一些实施例中, 如前述的方法, 确定文本信息中每个分词的词向量, 包括如下所 述步骤A1至A3: 0105 步骤A1.对文本信息进行分词处理, 得到构成文本信息的分词; 0106 步骤A2.根据分词以及预设的标签词得到对应的词表; 0107 步骤A3.根据预先训练得到的词向量模型以及词表确定每个分词的词向量。 0108 具体的, 对文本信息进行分词处理是用于将一个文本拆分为多个分词, 举例来说: 当文本信息为 “奇葩音效师坑惨演员为配合音效也是拼了演个戏容易吗” , 对其进行分词处 理后, 得到的分词包括:“奇葩” 、“音效” 、“师” 、“坑惨” 、“演员” 、“为” 、“配合” 、“音效”。

34、 、“也” 、 “是” 、“拼” 、“了” 、“演” 、“个” 、“戏” 、“容易” 、“吗” 。 0109 预设的标签词可以是预先选择得到的词组, 且所述词表中的词包括标签词以及根 据文本信息进行分词处理得到的分词。 0110 其中, 预先训练得到的词向量模型可以是word2vec模型(用于计算词向量的工 具); 因此得到每个分词的词向量可以通过训练得到的word2vec模型进行确定。 0111 具体的, 在确定词表以及模型之后, 即可确定词表中每个分词的词向量。 进一步 的, 可以对词表中的词分别进行随机初始化成512维的向量作为每个分词的词向量和标签 向量(标签词的词向量)。 0112 。

35、通过本实施例中的方法, 可以通过词向量得到文本信息中各个分词之间的联系, 可以有效获取每个分词在文本信息中的语义, 进而可以有效提高标签结果的准确性。 0113 如图2所示, 在一些实施例中, 如前述的方法, 所述步骤S3对多媒体数据进行特征 提取, 得到多媒体数据对应的图像特征向量, 包括如下所述步骤S31和S32: 0114 步骤S31.将多媒体数据输入预设的深度神经网络中; 0115 步骤S32.获取深度神经网络中的特征提取层对多媒体数据进行特征提取后得到 的图像特征向量。 0116 具体的, 深度神经网络具有对多媒体数据进行特征提取的能力, 因此将多媒体数 据输入深度神经网络可以得到对。

36、应的图像特征向量。 0117 其中一种可选的实现方法为: 将多媒体数据输入xception(深度可分离卷积)模型 中, 由于xception模型倒数第二层的提取的图像特征最为丰富, 因此提取模型倒数第二层 2048维的向量作为图像特征。 0118 采用本实施例中的方法, 通过深度神经网络中的特征提取层对视频信息进行特征 提取可以提取得到丰富的视频特征向量, 以得到视频提供的更多信息。 0119 如图3所示, 在一些实施例中, 如前述的方法, 所述步骤S4通过自注意力机制对所 述词向量和图像特征向量之间的全局联系, 根据全局联系分别得到与词向量和图像特征向 说明书 6/12 页 9 CN 111。

37、767727 A 9 量对应全局向量信息, 包括如下所述步骤S41至S44: 0120 步骤S41.对词向量进行向量维度调整得到调维词向量, 对图像特征向量进行向量 维度调整得到调维图像特征向量。 0121 具体的, 在前述实施例的基础上, 由于分词的词向量为512维, 而图像特征向量为 2048维; 由于两者的维度各不相同, 因此两者无法进行拼接融合, 需要对两者的维度进行统 一; 可选的, 由于图像特征向量的维度更高, 可以对其进行降维处理, 通过全连接网络降纬 度, 得到512维的调维图像特征向量。 0122 步骤S42.将各个调维词向量与调维图像特征向量输入编码器进行拼接融合后, 获 。

38、得各个调维词向量与调维图像特征向量的对应的向量信息; 0123 具体的, 编码器可以对输入的数据进行编码, 一般的, 编码器为一种循环神经网 络。 之所以对调维词向量与调维图像特征向量输入编码器进行拼接融合,是为了使其构成 上下文关系, 以便于找到各个调维词向量与调维图像特征向量之间的全局联系, 且实现方 法可以是: 将调维图像特征向量作为一个词向量和各个调维词向量放到同一等级; 而向量 信息即为调维词向量与调维图像特征向量输入编码器即可快速实现拼接融合的目的。 0124 步骤S43.通过自注意力机制得到各个向量信息之间的全局联系。 0125 具体的, 注意力机制模仿了生物观察行为的内部过程,。

39、 即一种将内部经验和外部 感觉对齐从而增加部分区域的观察精细度的机制。 注意力机制可以快速提取稀疏数据的重 要特征, 因而被广泛用于自然语言处理任务, 特别是机器翻译。 而自注意力机制是注意力机 制的改进, 其减少了对外部信息的依赖, 更擅长捕捉数据或特征的内部相关性。 因此, 通过 自注意力机制, 可以得到各个向量信息之间的全局联系。 0126 步骤S44.根据全局联系对向量信息进行调整, 得到全局向量信息; 比如存在向量 a、 b、 c; 其中a和b,a和c的权重分别为a1,a2,那么a对应的全局向量信息: a1*b+a2*c,b, c类 似。 0127 综上所述, 采用本实施例中的方法,。

40、 通过先将各个调维词向量与调维图像特征向 量进行拼接融合, 再通过自注意力机制可以捕捉各个向量信息的内部相关性, 可以更加准 确地分析得到在文本信息和多媒体数据的具体含义, 进而可以有效提高标签结果的准确 性。 0128 如图4所示, 在一些实施例中, 如前述的方法, 步骤S5将图像特征向量作为解码器 的第一输入之后, 将全局向量信息依次输入解码器, 以得到在图像特征向量指导下对各个 全局向量进行解码后的输出向量, 包括如下所述步骤S51至S56: 0129 步骤S51.将图像特征向量输入解码器作为第一输入。 0130 具体的, 在现有技术中, 解码器进行解码时会参考前一解码的信息对当前的待解。

41、 码信息进行处理, 但是, 当第一个需要进行解码信息输入解码器时, 由于不存在前序的已解 码信息, 因此会将前序输入解码器的信息记为0, 因此, 第一个需要进行解码的信息不存在 对其产生影响的其他信息, 本实施例中, 将图像特征向量作为解码器的第一个输入, 进而可 以指导接下来对全局向量信息的解码过程, 使得多媒体数据能够进一步对最终标签的生成 产生影响。 0131 步骤S52.确定将全局向量信息按序输入至解码器的次序信息。 0132 具体的, 一般各个全局向量信息是逐个输入解码器中的, 次序信息可以根据文本 说明书 7/12 页 10 CN 111767727 A 10 信息中各个分词的次序。

42、得到; 举例的: 由于全局向量信息对应有特定的调维词向量, 而每个 调维词向量都有对应的词向量, 且每个词向量对应有分词, 因此, 可以通过分词的次序确定 词向量对应的各个全局向量信息的次序, 最后只需再确定调维图像特征向量对应的次序 (可以置于首位或末尾), 即可得到次序信息。 0133 步骤S53.确定图像特征向量对初始全局向量信息的第一影响权重, 初始全局向量 信息为第一个输入解码器的全局向量信息。 图像在全局向量信息上进行融合, 比如图像a对 于全局向量b,c,图像a对全局向量b的影响为a1,c的影响为a2,那么全局信息为a1*b+a2*c。 0134 具体的, 一般通过解码器确定图像。

43、特征向量对初始全局向量信息的第一影响权 重。 0135 步骤S54.按照第一影响权重, 根据图像特征向量对初始全局向量进行调整, 得到 调整后初始全局向量; 初始全局向量为解码器对初始全局向量信息进行解码后得到。 0136 具体的, 根据图像特征向量对初始全局向量信息进行调整, 可以是: 在得到第一影 响权重后, 假定第一影响权重为t, 则当图像特征向量信息为M, 初始全局向量信息为N, 则调 整后初始全局向量信息可以是N(1-t)+Mt。 0137 步骤S55.确定调整后初始全局向量对次序信息中的下一全局向量信息的第二影 响权重, 并根据调整后初始全局向量、 下一全局向量信息和第二影响权重得。

44、到调整后的下 一全局向量; 按此循环直至得到所有调整后的全局向量。 0138 具体的, 按照步骤S54中方法, 依次循环即可得到所有在图像特征向量指导下生成 的向量(即调整后的全局向量), 具体实现方法可以参照步骤S454中所述, 在此不再进行赘 述。 0139 步骤S56.根据调整后的全局向量得到输出向量。 0140 具体的, 可以将按照前述步骤调整后的全局向量直接输出并作为输出向量。 0141 综上所述, 采用本实施例中的方法, 可以在图像特征向量的引导下对各个全局向 量信息进行解码, 进而可以将图像特征向量对应的特征进一步融入之后解码得到的输出向 量中, 以使输出向量中能够获取更多多媒体。

45、数据中携带的特征; 体现多媒体数据中携带的 更多有效信息。 0142 在一些实施例中, 如前述的方法, 步骤S6确定与输出向量对应的内容标签, 包括如 下所述步骤S61至S63: 0143 步骤S61.确定词表中各个词语的候选词向量; 0144 步骤S62.分别确定与各个输出向量的第一距离最近的候选词向量; 0145 步骤S63.将第一距离最近的候选词向量对应的词语作为输出向量对应的内容标 签。 0146 具体的, 先确定词表中的每个词语对应的候选词向量; 然后确定每一个输出向量 与词表中各个候选词向量之间的第一距离(一般的, 第一距离可以是余弦距离), 并从中确 定与每一个输出向量第一距离最。

46、近的候选词向量; 最后, 将与各个输出向量的第一距离最 近的候选词向量对应的词语作为该输出向量对应的内容标签。 0147 综上所述, 采用本实施例中的方法, 可以捕捉各个候选词向量和输出向量的相关 性, 进而更加准确地对通过文本信息和多媒体数据得到的输出向量进行分析得到其中的具 体含义, 进而可以有效提高标签结果的准确性。 说明书 8/12 页 11 CN 111767727 A 11 0148 在一些实施例中, 如前述的方法, 在根据词向量和图像特征向量得到对应的内容 标签之后, 还包括如下所述步骤B1至B5: 0149 步骤B1.获取内容标签的总数。 0150 具体的, 本步骤即用于确定步。

47、骤S4得到的所有内容标签的总数。 0151 步骤B2.在内容标签的总数大于预设的上限阈值时, 获取对应于同一内容标签的 候选词向量与输出向量之间的第二距离。 0152 具体的, 上限阈值可以根据实际情况进行设定, 并且在内容标签总数大于上线阈 值时, 需要对内容标签进行舍弃, 以防止内容标签过多, 影响简洁性; 根据前述实施例中的 步骤可知, 将与各个输出向量的第一距离最近的候选词向量对应的词语作为该输出向量对 应的内容标签, 因此, 内容标签、 候选词向量与输出向量之间是有唯一对应关系的; 0153 步骤B3.确定内容标签与第二距离之间的对应关系; 0154 具体的, 在步骤B3确定了内容标。

48、签、 候选词向量与输出向量之间是有唯一对应关 系之后, 由于候选词向量与输出向量都是确定的, 因此, 其两者之间的第二距离也是确定 的, 因而能够得到内容标签与第二距离之间的对应关系。 0155 步骤B4.按照第二距离由小至大对内容标签进行排列; 0156 步骤B5.按照对应关系删除排列次序大于上限阈值的内容标签。 0157 具体的, 在按照第二距离由小至大对内容标签进行排列之后, 即可确定第二距离 的排列次序; 由于距离越远, 说明两个词语之间的相关性越低, 因此只保留排列在上限阈值 之内的内容标签, 可以保障内容标签语义表达的准确性。 0158 如图5所示, 在本发明实施的第二方面, 还提。

49、供了一种数据处理装置, 包括: 0159 获取模块1, 用于获取用于生成内容标签的多媒体数据和用于对多媒体数据进行 描述的文本信息; 多媒体数据包括: 视频或图像; 0160 确定模块2, 用于确定文本信息中每个分词的词向量; 0161 向量获取模块3, 用于对多媒体数据进行特征提取, 得到多媒体数据对应的图像特 征向量; 0162 全局模块4, 用于通过自注意力机制对所述词向量和图像特征向量之间的全局联 系, 根据全局联系分别得到与词向量和图像特征向量对应全局向量信息; 0163 解码模块5, 用于将所述图像特征向量作为解码器的第一输入之后, 将所述全局向 量信息依次输入所述解码器, 以得到。

50、在所述图像特征向量指导下对各个所述全局向量进行 解码后的输出向量; 0164 标签确定模块6, 用于确定与输出向量对应的内容标签。 0165 获取模块, 用于获取用于生成内容标签的多媒体数据和用于对多媒体数据进行描 述的文本信息; 其中, 多媒体数据包括: 视频信息和/或图像信息; 0166 确定模块, 用于确定文本信息中每个分词的词向量; 0167 向量获取模块, 用于对多媒体数据进行特征提取, 得到多媒体数据对应的图像特 征向量; 0168 全局模块, 用于通过自注意力机制对词向量和图像特征向量之间的全局联系, 根 据全局联系分别得到与词向量和图像特征向量对应全局向量信息; 0169 解码。

展开阅读全文
内容关键字: 数据处理 方法 装置
关于本文
本文标题:数据处理方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10295438.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1