视频情感片段的识别方法及装置.pdf

上传人:龙脉 文档编号:10109136 上传时间:2021-06-04 格式:PDF 页数:14 大小:693.88KB
收藏 版权申诉 举报 下载
视频情感片段的识别方法及装置.pdf_第1页
第1页 / 共14页
视频情感片段的识别方法及装置.pdf_第2页
第2页 / 共14页
视频情感片段的识别方法及装置.pdf_第3页
第3页 / 共14页
文档描述:

《视频情感片段的识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《视频情感片段的识别方法及装置.pdf(14页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010645824.X (22)申请日 2020.07.07 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 陈恩红徐童曹卫张琨 吕广弈何明武晗 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 尹秀 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/62(2006.01) G06F 16/35(2019.01) G06F 40/242(2020.01) (54)发明名。

2、称 一种视频情感片段的识别方法及装置 (57)摘要 本发明公开了一种视频情感片段的识别方 法, 包括: 确定待分析视频中各个情感弹幕的弹 幕情感标签; 对所述待分析视频进行分割, 得到 各个待分析视频片段; 依据每一个待分析视频片 段中的各个弹幕情感标签, 计算各个待分析视频 片段的片段情感向量和情感熵; 依据所述片段情 感向量和所述情感熵识别所述各个待分析视频 片段中的情感片段。 上述的识别方法中, 将待分 析视频分割成多个待分析视频片段, 计算各个待 分析视频片段的片段情感向量和情感熵; 依据弹 幕得到的所述片段的片段情感向量和所述情感 熵识别所述各个待分析视频片段中的情感片段, 缩短了情。

3、感片段的识别周期, 避免了由于人工标 识情感标签标注时间长, 导致情感片段识别周期 长的问题。 权利要求书2页 说明书10页 附图1页 CN 111860237 A 2020.10.30 CN 111860237 A 1.一种视频情感片段的识别方法, 其特征在于, 包括: 确定待分析视频中各个情感弹幕的弹幕情感标签; 对所述待分析视频进行分割, 得到各个待分析视频片段; 依据每一个待分析视频片段中的各个弹幕情感标签, 计算各个待分析视频片段的片段 情感向量和情感熵; 依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。 2.根据权利要求1所述的方法, 其特征在于, 确定待分。

4、析视频中各个情感弹幕的弹幕情 感标签, 包括: 获取所述待分析视频的各个弹幕; 对所述各个弹幕进行筛选, 得到各个情感弹幕; 依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。 3.根据权利要求2所述的方法, 其特征在于, 依据预设的神经网络模型确定每个情感弹 幕的弹幕情感标签, 包括: 确定每个情感弹幕的目标语义表示, 其中, 所述目标语义表示由对应情感弹幕的细粒 度语义表示和粗粒度语义表示进行拼接得到; 确定每个情感弹幕产生时刻的场景图像数据的视觉向量表征; 将所述目标语义表示和所述视觉向量表征传递给所述预设的弹幕情感识别神经网络 模型, 得到对应情感弹幕的情感标签。 4.根据权利要求。

5、1所述的方法, 其特征在于, 对所述待分析视频进行分割, 得到各个待 分析视频片段, 包括: 确定所述待分析视频中各个帧的视觉语义; 依次比较相邻帧的视觉语义, 判断所述相邻帧的视觉语义的差异度是否大于预设的差 异度阈值; 若是, 将所述相邻帧作为切分点进行切分, 得到各个待分析视频片段。 5.根据权利要求4所述的方法, 其特征在于, 还包括: 获取所述相邻帧弹幕语义; 依据所述弹幕语义对所述切分点进行修正。 6.根据权利要求1所述的方法, 其特征在于, 依据所述片段情感向量和所述情感熵识别 所述各个待分析视频片段中的情感片段, 包括: 判断所述情感熵是否小于预设的情感熵阈值; 若是, 判定当。

6、前待分析视频片段包含一种情感, 或; 若否, 判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比例阈 值; 若是, 判定所述当前待分析视频片段包含一种情感, 或, 若否, 判定所述当前待分析视 频判断包含两种情感。 7.一种视频情感片段的识别装置, 其特征在于, 包括: 确定模块, 用于确定待分析视频中各个情感弹幕的弹幕情感标签; 分割模块, 用于对所述待分析视频进行分割, 得到各个待分析视频片段; 计算模块, 用于依据每一个待分析视频片段中的各个弹幕情感标签, 计算各个待分析 权利要求书 1/2 页 2 CN 111860237 A 2 视频片段的片段情感向量和情感熵; 识别模。

7、块, 用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中 的情感片段。 8.根据权利要求7所述的装置, 其特征在于, 所述确定模块包括: 获取单元, 用于获取所述待分析视频的各个弹幕; 筛选单元, 用于对所述各个弹幕进行筛选, 得到各个情感弹幕; 标签确定单元, 用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。 9.根据权利要求7所述的装置, 其特征在于, 所述分割模块包括: 语义确定单元, 用于确定所述待分析视频中各个帧的视觉语义; 第一判断单元, 用于依次比较相邻帧的视觉语义, 判断所述相邻帧的视觉语义的差异 度是否大于预设的差异度阈值; 切分单元, 用于若是, 将。

8、所述相邻帧作为切分点进行切分, 得到各个待分析视频片段。 10.根据权利要求7所述的装置, 其特征在于, 所述识别模块包括: 第二判断单元, 用于判断所述情感熵是否小于预设的情感熵阈值; 第一判定单元, 用于若是, 判定当前待分析视频片段包含一种情感, 或; 第三判断单元, 用于若否, 判断当前片段情感向量中的最大分量与次大分量的比值是 否大于预设的比例阈值; 第二判定单元, 用于若是, 判定所述当前待分析视频片段包含一种情感, 或, 若否, 判定 所述当前待分析视频判断包含两种情感。 权利要求书 2/2 页 3 CN 111860237 A 3 一种视频情感片段的识别方法及装置 技术领域 0。

9、001 本发明涉及人工智能技术领域, 尤其涉及一种视频情感片段的识别方法及装置。 背景技术 0002 随着多媒体技术的发展, 多媒体视频的数据量爆发增长, 吸引了大量用户, 人们倾 向于看视频来缓解压力和无聊, 看视频已成为满足人们情感需求的一种新方式, 而视频巨 大的规模和用户有限的时间之间存在矛盾, 观众有时只想看视频的部分情感片段, 而非整 个视频。 因此有必要对视频进行与时间同步的情感标签(五类情感: 喜、 惊、 不喜、 悲、 惧), 识 别视频中的情感片段, 更好地满足观众的个性化情感需求。 0003 该工作的首要挑战是视频缺乏时序情感标签, 目前主要通过人工对视频中的每一 帧标注情。

10、感标签, 基于标注的情感标签对情感片段进行识别, 由于人工标注情感标签标注 时间长, 导致情感片段识别周期长。 发明内容 0004 有鉴于此, 本发明提供了一种视频情感片段的识别方法及装置, 用以解决现有技 术中目前主要通过人工对视频中的每一帧标注情感标签, 基于标注的情感标签对情感片段 进行识别, 由于人工标注情感标签标注时间长, 导致情感片段识别周期长的问题, 具体方案 如下: 0005 一种视频情感片段的识别方法, 包括: 0006 确定待分析视频中各个情感弹幕的弹幕情感标签; 0007 对所述待分析视频进行分割, 得到各个待分析视频片段; 0008 依据每一个待分析视频片段中的各个弹幕。

11、情感标签, 计算各个待分析视频片段的 片段情感向量和情感熵; 0009 依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片 段。 0010 上述的方法, 可选的, 确定待分析视频中各个情感弹幕的弹幕情感标签, 包括: 0011 获取所述待分析视频的各个弹幕; 0012 对所述各个弹幕进行筛选, 得到各个情感弹幕; 0013 依据预设的神经网络模型确定每个情感弹幕的弹幕情感标签。 0014 上述的方法, 可选的, 依据预设的神经网络模型确定每个情感弹幕的弹幕情感标 签, 包括: 0015 确定每个情感弹幕的目标语义表示, 其中, 所述目标语义表示由对应情感弹幕的 细粒度语义表示。

12、和粗粒度语义表示进行拼接得到; 0016 确定每个情感弹幕产生时刻的场景图像数据的视觉向量表征; 0017 将所述目标语义表示和所述视觉向量表征传递给所述预设的神经网络模型, 得到 对应情感弹幕的弹幕情感标签。 说明书 1/10 页 4 CN 111860237 A 4 0018 上述的方法, 可选的, 对所述待分析视频进行分割, 得到各个待分析视频片段, 包 括: 0019 确定所述待分析视频中各个帧的视觉语义; 0020 依次比较相邻帧的视觉语义, 判断所述相邻帧的视觉语义的差异度是否大于预设 的差异度阈值; 0021 若是, 将所述相邻帧作为切分点进行切分, 得到各个待分析视频片段。 0。

13、022 上述的方法, 可选的, 还包括: 0023 获取所述相邻帧弹幕语义; 0024 依据所述弹幕语义, 对所述切分点进行修正。 0025 上述的方法, 可选的, 依据所述片段情感向量和所述情感熵, 识别所述各个待分析 视频片段中的情感片段, 包括: 0026 判断所述情感熵是否小于预设的情感熵阈值; 0027 若是, 判定当前待分析视频片段包含一种情感, 或; 0028 若否, 判断当前片段情感向量中的最大分量与次大分量的比值是否大于预设的比 例阈值; 0029 若是, 判定所述当前待分析视频片段包含一种情感, 或, 若否, 判定所述当前待分 析视频判断包含两种情感。 0030 7、 一种。

14、视频情感片段的识别装置, 其特征在于, 包括: 0031 确定模块, 用于确定待分析视频中各个情感弹幕的弹幕情感标签; 0032 分割模块, 用于对所述待分析视频进行分割, 得到各个待分析视频片段; 0033 计算模块, 用于依据每一个待分析视频片段中的各个弹幕情感标签, 计算各个待 分析视频片段的片段情感向量和情感熵; 0034 识别模块, 用于依据所述片段情感向量和所述情感熵识别所述各个待分析视频片 段中的情感片段。 0035 上述的装置, 可选的, 所述确定模块包括: 0036 获取单元, 用于获取所述待分析视频的各个弹幕; 0037 筛选单元, 用于对所述各个弹幕进行筛选, 得到各个情。

15、感弹幕; 0038 标签确定单元, 用于依据预设的神经网络模型确定每个情感弹幕的弹幕情感标 签。 0039 上述的装置, 可选的, 所述分割模块包括: 0040 语义确定单元, 用于确定所述待分析视频中各个帧的视觉语义; 0041 第一判断单元, 用于依次比较相邻帧的视觉语义, 判断所述相邻帧的视觉语义的 差异度是否大于预设的差异度阈值; 0042 切分单元, 用于若是, 将所述相邻帧作为切分点进行切分, 得到各个待分析视频片 段。 0043 上述的装置, 可选的, 所述识别模块包括: 0044 第二判断单元, 用于判断所述情感熵是否小于预设的情感熵阈值; 0045 第一判定单元, 用于若是,。

16、 判定当前待分析视频片段包含一种情感, 或; 0046 第三判断单元, 用于若否, 判断当前片段情感向量中的最大分量与次大分量的比 说明书 2/10 页 5 CN 111860237 A 5 值是否大于预设的比例阈值; 0047 第二判定单元, 用于若是, 判定所述当前待分析视频片段包含一种情感, 或, 若否, 判定所述当前待分析视频判断包含两种情感。 0048 与现有技术相比, 本发明包括以下优点: 0049 本发明公开了一种视频情感片段的识别方法, 包括: 确定待分析视频中各个情感 弹幕的弹幕情感标签; 对所述待分析视频进行分割, 得到各个待分析视频片段; 依据每一个 待分析视频片段中的各。

17、个弹幕情感标签, 计算各个待分析视频片段的片段情感向量和情感 熵; 依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。 上 述的识别方法中, 将待分析视频分割成多个待分析视频片段, 计算各个待分析视频片段的 片段情感向量和情感熵; 依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述 各个待分析视频片段中的情感片段, 缩短了情感片段的识别周期, 避免了由于人工标识情 感标签标注时间长, 导致情感片段识别周期长的问题。 0050 当然, 实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。 附图说明 0051 为了更清楚地说明本发明实施例或现有技术中的技术方案,。

18、 下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以 根据这些附图获得其他的附图。 0052 图1为本申请实施例公开的一种视频情感片段的识别方法流程图; 0053 图2为本申请实施例公开的一种视频情感片段的识别装置结构框图。 具体实施方式 0054 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有。

19、做出创造性劳动前提下所获得的所有其他 实施例, 都属于本发明保护的范围。 0055 对所公开的实施例的上述说明, 使本领域专业技术人员能够实现或使用本发明。 对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的, 本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。 因此, 本发明 将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。 0056 本发明公开了一种视频情感片段的识别方法及装置, 应用于对视频中的情感片段 进行识别的过程, 其中, 所述情感片段包括: 喜、 惊、 不喜、 悲、 惧五类情感, 现。

20、有技术中, 采用 人工标注情感标签, 基于情感标签对视频中的情感片段进行识别, 但是由于人工标注情感 标签的标注时间长、 导致识别的周期长, 本发明实施例中提供了一种视频情感片段的识别 方法用于解决上述问题, 许多视频分享平台广泛存在名为 “弹幕” 的时间同步评论, 它是观 众观影的即时感受, 蕴含丰富的情感表达, 与视频情感发展一致, 可用于视频情感分析, 因 此, 所述识别方法基于弹幕对待分析视频进行识别, 所述识别方法的执行流程如图1所示, 说明书 3/10 页 6 CN 111860237 A 6 包括步骤: 0057 S101、 确定待分析视频中各个情感弹幕的弹幕情感标签; 0058。

21、 本发明实施例中, 获取所述待分析视频各个弹幕, 由于弹幕是视频用户的即时感 受, 并非所有的观众均参与了整个视频的弹幕互动, 与视频语义和视频情感无关的打卡弹 幕或签到弹幕经常出现, 因此, 所述各个弹幕的主题比较松散, 语义噪音较多, 优选的, 先进 行去噪处理, 本发明根据各个观众的发文数目甄别并删除无关的打卡弹幕或签到弹幕, 得 到各个情感弹幕。 0059 进一步的, 依据预设的神经网络模型确定每个情感弹幕的情感标签, 其中, 所述预 设的神经网络模型为弹幕情感模型, 所述弹幕情感模型需要预先进行训练, 所述弹幕情感 模型的训练过程如下: 0060 首先构建训练数据集, 从不包含情感标。

22、签的弹幕数据集C中构造一个带情感标签 的弹幕情感数据集Ce, 基于Ce训练所述弹幕情感模型。 考虑到人工标注的高成本, 弹幕情感 数据集Ce的情感标签通过二阶段词匹配方法进行获取, 其基本思想建立在弹幕的情感表达 十分常见这一事实基础之上。 弹幕蕴含丰富的情感表达, 具有显式情感表达的弹幕可通过 两阶段情感词典匹配方法进行自动情感识别。 第一阶段是通过一个融合了通用情感词典和 弹幕情感词典的综合情感极性词典, 对所有的视频弹幕进行情感极性识别, 挑选出蕴含显 式情感表达的、 能识别出正负情感极性的弹幕; 第二阶段是对阶段一获得的具有正负情感 极性的弹幕, 利用细粒度情感词典, 进行细粒度情感识。

23、别(五类情感: 喜、 惊、 不喜、 悲、 惧), 通过两个阶段的情感词典匹配方法, 最终获得一个含有情感标签的情感弹幕。 弹幕数据集C 和情感弹幕数据集Ce的数学表示如下所示: 0061 C(C1,T1,I1),K(Ci,Ti,Ii),K(CN,TN,IN) (1) 0062 0063 其中, 弹幕数据集C中的任意元素(Ci,Ti,Ii)分别表示Ti时刻对应的弹幕Ci和视频 关键帧的场景图像数据Ii。 情感弹幕数据集Ce中的任意元素分别表示时 刻对应的弹幕和视频关键帧的场景图像数据以及弹幕对应的五分类情感标签 N和M分别表示弹幕文本的句子数目和情感弹幕文本的句子数目。 0064 本发明实施例中。

24、, 基于所述情感弹幕数据集Ce训练所述弹幕情感模型, 其中, 所述 弹幕情感模型的输入为情感弹幕数据集Ce中的原始数据, 任意一个元素为 即: 时刻对应的弹幕文本和情感标签文本以及此时的视频关键帧的视觉数据信息 输入数据的表征过程如下: 利用预训练语言模型Bert得到弹幕文本的句向量表征 和词向量表征利用预训练语言模型Bert得到弹幕情感标签的句向量表征利用 现有的深度网络模型VGG处理视频关键帧的视觉图像信息抽取VGG模型的最后一个卷 积层的结果作为的向量表征相关公式如下: 0065 说明书 4/10 页 7 CN 111860237 A 7 0066 0067 0068 鉴于弹幕文本语义与。

25、对应时刻的视频场景语义相关, 本发明实施例中, 将弹幕的 场景视觉信息以注意力形式融入弹幕文本的词向量中, 帮助模型关注与弹幕视觉场 景相关的词, 得到带视觉注意力的弹幕词向量注意力机制的相关公式如下。 0069 0070 soft max(W3M) (7) 0071 0072 其中, W1、 W2及W3为注意力单元的训练参数, 该训练参数可以基于经验或者具体情 况进行设定, tanh表示深度神经网络的激活函数, M为中间量,表示归一化操作, 表示视觉信息在弹幕文本的每个词上的注意力权重分布, 视觉注意力权重 作用于弹幕 文本的词向量得到带视觉注意力的弹幕词向量 0073 考虑到句子文本蕴含词。

26、的序列信息, 本发明利用循环神经网络BiLSTM和自注意力 机制, 对融合了视觉信息的弹幕词向量建模, 得到弹幕的细粒度语义表示 0074 0075由公式(3)可知由Bert模型得到了弹幕句子向量表征即为弹幕的整体句子的 粗粒度语义表征, 将其与弹幕细粒度句子语义表示进行带权重的拼接操作, 得到弹目标 语义表示见下式。 0076 0077 其中, 为权重调节参数, 符号 + 为张量的拼接操作。 0078随后, 所述目标语义表示通过全连接层FC进行训练和输出, 得到该弹幕的情感 概率P: 0079 0080其中, y表示弹幕所属的情感类别,表示通过输入计算得到弹幕的 情感类别概率。 FC是一个单。

27、层的全连接网络结构, 通过全连接层进行输出, 得到每一条情感 弹幕的情感概率P, 通过最小化以下目标函数来训练情感模型: 0081 0082其中, 为情感弹幕的原情感标签,为情感弹幕经过模型训 说明书 5/10 页 8 CN 111860237 A 8 练、 输出的情感概率, softmax_cross_entropy为交叉熵损失函数, 它计算每条弹幕的原情 感标签和情感预测结果的交叉熵损失。 为了最小化上述目标函数, 采用Adam 优化器迭代更新模型中的各个参数(Tensorflow自动求导实现), 从而训练得到弹幕的情感 识别模型。 0083 最后, 利用训练好的弹幕情感识别模型对弹幕数据。

28、集C中的任意一条弹幕Ck:(Ck, Tk,Ik)进行情感预测, 输出P(y|Ck,Ik), 并进一步得到情感概率向量 0084 0085其中, P(y|Ck,Ik)为弹幕Ck的模型预测结果,旨在求出多分类中每一 类所占的比例, 并保证所有的比例之和为1。 本发明通过对弹幕Ck的预测结果作 进一步处理, 得到弹幕Ck的情感概率向量它是一个五维情感向 量, 其在各维度上的值可看作是弹幕Ck在各维度上的情感语义分布, 衡量弹幕Ck在各情感维 度上的情感语义值, 也代表了弹幕Ck的情感标签。 0086 S102、 对所述待分析视频进行分割, 得到各个待分析视频片段; 0087 本发明实施例中, 由于弹。

29、幕评论是观众的即时回应, 所蕴含的情绪往往是瞬时的。 因此, 基于一个连续时间段的视频情绪分析最为合适。 事实上, 一个视频中包含许多相对独 立的场景片段, 这些片段的内容通常具有相对独立和话题, 会随着视频情节的发展而演变, 即: 视频情节的变化通常与视频场景的切换相一致, 视频场景的变化可作为视频片段的切 分依据。 相对于常规的等长切分视频片段, 本应用从场景切换角度来考虑视频片段切分更 为合适。 0088 先使用一种基于自底向上和自顶向下注意力的对象识别方法对每个视频关键帧 的视觉数据信息进行对象识别, 得到的每帧的视觉单词可视为帧的视觉语义, 它 描述了帧的视觉场景。 相邻两帧的视觉单。

30、词文本显著改变, 意味着描述的场景发生了变 化, 该时刻可作为视频切分点, 具体来说, 若相邻帧之间的视觉单词交集为空, 则视作场景 将进行切换, 该时刻为切分点。 0089 进一步的, 为提高切分准确率, 本发明还从视频语义的角度进行切分点修正。 该操 作借助可以反映视频语义的弹幕来实现: 段切分点作为视频的情节转换点, 该时刻的弹幕 语义相对松散, 若该时刻的弹幕语义集中一致, 则应修正此切分点, 即: 对上阶段得到的任 意视频片段Si, 对其内部的所有弹幕, 两两求余弦相似度, 构造片段Si的语义相似度矩阵 进而得到视频片段Si的弹幕平均语义相似度判断每一个视频片段Si的弹幕平均语 义相。

31、似度丢弃平均语义相似度非常高的视频段(通过实际实验采用经验阈值来确定), 最终得到情节相对独立、 自然的待分析视频片段集合sp。 0090 S103、 依据每一个待分析视频片段中的各个弹幕情感标签, 计算各个待分析视频 片段的片段情感向量和情感熵; 说明书 6/10 页 9 CN 111860237 A 9 0091 本发明实施例中, 所述待分析视频包含复杂的多模态内容, 情感较为复杂, 而视频 观众的情感弹幕可视做视频情感的间接反映, 适用于视频情感分析。 对待分析视频片段集 合sp的任意片段si, 片段si的情感弹幕集合为片段si的情感弹幕所 对应的情感向量的集合为每条弹幕的的情感向量为 。

32、对片段的所有弹幕的情感向量按每个维度求和, 得到片段si的情 感和向量如下式所示: 0092 0093其中, u为片段si中情感弹幕的数量, 和向量即为片段si的五维情感向量, 代表了 片段si在各情感维度上的情感标签。 0094 在信息论中: 熵是描述系统混乱的量, 熵越大说明系统越混乱, 携带的信息就越 少, 熵越小说明系统越有序,携带的信息越多。 在片段si的情感向量中, 各情感维度的情 感语义信息的分布集中程度, 也可用片段si的熵来度量, 进而判断待分析情感片段si的情感 倾向, 待分析情感片段si的熵在本发明中也称为片段si的情感熵, 根据信息伦中的熵值公 式, 可得片段si的情感。

33、熵如下式所示: 0095 0096 S104、 依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情 感片段。 0097 本发明实施例中, 由于视频情感复杂, 情感视频片段的情感倾向并非均是单一情 感类别, 具有复杂情感的视频片段也较常见。 本应用旨在找到包含不超过两种明显情感倾 向的视频片段: 一种是只有一种明显情感倾向的视频情感片段; 另一种是有两种明显情感 倾向的视频情感片段。 0098 其中, 针对情感倾向单一的视频情感片段的处理过程如下: 当待分析视频片段si 的情感熵非常小, 小于其情感熵阈值H(e)threshold时, 该片段si的情感弹幕的各维度情 绪语义趋于一致。

34、, 意味着待分析视频片段si仅包含一种明显的情感倾向。 0099 0100在此基础上, 当片段si的情感熵仅仅略高于阈值H(e)threshold时, 片段si的情 感倾向不一定只有一种, 还需进一步判断: 在片段si的情绪向量中, 当的最大分量 远大于的次大分量则片段si的情感倾向只有一种, 即的最大分量 的所在维度的所属情感类别, 公式如下。 说明书 7/10 页 10 CN 111860237 A 10 0101 0102 针对含两种情感倾向的待分析视频情感片段的处理过程如下: 由公式(18)可知, 当待分析视频情感片段si的情感熵仅仅略高于阈值H(e)threshold时, 待分析视频。

35、情感 片段si的情感倾向不一定只有一种: 当待分析视频情感片段si的情感向量中, 的最大 分量和的次大分量差异较小时, 这两个成分所在维度的所属情感类别均可 视为待分析视频情感片段si的主要情绪倾向, 即, 待分析视频情感片段si有两种主要的情感 倾向。 0103 0104 考虑到弹幕的主题较松散, 语义噪音较多, 本发明还从语义角度进行降噪利用每 个待分析视频片段si的情绪弹幕的文本向量, 对片段si求情感语义相似度矩阵为 对称矩阵, 其每个值代表其每个情感弹幕的两两语义相关性, 对上三角部分进行分析, 若两情感弹幕语义相似度低于片段内弹幕的语义相似度阈值(语义相似度阈值根据实际实 验进行确。

36、定), 就视为语义畸点, 删除对应的情感弹幕。 通过此操作, 本发明实施例可以拥有 更好的鲁棒性。 0105 本发明公开了一种视频情感片段的识别方法, 包括: 确定待分析视频中各个情感 弹幕的弹幕情感标签; 对所述待分析视频进行分割, 得到各个待分析视频片段; 依据每一个 待分析视频片段中的各个弹幕情感标签, 计算各个待分析视频片段的片段情感向量和情感 熵; 依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。 上 述的识别方法中, 将待分析视频分割成多个待分析视频片段, 计算各个待分析视频片段的 片段情感向量和情感熵; 依据弹幕得到的所述片段的片段情感向量和所述情感熵识别。

37、所述 各个待分析视频片段中的情感片段, 缩短了情感片段的识别周期, 避免了由于人工标识情 感标签标注时间长, 导致情感片段识别周期长的问题。 0106 基于上述的识别方法, 针对视频中的蕴含丰富情感的弹幕, 运用注意力机制和多 模态融合思想, 将弹幕情感语义与视频场景的视觉信息进行时序上的融合, 从而实现对弹 幕情感语义的增强表征, 并利用这种融入了文本和视觉信息的表征, 对基于视觉语义和场 景切换的视频切分片段进行情感判断, 准确识别视频中的情感片段, 弥补了现有视频情感 理解中没有对视频情感片段进行识别的不足。 0107 基于上述的一种视频情感片段的识别方法, 本发明实施例中还提供了一种视。

38、频情 感片段的识别装置, 所述识别装置的结构框图如图2所示, 包括: 0108 确定模块201、 分割模块202、 计算模块203和识别模块204。 0109 其中, 说明书 8/10 页 11 CN 111860237 A 11 0110 所述确定模块201, 用于确定待分析视频中各个情感弹幕的弹幕情感标签; 0111 所述分割模块202, 用于对所述待分析视频进行分割, 得到各个待分析视频片段; 0112 所述计算模块203, 用于依据每一个待分析视频片段中的各个弹幕情感标签, 计算 各个待分析视频片段的片段情感向量和情感熵; 0113 所述识别模块204, 用于依据所述片段情感向量和所述。

39、情感熵识别所述各个待分 析视频片段中的情感片段。 0114 本发明公开了一种视频情感片段的识别装置, 包括: 确定待分析视频中各个情感 弹幕的弹幕情感标签; 对所述待分析视频进行分割, 得到各个待分析视频片段; 依据每一个 待分析视频片段中的各个弹幕情感标签, 计算各个待分析视频片段的片段情感向量和情感 熵; 依据所述片段情感向量和所述情感熵识别所述各个待分析视频片段中的情感片段。 上 述的识别装置中, 将待分析视频分割成多个待分析视频片段, 计算各个待分析视频片段的 片段情感向量和情感熵; 依据弹幕得到的所述片段的片段情感向量和所述情感熵识别所述 各个待分析视频片段中的情感片段, 缩短了情感。

40、片段的识别周期, 避免了由于人工标识情 感标签标注时间长, 导致情感片段识别周期长的问题。 0115 本发明实施例中, 所述确定模块201包括: 0116 获取单元205、 筛选单元206和标签确定单元207。 0117 其中, 0118 所述获取单元205, 用于获取所述待分析视频的各个弹幕; 0119 所述筛选单元206, 用于对所述各个弹幕进行筛选, 得到各个情感弹幕; 0120 所述标签确定单元207, 用于依据预设的神经网络模型确定每个情感弹幕的弹幕 情感标签。 0121 本发明实施例中, 所述分割模块202包括: 0122 语义确定单元208、 第一判断单元209和切分单元210。。

41、 0123 其中, 0124 所述语义确定单元208, 用于确定所述待分析视频中各个帧的视觉语义; 0125 所述第一判断单元209, 用于依次比较相邻帧的视觉语义, 判断所述相邻帧的视觉 语义的差异度是否大于预设的差异度阈值; 0126 所述切分单元210, 用于若是, 将所述相邻帧作为切分点进行切分, 得到各个待分 析视频片段。 0127 本发明实施例中, 所述识别模块204包括: 0128 第二判断单元211、 第一判定单元212、 第三判断单元213和第二判定单元214。 0129 其中, 0130 所述第二判断单元211, 用于判断所述情感熵是否小于预设的情感熵阈值; 0131 所述。

42、第一判定单元212, 用于若是, 判定当前待分析视频片段包含一种情感, 或; 0132 所述第三判断单元213, 用于若否, 判断当前片段情感向量中的最大分量与次大分 量的比值是否大于预设的比例阈值; 0133 所述第二判定单元214, 用于若是, 判定所述当前待分析视频片段包含一种情感, 或, 若否, 判定所述当前待分析视频判断包含两种情感。 0134 需要说明的是, 本说明书中的各个实施例均采用递进的方式描述, 每个实施例重 说明书 9/10 页 12 CN 111860237 A 12 点说明的都是与其他实施例的不同之处, 各个实施例之间相同相似的部分互相参见即可。 对于装置类实施例而言。

43、, 由于其与方法实施例基本相似, 所以描述的比较简单, 相关之处参 见方法实施例的部分说明即可。 0135 最后, 还需要说明的是, 在本文中, 诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来, 而不一定要求或者暗示这些实体或操作 之间存在任何这种实际的关系或者顺序。 而且, 术语 “包括” 、“包含” 或者其任何其他变体意 在涵盖非排他性的包含, 从而使得包括一系列要素的过程、 方法、 物品或者设备不仅包括那 些要素, 而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、 方法、 物品或者 设备所固有的要素。 在没有更多限制的情况下, 由语句 “。

44、包括一个” 限定的要素, 并不排 除在包括所述要素的过程、 方法、 物品或者设备中还存在另外的相同要素。 0136 为了描述的方便, 描述以上装置时以功能分为各种单元分别描述。 当然, 在实施本 发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。 0137 通过以上的实施方式的描述可知, 本领域的技术人员可以清楚地了解到本发明可 借助软件加必需的通用硬件平台的方式来实现。 基于这样的理解, 本发明的技术方案本质 上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来, 该计算机软件产品 可以存储在存储介质中, 如ROM/RAM、 磁碟、 光盘等, 包括若干指令用以使得一台计算机。

45、设备 (可以是个人计算机, 服务器, 或者网络设备等)执行本发明各个实施例或者实施例的某些 部分所述的方法。 0138 以上对本发明所提供的一种视频情感片段的识别方法及装置进行了详细介绍, 本 文中应用了具体个例对本发明的原理及实施方式进行了阐述, 以上实施例的说明只是用于 帮助理解本发明的方法及其核心思想; 同时, 对于本领域的一般技术人员, 依据本发明的思 想, 在具体实施方式及应用范围上均会有改变之处, 综上所述, 本说明书内容不应理解为对 本发明的限制。 说明书 10/10 页 13 CN 111860237 A 13 图1 图2 说明书附图 1/1 页 14 CN 111860237 A 14 。

展开阅读全文
内容关键字: 视频 情感 片段 识别 方法 装置
关于本文
本文标题:视频情感片段的识别方法及装置.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10109136.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1