基于距离值的通话通道构建方法、装置和计算机设备.pdf
《基于距离值的通话通道构建方法、装置和计算机设备.pdf》由会员分享,可在线阅读,更多相关《基于距离值的通话通道构建方法、装置和计算机设备.pdf(21页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911310989.5 (22)申请日 2019.12.18 (71)申请人 中国平安财产保险股份有限公司 地址 518000 广东省深圳市福田区益田路 5033号平安金融中心12、 13、 38、 39、 40 层 (72)发明人 卢显锋 (74)专利代理机构 深圳市明日今典知识产权代 理事务所(普通合伙) 44343 代理人 王杰辉 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/62(2006.01) G06F 16/735(2019.01。
2、) (54)发明名称 基于距离值的通话通道构建方法、 装置和计 算机设备 (57)摘要 本申请揭示了一种基于距离值的通话通道 构建方法、 装置、 计算机设备和存储介质, 所述方 法包括: 获取谈话视频; 从所述谈话视频中提取 出所述第一对象的面部图像为有兴趣表情的多 个视频片段, 并将所述多个视频片段组成视频片 段集; 采集所述视频片段集中所述谈话对象的语 音内容与语音特征, 并映射为第一向量; 采集视 频片段集中所述谈话对象的形体特征, 并映射为 第二向量; 将第一向量与所述第二向量组合为综 合向量; 计算综合向量与预设的参照向量之间的 距离值; 若所述距离值大于距离阈值, 则构建通 话通道。
3、, 所述通话通道一端连接所述第一对象对 应的终端, 另一端连接所述第二对象对应的终 端。 从而提高了对象匹配并构建通话通道的准确 性。 权利要求书3页 说明书14页 附图3页 CN 111126233 A 2020.05.08 CN 111126233 A 1.一种基于距离值的通话通道构建方法, 其特征在于, 包括: 获取谈话视频, 所述谈话视频为第一对象与谈话对象的交谈视频; 采集所述谈话视频中所述第一对象的面部图像, 并将所述面部图像输入基于神经网络 模型的表情识别模型中进行处理, 从而将所述面部图像识别为不同的面部表情类别, 其中 所述面部表情类别包括有兴趣表情和无兴趣表情; 从所述谈话。
4、视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片段, 并 将所述多个视频片段组成视频片段集; 采集所述视频片段集中所述谈话对象的语音内容与语音特征, 并根据预设的第一向量 映射方法, 将所述语音内容与语音特征映射为高维虚拟空间中的第一向量; 采集所述视频片段集中所述谈话对象的形体特征, 并根据预设的第二向量映射方法, 将所述形体特征映射为高维虚拟空间中的第二向量; 根据预设的向量组合方法, 将所述第一向量与所述第二向量组合为综合向量; 根据预设的距离计算方法, 计算所述综合向量与预设的参照向量之间的距离值, 并判 断所述距离值是否大于预设的距离阈值, 其中所述预设的参照向量与预设的第。
5、二对象对 应; 若所述距离值大于预设的距离阈值, 则构建通话通道, 所述通话通道一端连接所述第 一对象对应的终端, 另一端连接所述第二对象对应的终端。 2.根据权利要求1所述的基于距离值的通话通道构建方法, 其特征在于, 所述第一对象 的面部图像为侧脸图像, 所述将所述面部图像输入基于神经网络模型的表情识别模型中进 行处理, 从而将所述面部图像识别为不同的面部表情类别, 其中所述面部表情类别包括有 兴趣表情和无兴趣表情的步骤之前, 包括: 获取预设数量的样本数据, 并将所述样本数据划分成训练集和测试集; 其中, 所述样本 数据包括人类的侧脸图像, 以及与所述侧脸图像对应的面部表情类别, 其中所。
6、述面部表情 类别包括有兴趣表情和无兴趣表情; 将训练集的样本数据输入到预设的神经网络模型中进行训练; 其中, 训练的过程中采 用随机梯度下降法, 从而得到初始模型; 利用所述测试集的样本数据验证所述初始模型, 并判断所述初始模型是否验证通过; 若所述初始模型验证通过, 则将所述初始模型记为表情识别模型。 3.根据权利要求1所述的基于距离值的通话通道构建方法, 其特征在于, 所述谈话视频 是通过全景镜头获得的视频, 所述第一对象的面部图像为正脸图像, 所述将所述面部图像 输入基于神经网络模型的表情识别模型中进行处理, 从而将所述面部图像识别为不同的面 部表情类别, 其中所述面部表情类别包括有兴趣。
7、表情和无兴趣表情的步骤之前, 包括: 获取预设数量的样本数据, 并将所述样本数据划分成训练集和测试集; 其中, 所述样本 数据包括通过全景镜头采集的人类的正脸图像, 以及与所述正脸图像对应的面部表情类 别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情; 将训练集的样本数据输入到预设的神经网络模型中进行训练; 其中, 训练的过程中采 用随机梯度下降法, 从而得到初始模型; 利用所述测试集的样本数据验证所述初始模型, 并判断所述初始模型是否验证通过; 若所述初始模型验证通过, 则将所述初始模型记为表情识别模型。 权利要求书 1/3 页 2 CN 111126233 A 2 4.根据权利要求1所。
8、述的基于距离值的通话通道构建方法, 其特征在于, 所述语音特征 至少包括语速、 语调和重音位置, 所述根据预设的第一向量映射方法, 将所述语音内容与语 音特征映射为高维虚拟空间中的第一向量的步骤,包括: 根据预设的语音识别技术, 将所述语音内容识别为语音文本; 对所述语音文本进行同义词替换处理, 从而得到中间文本, 并获取所述中间文本中词 频数值大于预设词频阈值的多个指定关键词; 根据预设的关键词与分向量数值的对应关系, 获取与所述指定关键词对应的分向量数 值, 从而将所述语音内容映射为关键词向量, 其中所述关键词向量的分向量的数值为所述 指定关键词对应的分向量数值; 根据预设的语速、 语调和。
9、重音位置与分向量数值的对应关系, 获取所述语速、 语调和重 音位置对应的分向量数值, 从而将所述语音特征映射为语音向量, 其中所述语音向量的分 向量的数值为所述语速、 语调和重音位置对应的分向量数值; 生成高维虚拟空间中的第一向量, 其中所述第一向量由所述关键词向量和所述语音向 量顺序连接而构成。 5.根据权利要求1所述的基于距离值的通话通道构建方法, 其特征在于, 所述根据预设 的距离计算方法, 计算所述综合向量与预设的参照向量之间的距离值, 并判断所述距离值 是否大于预设的距离阈值, 其中所述预设的参照向量与预设的第二对象对应的步骤之前, 包括: 获取所述第二对象的常用词汇和语音特征, 并。
10、将所述第二对象的常用词汇和语音特征 映射为高维虚拟空间中的第三向量; 获取所述第二对象的形体特征, 并将所述第二对象的形体特征映射为高维虚拟空间中 的第四向量; 将所述第三向量与第四向量组合为所述参照向量。 6.根据权利要求1所述的基于距离值的通话通道构建方法, 其特征在于, 所述根据预设 的距离计算方法, 计算所述综合向量与预设的参照向量之间的距离值的步骤,包括: 根据公式:计算所述综合向量与预设的参照向量之间的距 离值DIS, 其中A为所述综合向量, B为所述参照向量, Ai为所述综合向量中第i个分向量的数 值, Bi为所述参照向量中第i个分向量的数值, 所述综合向量和所述参照向量均具有n。
11、个分 向量。 7.根据权利要求1所述的基于距离值的通话通道构建方法, 其特征在于, 所述参照向量 有多个, 所述根据预设的距离计算方法, 计算所述综合向量与预设的参照向量之间的距离 值的步骤,包括: 根据公式: 计算出参照向量X在所述高维虚拟空间中的长度值DX, 其中Xi为所述参 权利要求书 2/3 页 3 CN 111126233 A 3 照向量X中第i个分向量的数值, 所述参照向量X具有n个分向量; 根据公式: 计算出综合向量A在所述高维虚拟空间中的长度值DA, 其中Ai为所述综 合向量A中第i个分向量的数值, 所述综合向量A具有n个分向量; 获取符合公式: |DA-DX|p的参照向量, 。
12、并记为最终参照向量B, 其中p为预设的误差参 数; 根据公式:计算所述综合向量A与所述最终参照向量B之间 的距离值DIS, 其中Ai为所述综合向量A中第i个分向量的数值, Bi为所述最终参照向量B中 第i个分向量的数值。 8.一种基于距离值的通话通道构建装置, 其特征在于, 包括: 谈话视频获取单元, 用于获取谈话视频, 所述谈话视频为第一对象与谈话对象的交谈 视频; 面部图像识别单元, 用于采集所述谈话视频中所述第一对象的面部图像, 并将所述面 部图像输入基于神经网络模型的表情识别模型中进行处理, 从而将所述面部图像识别为不 同的面部表情类别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情。
13、; 视频片段集获取单元, 用于从所述谈话视频中提取出所述第一对象的面部图像为有兴 趣表情的多个视频片段, 并将所述多个视频片段组成视频片段集; 第一向量映射单元, 用于采集所述视频片段集中所述谈话对象的语音内容与语音特 征, 并根据预设的第一向量映射方法, 将所述语音内容与语音特征映射为高维虚拟空间中 的第一向量; 第二向量映射单元, 用于采集所述视频片段集中所述谈话对象的形体特征, 并根据预 设的第二向量映射方法, 将所述形体特征映射为高维虚拟空间中的第二向量; 综合向量组合单元, 用于根据预设的向量组合方法, 将所述第一向量与所述第二向量 组合为综合向量; 距离值判断单元, 用于根据预设的。
14、距离计算方法, 计算所述综合向量与预设的参照向 量之间的距离值, 并判断所述距离值是否大于预设的距离阈值, 其中所述预设的参照向量 与预设的第二对象对应; 通话通道构建单元, 用于若所述距离值大于预设的距离阈值, 则构建通话通道, 所述通 话通道一端连接所述第一对象对应的终端, 另一端连接所述第二对象对应的终端。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至7中。
15、任一项所述的方法的步骤。 权利要求书 3/3 页 4 CN 111126233 A 4 基于距离值的通话通道构建方法、 装置和计算机设备 技术领域 0001 本申请涉及到计算机领域, 特别是涉及到一种基于距离值的通话通道构建方法、 装置、 计算机设备和存储介质。 背景技术 0002 对象匹配的判断方法可用于当今社会中的各个领域, 例如社交领域中, 若能准确 判断出两个对象之间是否匹配, 就能提高人们的互动交流效率; 在研发领域中, 若能准确判 断两个工程师之间是否匹配, 就能有效构建强有力的研发小组, 提高研发效率减少磨合成 本; 在保险领域中, 若能准确判断出续保客户与工作人员是否匹配, 就。
16、能提高续保率同时减 少成本浪费。 但是, 传统技术一般是基于人的主观意识来认定两个对象是否匹配, 但没有自 动地有效识别对象间是否匹配, 并在匹配后为匹配的对象构建通话通道的技术方案。 因此 传统技术的基于对象匹配并构建通话通道的方案准确性不足。 发明内容 0003 本申请的主要目的为提供一种基于距离值的通话通道构建方法、 装置、 计算机设 备和存储介质, 旨在提高对象匹配的准确度。 0004 为了实现上述发明目的, 本申请提出一种基于距离值的通话通道构建方法, 包括 以下步骤: 0005 获取谈话视频, 所述谈话视频为第一对象与谈话对象的交谈视频; 0006 采集所述谈话视频中所述第一对象的。
17、面部图像, 并将所述面部图像输入基于神经 网络模型的表情识别模型中进行处理, 从而将所述面部图像识别为不同的面部表情类别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情; 0007 从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频片 段, 并将所述多个视频片段组成视频片段集; 0008 采集所述视频片段集中所述谈话对象的语音内容与语音特征, 并根据预设的第一 向量映射方法, 将所述语音内容与语音特征映射为高维虚拟空间中的第一向量; 0009 采集所述视频片段集中所述谈话对象的形体特征, 并根据预设的第二向量映射方 法, 将所述形体特征映射为高维虚拟空间中的第二向量; 001。
18、0 根据预设的向量组合方法, 将所述第一向量与所述第二向量组合为综合向量; 0011 根据预设的距离计算方法, 计算所述综合向量与预设的参照向量之间的距离值, 并判断所述距离值是否大于预设的距离阈值, 其中所述预设的参照向量与预设的第二对象 对应; 0012 若所述距离值大于预设的距离阈值, 则构建通话通道, 所述通话通道一端连接所 述第一对象对应的终端, 另一端连接所述第二对象对应的终端。 0013 进一步地, 所述第一对象的面部图像为侧脸图像, 所述将所述面部图像输入基于 神经网络模型的表情识别模型中进行处理, 从而将所述面部图像识别为不同的面部表情类 说明书 1/14 页 5 CN 11。
19、1126233 A 5 别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情的步骤之前, 包括: 0014 获取预设数量的样本数据, 并将所述样本数据划分成训练集和测试集; 其中, 所述 样本数据包括人类的侧脸图像, 以及与所述侧脸图像对应的面部表情类别, 其中所述面部 表情类别包括有兴趣表情和无兴趣表情; 0015 将训练集的样本数据输入到预设的神经网络模型中进行训练; 其中, 训练的过程 中采用随机梯度下降法, 从而得到初始模型; 0016 利用所述测试集的样本数据验证所述初始模型, 并判断所述初始模型是否验证通 过; 0017 若所述初始模型验证通过, 则将所述初始模型记为表情识别模型。。
20、 0018 进一步地, 所述谈话视频是通过全景镜头获得的视频, 所述第一对象的面部图像 为正脸图像, 所述将所述面部图像输入基于神经网络模型的表情识别模型中进行处理, 从 而将所述面部图像识别为不同的面部表情类别, 其中所述面部表情类别包括有兴趣表情和 无兴趣表情的步骤之前, 包括: 0019 获取预设数量的样本数据, 并将所述样本数据划分成训练集和测试集; 其中, 所述 样本数据包括通过全景镜头采集的人类的正脸图像, 以及与所述正脸图像对应的面部表情 类别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情; 0020 将训练集的样本数据输入到预设的神经网络模型中进行训练; 其中, 训练的过程。
21、 中采用随机梯度下降法, 从而得到初始模型; 0021 利用所述测试集的样本数据验证所述初始模型, 并判断所述初始模型是否验证通 过; 0022 若所述初始模型验证通过, 则将所述初始模型记为表情识别模型。 0023 进一步地, 所述语音特征至少包括语速、 语调和重音位置, 所述根据预设的第一向 量映射方法, 将所述语音内容与语音特征映射为高维虚拟空间中的第一向量的步骤,包括: 0024 根据预设的语音识别技术, 将所述语音内容识别为语音文本; 0025 对所述语音文本进行同义词替换处理, 从而得到中间文本, 并获取所述中间文本 中词频数值大于预设词频阈值的多个指定关键词; 0026 根据预设。
22、的关键词与分向量数值的对应关系, 获取与所述指定关键词对应的分向 量数值, 从而将所述语音内容映射为关键词向量, 其中所述关键词向量的分向量的数值为 所述指定关键词对应的分向量数值; 0027 根据预设的语速、 语调和重音位置与分向量数值的对应关系, 获取所述语速、 语调 和重音位置对应的分向量数值, 从而将所述语音特征映射为语音向量, 其中所述语音向量 的分向量的数值为所述语速、 语调和重音位置对应的分向量数值; 0028 生成高维虚拟空间中的第一向量, 其中所述第一向量由所述关键词向量和所述语 音向量顺序连接而构成。 0029 进一步地, 所述根据预设的距离计算方法, 计算所述综合向量与预。
23、设的参照向量 之间的距离值, 并判断所述距离值是否大于预设的距离阈值, 其中所述预设的参照向量与 预设的第二对象对应的步骤之前, 包括: 0030 获取所述第二对象的常用词汇和语音特征, 并将所述第二对象的常用词汇和语音 特征映射为高维虚拟空间中的第三向量; 说明书 2/14 页 6 CN 111126233 A 6 0031 获取所述第二对象的形体特征, 并将所述第二对象的形体特征映射为高维虚拟空 间中的第四向量; 0032 将所述第三向量与第四向量组合为所述参照向量。 0033 进一步地, 所述根据预设的距离计算方法, 计算所述综合向量与预设的参照向量 之间的距离值的步骤,包括: 0034。
24、根据公式:计算所述综合向量与预设的参照向量之间 的距离值DIS, 其中A为所述综合向量, B为所述参照向量, Ai为所述综合向量中第i个分向量 的数值, Bi为所述参照向量中第i个分向量的数值, 所述综合向量和所述参照向量均具有n 个分向量。 0035 进一步地, 所述参照向量有多个, 所述根据预设的距离计算方法, 计算所述综合向 量与预设的参照向量之间的距离值的步骤,包括: 0036 根据公式: 0037计算出参照向量X在所述高维虚拟空间中的长度值DX, 其中Xi为所 述参照向量X中第i个分向量的数值, 所述参照向量X具有n个分向量; 0038 根据公式: 0039计算出综合向量A在所述高维。
25、虚拟空间中的长度值DA, 其中Ai为 所述综合向量A中第i个分向量的数值, 所述综合向量A具有n个分向量; 0040 获取符合公式: |DA-DX|p的参照向量, 并记为最终参照向量B, 其中p为预设的误差 参数; 0041根据公式:计算所述综合向量A与所述最终参照向量B 之间的距离值DIS, 其中Ai为所述综合向量A中第i个分向量的数值, Bi为所述最终参照向量 B中第i个分向量的数值。 0042 本申请提供一种基于距离值的通话通道构建装置, 包括: 0043 谈话视频获取单元, 用于获取谈话视频, 所述谈话视频为第一对象与谈话对象的 交谈视频; 0044 面部图像识别单元, 用于采集所述谈。
26、话视频中所述第一对象的面部图像, 并将所 述面部图像输入基于神经网络模型的表情识别模型中进行处理, 从而将所述面部图像识别 为不同的面部表情类别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情; 0045 视频片段集获取单元, 用于从所述谈话视频中提取出所述第一对象的面部图像为 说明书 3/14 页 7 CN 111126233 A 7 有兴趣表情的多个视频片段, 并将所述多个视频片段组成视频片段集; 0046 第一向量映射单元, 用于采集所述视频片段集中所述谈话对象的语音内容与语音 特征, 并根据预设的第一向量映射方法, 将所述语音内容与语音特征映射为高维虚拟空间 中的第一向量; 0047。
27、 第二向量映射单元, 用于采集所述视频片段集中所述谈话对象的形体特征, 并根 据预设的第二向量映射方法, 将所述形体特征映射为高维虚拟空间中的第二向量; 0048 综合向量组合单元, 用于根据预设的向量组合方法, 将所述第一向量与所述第二 向量组合为综合向量; 0049 距离值判断单元, 用于根据预设的距离计算方法, 计算所述综合向量与预设的参 照向量之间的距离值, 并判断所述距离值是否大于预设的距离阈值, 其中所述预设的参照 向量与预设的第二对象对应; 0050 通话通道构建单元, 用于若所述距离值大于预设的距离阈值, 则构建通话通道, 所 述通话通道一端连接所述第一对象对应的终端, 另一端。
28、连接所述第二对象对应的终端。 0051 本申请提供一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程 序, 所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。 0052 本申请提供一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程序 被处理器执行时实现上述任一项所述的方法的步骤。 0053 本申请的基于距离值的通话通道构建方法、 装置、 计算机设备和存储介质, 获取谈 话视频; 采集所述谈话视频中第一对象的面部图像, 并将所述面部图像输入基于神经网络 模型的表情识别模型中进行处理; 从所述谈话视频中提取出所述第一对象的面部图像为有 兴趣表情的多个视频片段, 。
29、并将所述多个视频片段组成视频片段集; 采集所述视频片段集 中所述谈话对象的语音内容与语音特征, 并映射为高维虚拟空间中的第一向量; 采集所述 视频片段集中所述谈话对象的形体特征, 并映射为高维虚拟空间中的第二向量; 将所述第 一向量与所述第二向量组合为综合向量; 计算所述综合向量与预设的参照向量之间的距离 值; 若所述距离值大于预设的距离阈值, 则构建通话通道, 所述通话通道一端连接所述第一 对象对应的终端, 另一端连接所述第二对象对应的终端。 从而利用已有视频中第一对象感 兴趣的特征信息, 来准确找到合适的第二对象, 最终提高了对象匹配并构建通话通道的准 确性。 附图说明 0054 图1为本。
30、申请一实施例的基于距离值的通话通道构建方法的流程示意图; 0055 图2为本申请一实施例的基于距离值的通话通道构建装置的结构示意框图; 0056 图3为本申请一实施例的计算机设备的结构示意框图。 0057 本申请目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步说明。 具体实施方式 0058 为了使本申请的目的、 技术方案及优点更加清楚明白, 以下结合附图及实施例, 对 本申请进行进一步详细说明。 应当理解, 此处描述的具体实施例仅仅用以解释本申请, 并不 用于限定本申请。 说明书 4/14 页 8 CN 111126233 A 8 0059 参照图1, 本申请实施例提供一种基于距离。
31、值的通话通道构建方法, 包括以下步 骤: 0060 S1、 获取谈话视频, 所述谈话视频为第一对象与谈话对象的交谈视频; 0061 S2、 采集所述谈话视频中所述第一对象的面部图像, 并将所述面部图像输入基于 神经网络模型的表情识别模型中进行处理, 从而将所述面部图像识别为不同的面部表情类 别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情; 0062 S3、 从所述谈话视频中提取出所述第一对象的面部图像为有兴趣表情的多个视频 片段, 并将所述多个视频片段组成视频片段集; 0063 S4、 采集所述视频片段集中所述谈话对象的语音内容与语音特征, 并根据预设的 第一向量映射方法, 将所述语音内。
32、容与语音特征映射为高维虚拟空间中的第一向量; 0064 S5、 采集所述视频片段集中所述谈话对象的形体特征, 并根据预设的第二向量映 射方法, 将所述形体特征映射为高维虚拟空间中的第二向量; 0065 S6、 根据预设的向量组合方法, 将所述第一向量与所述第二向量组合为综合向量; 0066 S7、 根据预设的距离计算方法, 计算所述综合向量与预设的参照向量之间的距离 值, 并判断所述距离值是否大于预设的距离阈值, 其中所述预设的参照向量与预设的第二 对象对应; 0067 S8、 若所述距离值大于预设的距离阈值, 则构建通话通道, 所述通话通道一端连接 所述第一对象对应的终端, 另一端连接所述第。
33、二对象对应的终端。 0068 如上述步骤S1所述, 获取谈话视频, 所述谈话视频为第一对象与谈话对象的交谈 视频。 其中, 所述谈话视频是用于获取所述第一对象感兴趣的内容, 从而作为后续对象匹配 的基础。 所述谈话视频可以为任意视频, 例如为普通视频采集装置采集的视频(此时, 由于 第一对象与谈话对象一般为对面而坐, 因此采集到的视频一般为第一对象与谈话对象各自 的侧面), 或者为通过全景镜头获得的视频(此时, 由于全景镜头能捕捉360度的视频, 因此, 采集到的视频一般为第一对象与谈话对象各自的正面)。 0069 如上述步骤S2所述, 采集所述谈话视频中所述第一对象的面部图像, 并将所述面 。
34、部图像输入基于神经网络模型的表情识别模型中进行处理, 从而将所述面部图像识别为不 同的面部表情类别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情。 人的面部是具 有表情的, 不同的表情表明人是否有兴趣(即将表情分类为两种, 有兴趣和无兴趣)。 据此, 可通过表情识别得到第一对象有兴趣的内容。 其中, 所述神经网络可为任意网络, 例如为 VGG16模型、 VGG-F模型、 ResNet152模型、 InceptionV3模型、 Xception模型和AlexNet模型 等。 神经网络可适用于对图像进行处理, 进而胜任图像分类的任务。 据此, 将所述面部图像 识别为不同的面部表情类别。 007。
35、0 如上述步骤S3所述, 从所述谈话视频中提取出所述第一对象的面部图像为有兴趣 表情的多个视频片段, 并将所述多个视频片段组成视频片段集。 所述多个视频片段中均包 含了第一对象感兴趣的内容, 将其组成视频片段集, 作为后续分析的基础。 0071 如上述步骤S4所述, 采集所述视频片段集中所述谈话对象的语音内容与语音特 征, 并根据预设的第一向量映射方法, 将所述语音内容与语音特征映射为高维虚拟空间中 的第一向量。 第一对象感兴趣的内容, 可能是所述谈话对象的语音内容(例如谈话对象谈及 了第一对象感兴趣的部分, 例如车辆、 股票等)与语音特征(例如谈话对象的语速、 语调和重 说明书 5/14 页。
36、 9 CN 111126233 A 9 音位置, 正好为第一对象所喜欢)。 因此, 将所述语音内容与语音特征映射为高维虚拟空间 中的第一向量。 其中映射的方法例如为: 根据预设的语音识别技术, 将所述语音内容识别为 语音文本; 0072 对所述语音文本进行同义词替换处理, 从而得到中间文本, 并获取所述中间文本 中词频数值大于预设词频阈值的多个指定关键词; 、 根据预设的关键词与分向量数值的对 应关系, 获取与所述指定关键词对应的分向量数值, 从而将所述语音内容映射为关键词向 量, 其中所述关键词向量的分向量的数值为所述指定关键词对应的分向量数值; 根据预设 的语速、 语调和重音位置与分向量数。
37、值的对应关系, 获取所述语速、 语调和重音位置对应的 分向量数值, 从而将所述语音特征映射为语音向量, 其中所述语音向量的分向量的数值为 所述语速、 语调和重音位置对应的分向量数值; 生成高维虚拟空间中的第一向量, 其中所述 第一向量由所述关键词向量和所述语音向量顺序连接而构成。 0073 如上述步骤S5所述, 采集所述视频片段集中所述谈话对象的形体特征, 并根据预 设的第二向量映射方法, 将所述形体特征映射为高维虚拟空间中的第二向量。 第一对象感 兴趣的原因, 还可能为谈话对象的形体特征(例如身材、 穿着、 肢体动作或者容貌等)。 据此, 根据预设的第二向量映射方法, 将所述形体特征映射为高。
38、维虚拟空间中的第二向量。 0074 如上述步骤S6所述, 根据预设的向量组合方法, 将所述第一向量与所述第二向量 组合为综合向量。 由于第一向量与第二向量均可能是第一对象的感兴趣因素, 因此将其组 合为综合向量。 其中组合的方式可为任意方式, 例如为将第一向量与第二向量顺序连接, 从 而构成综合向量。 0075 如上述步骤S7所述, 根据预设的距离计算方法, 计算所述综合向量与预设的参照 向量之间的距离值, 并判断所述距离值是否大于预设的距离阈值, 其中所述预设的参照向 量与预设的第二对象对应。 其中所述距离值用于衡量第一对象与第二对象是否匹配。 具体 的, 所述距离计算方法例如为: 根据公式。
39、:计算所述综合向量与 预设的参照向量之间的距离值DIS, 其中A为所述综合向量, B为所述参照向量, Ai为所述综 合向量中第i个分向量的数值, Bi为所述参照向量中第i个分向量的数值, 所述综合向量和 所述参照向量均具有n个分向量。 其中, 在采用上述距离计算公式时, 距离值DIS的最大值为 1, 因此当所述综合向量与预设的参照向量之间的距离值DIS越靠近1, 表明所述第一对象与 第二对象越匹配。 0076 如上述步骤S8所述, 若所述距离值大于预设的距离阈值, 则构建通话通道, 所述通 话通道一端连接所述第一对象对应的终端, 另一端连接所述第二对象对应的终端。 若所述 距离值大于预设的距离。
40、阈值, 则可认定第一对象与第二对象匹配。 据此, 构建通话通道, 所 述通话通道一端连接所述第一对象对应的终端, 另一端连接所述第二对象对应的终端。 其 中, 所述终端例如为移动终端, 所述通话通道例如为拨打手机号。 0077 在一个实施方式中, 所述第一对象的面部图像为侧脸图像, 所述将所述面部图像 输入基于神经网络模型的表情识别模型中进行处理, 从而将所述面部图像识别为不同的面 部表情类别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情的步骤S2之前, 包括: 说明书 6/14 页 10 CN 111126233 A 10 0078 S111、 获取预设数量的样本数据, 并将所述样本数据。
41、划分成训练集和测试集; 其 中, 所述样本数据包括人类的侧脸图像, 以及与所述侧脸图像对应的面部表情类别, 其中所 述面部表情类别包括有兴趣表情和无兴趣表情; 0079 S112、 将训练集的样本数据输入到预设的神经网络模型中进行训练; 其中, 训练的 过程中采用随机梯度下降法, 从而得到初始模型; 0080 S113、 利用所述测试集的样本数据验证所述初始模型, 并判断所述初始模型是否 验证通过; 0081 S114、 若所述初始模型验证通过, 则将所述初始模型记为表情识别模型。 0082 如上所述, 实现了获取表情识别模型。 普通视频采集设备在采集谈话场景时, 一般 只能采集到第一对象与谈。
42、话对象的侧脸, 因此, 本申请预先收集人类的侧脸图像, 以及与所 述侧脸图像对应的面部表情类别作为样本数据, 以提高模型的识别准确度。 由于传统的表 情识别模型的训练方法, 均是采用正脸图像作为训练数据, 因此其不适用于本申请的与侧 脸图像相关的表情识别, 将造成识别错误。 其中, 训练的过程采用随机梯度下降法, 是指随 机取样一些训练数据, 替代整个训练集, 在样本量很大的情况, 那么只用其中部分的样本, 就已经迭代到最优解了, 可以提高训练速度。 0083 在一个实施方式中, 所述谈话视频是通过全景镜头获得的视频, 所述第一对象的 面部图像为正脸图像, 所述将所述面部图像输入基于神经网络模。
43、型的表情识别模型中进行 处理, 从而将所述面部图像识别为不同的面部表情类别, 其中所述面部表情类别包括有兴 趣表情和无兴趣表情的步骤S2之前, 包括: 0084 S121、 获取预设数量的样本数据, 并将所述样本数据划分成训练集和测试集; 其 中, 所述样本数据包括通过全景镜头采集的人类的正脸图像, 以及与所述正脸图像对应的 面部表情类别, 其中所述面部表情类别包括有兴趣表情和无兴趣表情; 0085 S122、 将训练集的样本数据输入到预设的神经网络模型中进行训练; 其中, 训练的 过程中采用随机梯度下降法, 从而得到初始模型; 0086 S123、 利用所述测试集的样本数据验证所述初始模型,。
44、 并判断所述初始模型是否 验证通过; 0087 S124、 若所述初始模型验证通过, 则将所述初始模型记为表情识别模型。 0088 如上所述, 实现了获取表情识别模型。 由于普通视频采集设备在采集谈话场景时 只能采集到侧面, 而人类的左右脸表情并非完全对称, 因此采用侧脸的方案, 识别精度仍有 不足。 因此, 本申请采用所述谈话视频是通过全景镜头获得的视频的方式, 使得谈话场景中 第一对象的正脸图像得以采集, 相应的, 样本数据包括通过全景镜头采集的人类的正脸图 像, 以及与所述正脸图像对应的面部表情类别。 其中, 需要强调的是, 样本数据中的所述正 脸图像并非是普通视频采集设备采集到的正脸,。
45、 而是由全景镜头采集到的正脸(因为全景 镜头的特殊性, 其采集到图像与普通镜头的图像不同, 因此普通的正脸图像无法作为训练 数据)。 据此, 提高了表情识别的准确性。 0089 在一个实施方式中, 所述语音特征至少包括语速、 语调和重音位置, 所述根据预设 的第一向量映射方法, 将所述语音内容与语音特征映射为高维虚拟空间中的第一向量的步 骤S4,包括: 0090 S401、 根据预设的语音识别技术, 将所述语音内容识别为语音文本; 说明书 7/14 页 11 CN 111126233 A 11 0091 S402、 对所述语音文本进行同义词替换处理, 从而得到中间文本, 并获取所述中间 文本中。
46、词频数值大于预设词频阈值的多个指定关键词; 0092 S403、 根据预设的关键词与分向量数值的对应关系, 获取与所述指定关键词对应 的分向量数值, 从而将所述语音内容映射为关键词向量, 其中所述关键词向量的分向量的 数值为所述指定关键词对应的分向量数值; 0093 S404、 根据预设的语速、 语调和重音位置与分向量数值的对应关系, 获取所述语 速、 语调和重音位置对应的分向量数值, 从而将所述语音特征映射为语音向量, 其中所述语 音向量的分向量的数值为所述语速、 语调和重音位置对应的分向量数值; 0094 S405、 生成高维虚拟空间中的第一向量, 其中所述第一向量由所述关键词向量和 所述。
47、语音向量顺序连接而构成。 0095 如上所述, 实现了根据预设的第一向量映射方法, 将所述语音内容与语音特征映 射为高维虚拟空间中的第一向量。 所述同义词替换处理, 是指将所述语音文本中的同义词 采用相同的词汇进行替换, 从而使词频的统计更强准确。 其中, 所述中间文本中词频数值大 于预设词频阈值的多个指定关键词, 反应了所述语音内容中的主要信息或者说话者的语癖 (其中, 若语癖是第一对象欣赏的, 那么具有相同语癖的说话者一般也能得到第一对象欣 赏, 因此也能作为对象匹配的依据), 例如在一句话中多次提到股票, 那么股票则很可能是 主要信息。 而语速、 语调和重音位置可作为语音特征, 代表一个。
48、人的说话特性。 据此, 获取所 述语速、 语调和重音位置对应的分向量数值, 从而将所述语音特征映射为语音向量。 再生成 高维虚拟空间中的第一向量, 其中所述第一向量由所述关键词向量和所述语音向量顺序连 接而构成。 从而第一向量即可代表所述语音内容与语音特征。 0096 在一个实施方式中, 所述根据预设的距离计算方法, 计算所述综合向量与预设的 参照向量之间的距离值, 并判断所述距离值是否大于预设的距离阈值, 其中所述预设的参 照向量与预设的第二对象对应的步骤S7之前, 包括: 0097 S61、 获取所述第二对象的常用词汇和语音特征, 并将所述第二对象的常用词汇和 语音特征映射为高维虚拟空间中。
49、的第三向量; 0098 S62、 获取所述第二对象的形体特征, 并将所述第二对象的形体特征映射为高维虚 拟空间中的第四向量; 0099 S63、 将所述第三向量与第四向量组合为所述参照向量。 0100 如上所述, 实现了获取参照向量。 由于参照向量要用于计算与第一向量之间的距 离值, 因此参照向量的生成方法优选与第一向量的生成方法相同。 因此, 同样地, 获取所述 第二对象的常用词汇和语音特征, 并将所述第二对象的常用词汇和语音特征映射为高维虚 拟空间中的第三向量; 获取所述第二对象的形体特征, 并将所述第二对象的形体特征映射 为高维虚拟空间中的第四向量。 其中, 所述常用词汇表示了第二对象的。
50、语癖或者擅长的领 域, 与前述语音内容相对应。 据此生成的参照向量, 由于与第一向量的结构相似, 因此可用 距离值来反应匹配程度。 0101 在一个实施方式中, 所述根据预设的距离计算方法, 计算所述综合向量与预设的 参照向量之间的距离值的步骤S7,包括: 说明书 8/14 页 12 CN 111126233 A 12 0102S701、 根据公式:计算所述综合向量与预设的参照向量 之间的距离值DIS, 其中A为所述综合向量, B为所述参照向量, Ai为所述综合向量中第i个分 向量的数值, Bi为所述参照向量中第i个分向量的数值, 所述综合向量和所述参照向量均具 有n个分向量。 0103 如上。
- 内容关键字: 基于 距离 通话 通道 构建 方法 装置 计算机 设备
输液杆的线缆伸缩结构.pdf
环境大气粉尘采样仪.pdf
降低虾苗孵化水中氨氮含量的装置.pdf
高压线圈浇注模具.pdf
反应釜控温系统.pdf
金属锂浇铸装置.pdf
医用输液管加热保温装置.pdf
螺杆钻具清洗装置.pdf
多功能布料收卷装置.pdf
用于图书馆的高处夹持取书装置.pdf
智能化接触网几何参数测量仪.pdf
便携式环境检测仪.pdf
便于安装的防结垢环保矿用管材.pdf
曝气生物滤池除磷装置.pdf
基于睡眠感知的音乐振动理疗仪.pdf
钢板建材加工的激光切割装置.pdf
毫米波被动辐射成像测距装置.pdf
医用分叶球囊.pdf
基于波码通信的分层注水执行装置.pdf
折合型保鲜膜切割滑刀.pdf
注塑件自动化生产设备及其智能调控方法.pdf
书本包装设备.pdf
道路桥梁施工用测量辅助工具.pdf
作物种植地膜拆除装置.pdf
水平放置的可搬运激光稳频腔的安装结构.pdf
气体静压转台的控制方法、装置及气体静压转台.pdf
数据要素处理方法和装置.pdf
用于组装气雾剂产品的组装设备.pdf
老年人用吞咽障碍康复训练设备.pdf
全液晶仪表故障报警存储系统及方法.pdf
木通皂苷D在制备抗骨骼肌萎缩、肌病药物中的应用.pdf
不依赖地图信息的车辆轨迹预测方法.pdf
一种含丹参素的药物组合物及其制备方法.pdf
一种治疗心脑血管疾病的赤芍、红花冻干粉针剂及其制备方法.pdf
一种防止胰腺移植术后肾硬化的护理装置.pdf
替代雌激素的太太天雌素及其应用.pdf
一种具有显著广谱抗病毒作用的药物.pdf
治疗梅尼埃病,梅尼埃综合症及各型眩晕病的中药颗粒及其制备方法.pdf
髋关节假体.pdf
一种含有碱性成纤维生长因子凝胶剂的制备工艺及配方.pdf
一种联合治疗急性心肌梗死的方法.pdf
腹部皮瓣修复手指热压伤固定康复器.pdf
生物角蛋白在制药中的应用.pdf
一种祛痤疮的口服中药制剂.pdf
含有罗红霉素的眼用制剂及其制备方法.pdf
降血糖中药制剂及其生产方法.pdf
双环醇微粉化及口服控释制剂.pdf
一种骨科复合固定指套.pdf
包含纳米颗粒形状的2-4-乙氧基-苯基-3-4-甲磺酰基-苯基-吡唑并1,5-B哒嗪的药物组合物.pdf
一种治疗断筋和外伤的药物及其制备方法.pdf
一种尸体用的义眼片.pdf