基于归一化互信息的多模态融合方法、装置、介质及设备.pdf
《基于归一化互信息的多模态融合方法、装置、介质及设备.pdf》由会员分享,可在线阅读,更多相关《基于归一化互信息的多模态融合方法、装置、介质及设备.pdf(13页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010156708.1 (22)申请日 2020.03.09 (71)申请人 华南理工大学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 陈变娜张通晋建秀陈俊龙 (74)专利代理机构 广州市华学知识产权代理有 限公司 44245 代理人 霍健兰梁莹 (51)Int.Cl. G06K 9/62(2006.01) (54)发明名称 基于归一化互信息的多模态融合方法、 装 置、 介质及设备 (57)摘要 本发明提供了一种基于归一化互信息的多 模态融合方法。
2、、 装置、 介质及设备; 其中方法包括 如下步骤: 获取采集人体的多种模态数据集, 各 种模态数据集中的数据分别带有标签; 对各种模 态数据集进行预处理; 将预处理后的各种模态数 据集分别进行特征提取; 通过宽度学习系统得到 各个模态数据集的宽度学习特征映射; 确定归一 化互信息的多模态融合方式; 将宽度学习系统进 行训练和测试; 根据训练和测试好的多模态融合 方式和判别架构模型来进行模态特征融合和最 终的判决输出。 本发明训练速度快, 资源消耗少, 能快速构建增量学习模型; 可实现模态间的信息 互补减少冗余模态信息; 具有良好的可靠性、 准 确性和鲁棒性。 权利要求书3页 说明书8页 附图1。
3、页 CN 111461176 A 2020.07.28 CN 111461176 A 1.一种基于归一化互信息的多模态融合方法, 其特征在于: 包括如下步骤: S1步、 获取采集人体的多种模态数据集, 各种模态数据集中的数据分别带有标签; 对于 各种模态数据集, 数据总数量相同, 数据的标签归类划分相同, 数据模态不相同; S2步、 对各种模态数据集进行预处理; 将预处理后的各种模态数据集分别进行特征提 取, 以获取有利于决策标签的相应特征数据; S3步、 通过宽度学习系统得到各个模态数据集的宽度学习特征映射; 确定归一化互信 息的多模态融合方式; 利用各种模态数据集的特征数据将宽度学习系统进。
4、行训练和测试, 得到训练和测试好的宽度学习系统的判别架构模型; 判别架构模型采用伪逆矩阵运算来算 出; S4步、 根据训练和测试好的多模态融合方式和判别架构模型来进行模态特征融合和最 终的判决输出。 2.根据权利要求1所述的基于归一化互信息的多模态融合方法, 其特征在于: 所述S1步中, 任意单个模态数据集的数据设定为SS1, S2, S3, ., SN, 对应的标签为C C1, C2, C3, ., CN, N表示该单个模态数据集的数据总数量; 所述S2步中, 经过特征提取之后的特征数据X为XX1, X2, X3, ., XN。 3.根据权利要求2所述的基于归一化互信息的多模态融合方法, 其。
5、特征在于: 所述S3步 中, 宽度学习系统包括数据输入层、 特征映射层、 权重学习层和预测输出层; 所述宽度学习 系统中, 特征映射层的处理步骤包括: A1、 将输入的特征数据X随机映射到特征节点Z1, Z2, ., Zn, 得到初步的映射特征节点 为: 其中,和是随机生成, 是激活函数, n为节点层数; 得到所有的特征节点为ZnZ1Z2.Zn; A2、 将特征节点随机映射到增强节点H1, H2, ., Hm, 则第m组增强节点为: 其中,和是随机生成, 是激活函数; 得到所有的增强节点为HmH1H2.Hm, 单个模态数据集的宽度学习特征映射为: FZ1.Zn|H1.Hm A3、 重复步骤A1。
6、和A2, 直至计算出所有模态数据集的宽度特征映射; 得到各个模态数据 集的宽度学习特征映射为: FkZ1.Zn|H1.Hm 其中, k为模态数据集的种类总数。 4.根据权利要求3所述的基于归一化互信息的多模态融合方法, 其特征在于: 所述S3步 中, 确定归一化互信息的多模态融合方式的步骤如下: B1、 分别计算各个模态数据集的宽度学习特征映射和标签的归一化互信息融合权值: 其中, C为标签数据,j表示Fk中的第j个特征; 权利要求书 1/3 页 2 CN 111461176 A 2 B2、 将各个模态数据集的融合权值输入到归一化指数函数, 以更新为融合权值 融合权值的取值范围为(0,1); 。
7、B3、 最终的多模态融合的宽度学习特征Ffuse为各个模态数据集的宽度学习特征映射的 加权和: 5.根据权利要求4所述的基于归一化互信息的多模态融合方法, 其特征在于: 所述S3步 中, 判别架构模型采用伪逆矩阵运算来算出, 是指: 判决架构的输出结果为: YFfuseW 其中,是宽度学习系统的连接权重;为Ffuse的伪逆矩阵; 根据岭回归近似算出 6.根据权利要求1所述的基于归一化互信息的多模态融合方法, 其特征在于: 所述多种 模态数据集包括生理信号模态数据集、 音频模态数据集和视觉模态数据集中的任两种或三 种。 7.根据权利要求6所述的基于归一化互信息的多模态融合方法, 其特征在于: 所。
8、述S2步 中, 对各种模态数据集进行预处理, 是指: 对生理信号模态数据集的数据进行滤波以去除冗余的波段; 对音频模态数据集的数据进行分割、 分帧处理, 添加滤波器以增加声音清晰度和剔除 杂音; 对视觉模态数据的数据进行分析图像光照强度, 滤波以抑制噪声, 突出面部轮廓, 凸线 明亮的瞳孔, 面部肤色信息。 8.一种基于归一化互信息的多模态融合装置, 其特征在于, 包括: 多模态数据集获取模块, 用于获取采集人体的多种模态数据集, 各种模态数据集中的 数据分别带有标签; 对于各种模态数据集, 数据总数量相同, 数据的标签归类划分相同, 数 据模态不相同; 特征提取模块, 用于对各种模态数据集进。
9、行预处理; 将预处理后的各种模态数据集分 别进行特征提取, 以获取有利于决策标签的相应特征数据; 宽度学习训练和测试模块, 用于通过宽度学习系统得到各个模态数据集的宽度学习特 征映射; 确定归一化互信息的多模态融合方式; 利用各种模态数据集的特征数据将宽度学 习系统进行训练和测试, 得到训练和测试好的宽度学习系统的判别架构模型; 判别架构模 权利要求书 2/3 页 3 CN 111461176 A 3 型采用伪逆矩阵运算来算出; 多模态融合输出模块, 用于根据训练和测试好的多模态融合方式和判别架构模型来进 行模态特征融合和最终的判决输出。 9.一种存储介质, 其特征在于, 其中所述存储介质存储。
10、有计算机程序, 所述计算机程序 当被处理器执行时使所述处理器执行权利要求1-7中任一项所述的基于归一化互信息的多 模态融合方法。 10.一种计算设备, 包括处理器以及用于存储处理器可执行程序的存储器, 其特征在 于, 所述处理器执行存储器存储的程序时, 实现权利要求1-7中任一项所述的基于归一化互 信息的多模态融合方法。 权利要求书 3/3 页 4 CN 111461176 A 4 基于归一化互信息的多模态融合方法、 装置、 介质及设备 技术领域 0001 本发明涉及数据处理技术领域, 更具体地说, 涉及一种基于归一化互信息的多模 态融合方法、 装置、 介质及设备。 背景技术 0002 多模态。
11、融合是综合利用两个或多个模态的信息(如文字语句模态、 面部视觉表情、 声音模态和生理数据模态)以进行目标预测的过程(分类或者回归), 它还存在其他常见的 别名, 例如多源信息融合、 多传感器融合。 按照融合的层次, 可以将多模态融合分为数据层, 特征层和决策层三类, 即是分别对应对原始数据进行融合、 对抽象的特征进行融合和对决 策结果进行融合。 而特征层融合又可发生在特征抽取的早期和晚期, 当然还有将多种融合 层次混合方法。 多模态融合通过互补, 消除歧义和不确定性, 得到更加准确的决策判断结 果。 实现信息补充, 拓宽输入数据所包含信息的覆盖范围, 提升预测结果的精度, 提高预测 模型的鲁棒。
12、性。 跨模态人体生理数据和行为数据, 例如面部表情及动作和脑电心电信号等 的开发和利用有着很强的社会经济价值和研究价值。 0003 现有的多模态融合方法大多基于深度神经网络来实现模态融合。 常用的方式有对 各模态表示进行相同位置元素的相乘或相加、 构建编码器-解码器结构和用长短期记忆模 型(Long short-term memory,LSTM)神经网络进行信息整合。 如情绪识别任务有使用双峰 自编码神经网络对提取的脑电图和眼睛信号进行特征集成和重构产生情绪分类识别结果; 如在图像问答任务中采用卷积神经网络和LSTM神经网络进行学习; 在视频描述任务中卷积 神经网络上叠加LSTM神经网络, 实。
13、现了对视频中的时间和空间信息的融合; 使用LSTM神经 网络融合由卷积神经网络获取的与视频相关的单词信息, 生成视频描述语句等等。 0004 多模态融合研究的难点主要包括如何判断每个模态的置信水平、 如何判断模态间 的相关性、 如何对多模态的特征信息进行降维以及如何对非同步采集的多模态数据进行配 准等。 0005 现有的多模态融合方法大多基于深度神经网络来实现模态融合。 在单一模态下特 定任务中的特征学习问题, 深度学习以其强大的特征提取能力和分析能力, 已经展现出了 良好的准确率和泛化性能。 然而, 目前的深度学习算法在面对不同模态的数据类型时候所 反映出来的难训练、 难推理的问题无法得到很。
14、好的解决。 整体而言深度神经网络对于跨模 态综合数据任然不具有很完善的处理方法。 发明内容 0006 为克服现有技术中的缺点与不足, 本发明的目的在于提供一种基于归一化互信息 的多模态融合方法、 装置、 介质及设备; 本发明利用宽度学习的特征映射方法进行特征的进 一步学习, 具有训练速度快、 资源消耗少、 能快速构建增量学习模型等优点; 直接通过归一 化互信息来获取各个模态和输出判别架构的相关性信息来实现特征层的融合, 实现模态间 的信息互补减少冗余模态信息且不需要的多余的学习参数; 简单高效, 能够在可靠性和准 说明书 1/8 页 5 CN 111461176 A 5 确性上获得更好的性能,。
15、 同时具备更良好的鲁棒性。 0007 为了达到上述目的, 本发明通过下述技术方案予以实现: 一种基于归一化互信息 的多模态融合方法, 其特征在于: 包括如下步骤: 0008 S1步、 获取采集人体的多种模态数据集, 各种模态数据集中的数据分别带有标签; 对于各种模态数据集, 数据总数量相同, 数据的标签归类划分相同, 数据模态不相同; 0009 S2步、 对各种模态数据集进行预处理; 将预处理后的各种模态数据集分别进行特 征提取, 以获取有利于决策标签的相应特征数据; 0010 S3步、 通过宽度学习系统得到各个模态数据集的宽度学习特征映射; 确定归一化 互信息的多模态融合方式; 利用各种模态。
16、数据集的特征数据将宽度学习系统进行训练和测 试, 得到训练和测试好的宽度学习系统的判别架构模型; 判别架构模型采用伪逆矩阵运算 来算出; 0011 S4步、 根据训练和测试好的多模态融合方式和判别架构模型来进行模态特征融合 和最终的判决输出。 0012 优选地, 所述S1步中, 任意单个模态数据集的数据设定为SS1,S2,S3,.,SN, 对应的标签为CC1,C2,C3,.,CN,N表示该单个模态数据集的数据总数量; 0013 所述S2步中, 经过特征提取之后的特征数据X为XX1,X2,X3,.,XN。 0014 优选地, 所述S3步中, 宽度学习系统包括数据输入层、 特征映射层、 权重学习层。
17、和 预测输出层; 所述宽度学习系统中, 特征映射层的处理步骤包括: 0015 A1、 将输入的特征数据X随机映射到特征节点Z1,Z2,.,Zn, 得到初步的映射特征 节点为: 0016 0017其中,和是随机生成, 是激活函数, n为节点层数; 0018 得到所有的特征节点为ZnZ1Z2.Zn; 0019 A2、 将特征节点随机映射到增强节点H1,H2,.,Hm, 则第m组增强节点为: 0020 0021其中,和是随机生成, 是激活函数; 0022 得到所有的增强节点为HmH1H2.Hm, 单个模态数据集的宽度学习特征映射 为: 0023 FZ1.Zn|H1.Hm 0024 A3、 重复步骤A。
18、1和A2, 直至计算出所有模态数据集的宽度特征映射; 得到各个模态 数据集的宽度学习特征映射为: 0025 FkZ1.Zn|H1.Hm 0026 其中, k为模态数据集的种类总数。 0027 优选地, 所述S3步中, 确定归一化互信息的多模态融合方式的步骤如下: 0028 B1、 分别计算各个模态数据集的宽度学习特征映射和标签的归一化互信息融合权 值: 说明书 2/8 页 6 CN 111461176 A 6 0029 0030 其中, C为标签数据,j表示Fk中的第j个特征; 0031B2、 将各个模态数据集的融合权值输入到归一化指数函数, 以更新为融合权值 0032 0033融合权值的取值。
19、范围为(0,1); 0034 B3、 最终的多模态融合的宽度学习特征Ffuse为各个模态数据集的宽度学习特征映 射的加权和: 0035 0036 优选地, 所述S3步中, 判别架构模型采用伪逆矩阵运算来算出, 是指: 0037 判决架构的输出结果为: 0038 YFfuseW 0039其中,是宽度学习系统的连接权重;为Ffuse的伪逆矩阵; 0040根据岭回归近似算出 0041 0042 优选地, 所述多种模态数据集包括生理信号模态数据集、 音频模态数据集和视觉 模态数据集中的任两种或三种。 0043 优选地, 所述S2步中, 对各种模态数据集进行预处理, 是指: 0044 对生理信号模态数据。
20、集的数据进行滤波以去除冗余的波段; 0045 对音频模态数据集的数据进行分割、 分帧处理, 添加滤波器以增加声音清晰度和 剔除杂音; 0046 对视觉模态数据的数据进行分析图像光照强度, 滤波以抑制噪声, 突出面部轮廓, 凸线明亮的瞳孔, 面部肤色信息。 0047 一种基于归一化互信息的多模态融合装置, 其特征在于, 包括: 0048 多模态数据集获取模块, 用于获取采集人体的多种模态数据集, 各种模态数据集 中的数据分别带有标签; 对于各种模态数据集, 数据总数量相同, 数据的标签归类划分相 同, 数据模态不相同; 0049 特征提取模块, 用于对各种模态数据集进行预处理; 将预处理后的各种。
21、模态数据 集分别进行特征提取, 以获取有利于决策标签的相应特征数据; 0050 宽度学习训练和测试模块, 用于通过宽度学习系统得到各个模态数据集的宽度学 习特征映射; 确定归一化互信息的多模态融合方式; 利用各种模态数据集的特征数据将宽 说明书 3/8 页 7 CN 111461176 A 7 度学习系统进行训练和测试, 得到训练和测试好的宽度学习系统的判别架构模型; 判别架 构模型采用伪逆矩阵运算来算出; 0051 多模态融合输出模块, 用于根据训练和测试好的多模态融合方式和判别架构模型 来进行模态特征融合和最终的判决输出。 0052 一种存储介质, 其特征在于, 其中所述存储介质存储有计算。
22、机程序, 所述计算机程 序当被处理器执行时使所述处理器执行上述基于归一化互信息的多模态融合方法。 0053 一种计算设备, 包括处理器以及用于存储处理器可执行程序的存储器, 其特征在 于, 所述处理器执行存储器存储的程序时, 实现上述基于归一化互信息的多模态融合方法。 0054 与现有技术相比, 本发明具有如下优点与有益效果: 0055 1、 本发明利用宽度学习的特征映射方法进行各个模态特征的进一步学习; 现有的 方法利用深度学习进行多模态特征融合学习, 而深度学习在面对不同模态的数据类型时候 所反映出来的难训练、 难推理的问题无法得到很好的解决。 而本发明采取宽度学习的特征 映射方法是基于随。
23、机向量函数连接神经网络提出的学习框架, 是一种浅层结构的增量学习 系统, 其随机性质的特点不需要学习参数, 因而具有速度快、 资源消耗少, 并且能快速构建 增量学习模型等优点; 0056 2、 本发明通过归一化互信息来获取各个模态和标签类别的相关性信息来实现特 征层的融合; 利用多模态信号之间的互信息相关性进行互补, 减少冗余模态信息, 与其他典 型的融合方法相比实现过程不需要的多余的学习参数, 简单高效, 也能够在可靠性和准确 性上获得更好的性能, 同时具备更良好的鲁棒性; 0057 3、 本发明设计的判决架构模型采用宽度学习系统的连接权重学习特点, 采用伪逆 矩阵运算来快速算出; 不依赖迭。
24、代优化器计算模型的权重参数, 具有速度快、 资源消耗少优 点, 非常适合讲究实效性的学习任务; 0058 4、 本发明使用的跨模态数据可包括生理信息模态, 音频模态, 视觉模态等两种或 多种的组合; 不局限于模态类型, 多模态学习模型的数据集既可以来源于自己采集的多模 态数据, 也可以来自现有的公开标准数据库, 模型的适用性增强; 可适用于常见的多模态学 习任务如视听语音识别、 图像问答、 视觉对话、 手势识别、 情感分析以及视频识别和描述等 等。 附图说明 0059 图1是本发明基于归一化互信息的多模态融合方法的流程原理图; 0060 图2是本发明宽度学习系统中特征映射层的结构图。 具体实施。
25、方式 0061 下面结合附图与具体实施方式对本发明作进一步详细的描述。 0062 实施例一 0063 本实施例一种基于归一化互信息的多模态融合方法, 如图1所示, 包括如下步骤: 0064 S1步、 获取采集人体的多种模态数据集, 各种模态数据集中的数据分别带有标签; 对于各种模态数据集, 数据总数量相同, 数据的标签归类划分相同, 数据模态不相同; 0065 S2步、 对各种模态数据集进行预处理; 将预处理后的各种模态数据集分别进行特 说明书 4/8 页 8 CN 111461176 A 8 征提取, 以获取有利于决策标签的相应特征数据; 0066 S3步、 通过宽度学习系统得到各个模态数据。
26、集的宽度学习特征映射; 确定归一化 互信息的多模态融合方式; 利用各种模态数据集的特征数据将宽度学习系统进行训练和测 试, 得到训练和测试好的宽度学习系统的判别架构模型; 判别架构模型采用伪逆矩阵运算 来算出; 0067 S4步、 根据训练和测试好的多模态融合方式和判别架构模型来进行模态特征融合 和最终的判决输出。 0068 多种模态数据集既可以来源于用户自己采集的多模态数据, 也可以来自现有的公 开标准数据库。 跨模态数据数据类型多样, 为了有利于判别架构提供有效的支撑。 本实施例 中, 多种模态数据集包括生理信号模态数据集、 音频模态数据集和视觉模态数据集中的任 两种或三种。 0069 生。
27、理信号模态数据集可包括如脑电数据, 肌电数据和心电数据等两种或多种的组 合。 公开的多模态数据库常见的有包括人体生理信号各模态数据, 如生理信号数据库DEAP 数据集, 其包括7种人体模态数据, 分别为脑电数据、 眼电数据、 肌电数据、 呼吸数据、 皮肤电 流反应数据、 体脂血压和体温数据。 该数据的对应的标签类别为愉悦度, 唤醒度, 支配度, 喜 欢度; 有包括声音视觉和生理数据间模态, 如RECOLA数据库, 包括4种模态数据, 分别为声音 模态, 视觉模态和生理心电数据和电皮肤活动数据模态, 标签类别为愉悦度和唤醒度。 0070 将收集的多种模态数据集进行训练样本集与测试的样本集划分, 。
28、以便更好地验证 模型。 0071 所述S2步中, 对各种模态数据集进行滤波降噪预处理: 0072 对生理信号模态数据集的数据进行滤波以去除冗余的波段; 0073 对音频模态数据集的数据进行分割、 分帧处理, 添加滤波器以增加声音清晰度和 剔除杂音; 0074 对视觉模态数据集的数据进行分析图像光照强度, 滤波以抑制噪声, 突出面部轮 廓, 凸线明亮的瞳孔, 面部肤色信息。 0075 判别架构类别可以是常见的多模态学习任务如视听语音识别、 图像问答、 视觉对 话、 手势识别、 情感分析以及视频识别和描述等等。 0076 对生理信号模态数据集(人体的脑电数据、 心电数据和肌电数据、 呼吸数据,皮肤。
29、 电流反应数据等等)进行特征提取, 常见的特征有时域频域特征(比如有均值、 方差、 一阶二 阶差分特征、 熵特征、 功率谱(PSD)特征和小波变换(DWT)特征等)。 0077 对音频模态数据集进行特征提取, 当前的声音信号的处理技术主要有傅里叶变 换、 线性预测以及倒谱分析等。 基于这些处理技术, 提取出一些当下普遍适用的声学特征, 如梅尔频率倒谱系数(Mel-frequency cepstral coefficients)、 感知线性预测 (perceptual linear prediction)、 线性预测编码(linear predictive coding)和线性预 测倒谱系数(l。
30、inear predictive cepstral coefficients)、 全局的基音轮廓信息和能量 的平均值、 标准差、 最大最小值、 基音频率特征、 共振峰和信号持续时间、 语谱图特征、 都被 用做语音信号的特征并被广泛使用。 0078 视觉模态数据集可包括图像模态和视频模态, 关键问题是学习图像模态的向量表 示。 本方案设计中所使用的特征可以为面部特定区域的点、 区域局部空间的位置或位移等。 说明书 5/8 页 9 CN 111461176 A 9 可利用参数化模型去量化嘴巴、 眼睛、 眉毛的形状和移动来提取视觉模态特征。 0079 具体地说, 所述S1步中, 任意单个模态数据集的。
31、数据设定为SS1,S2,S3,., SN,对应的标签为CC1,C2,C3,.,CN,N表示该单个模态数据集的数据总数量。 0080 所述S2步中, 经过特征提取之后的特征数据X为XX1,X2,X3,.,XN。 0081 所述S3步中, 宽度学习系统是基于随机向量函数连接神经网络提出的学习框架, 是一种浅层结构的增量学习系统。 宽度学习系统包括数据输入层、 特征映射层、 权重学习层 和预测输出层; 所述宽度学习系统中, 特征映射层如图2所示, 处理步骤包括: 0082 A1、 将输入的特征数据X随机映射到特征节点Z1,Z2,.,Zn, 得到初步的映射特征 节点为: 0083 0084其中,和是随。
32、机生成, 是激活函数, n为节点层数; 0085 得到所有的特征节点为ZnZ1Z2.Zn; 0086 A2、 将特征节点随机映射到增强节点H1,H2,.,Hm, 则第m组增强节点为: 0087 0088其中,和是随机生成, 是激活函数; 0089 得到所有的增强节点为HmH1H2.Hm, 单个模态数据集的宽度学习特征映射 为: 0090 FZ1.Zn|H1.Hm 0091 A3、 重复步骤A1和A2, 直至计算出所有模态数据集的宽度特征映射; 得到各个模态 数据集的宽度学习特征映射为: 0092 FkZ1.Zn|H1.Hm 0093 其中, k为模态数据集的种类总数。 0094 所述S3步中,。
33、 确定归一化互信息的多模态融合方式的步骤如下: 0095 B1、 分别计算各个模态数据集的宽度学习特征映射和标签的归一化互信息融合权 值: 0096 0097其中, C为标签数据,j表示Fk中的第j个特征; 即第k个模态数据集的融合权值是 其各个宽度学习特征映射和标签数据的归一化信息的加和; 根据归一化互信息的原理, 融 合权值越大, 表示该模态和标签数据的互信息量越大, 该模态具有更优秀的性能表现, 更 有利于对决策判别。 0098B2、 由于融合权值是归一化信息的叠加和, 则融合权值取值范围不是0至1之 间。 为了计算融合后的多模态宽度学习特征, 先将各个模态数据集的融合权值输入到归 一化。
34、指数函数, 即softmax函数, 以更新为融合权值 说明书 6/8 页 10 CN 111461176 A 10 0099 0100融合权值的取值范围为(0,1); 0101 B3、 为了利用不同模态信号之间的互补性, 能够在可靠性和准确性上获得更好的 性能, 最终的多模态融合的宽度学习特征Ffuse为各个模态数据集的宽度学习特征映射的加 权和: 0102 0103 需要注意的是测试过程的多模态融合方式是训练过程中已经确定的归一化互信 息多模态融合方式, 即训练过程中计算的融合权值对应于该模态数据集的测试过程的融 合权值。 0104 所述S3步中, 判别架构模型采用伪逆矩阵运算来算出, 是指。
35、: 0105 判决架构的输出结果可以根据宽度学习系统的预测输出模型, 为: 0106 YFfuseW 0107其中,是宽度学习系统的连接权重, 也是判别架构的学习参数;为 Ffuse的伪逆矩阵; 0108根据岭回归近似算出 0109 0110 本发明的训练过程可确定归一化互信息的多模态融合方式即融合权值和判别架 构的训练权重。 测试过程根据训练过程已经确定的模型来进行模态间融合和最终的判决输 出。 0111 本发明目的在于将人体多种模态数据进行融合进而综合评估, 以更加准确决策判 断。 由于跨模态数据数据类型复杂、 并具备一定的冗余度, 本方法主要探索在特征层上实现 特征融合, 即在决策判断之。
36、前完成特征的提取和融合。 本设计方案的多模态融合方法不依 赖传统的深度神经网络进行特征学习, 不需要深度网络进行迭代训练, 利用宽度学习的特 征映射方法进行特征的进一步学习。 具有训练速度快、 资源消耗少, 能快速构建增量学习模 型等优点。 其他典型的融合方法相比, 本方法直接通过归一化互信息来获取各个模态和标 签类别的相关性信息来实现特征层的融合, 实现模态间的互补减少冗余模态信息, 消除歧 义和不确定性的作用, 不需要的多余的学习参数, 简单高效, 也能够在可靠性和准确性上获 得更好的性能, 同时具备更良好的鲁棒性。 本方案设计也可适用于多模态学习任务如视听 语音识别、 图像问答、 视觉对。
37、话、 手势识别、 情感分析以及视频识别和描述等等。 0112 实施例二 0113 为实现实施例一所述的一种基于归一化互信息的多模态融合方法, 本实施例提供 一种基于归一化互信息的多模态融合装置, 包括: 说明书 7/8 页 11 CN 111461176 A 11 0114 多模态数据集获取模块, 用于获取采集人体的多种模态数据集, 各种模态数据集 中的数据分别带有标签; 对于各种模态数据集, 数据总数量相同, 数据的标签归类划分相 同, 数据模态不相同; 0115 特征提取模块, 用于对各种模态数据集进行预处理; 将预处理后的各种模态数据 集分别进行特征提取, 以获取有利于决策标签的相应特征。
38、数据; 0116 宽度学习训练和测试模块, 用于通过宽度学习系统得到各个模态数据集的宽度学 习特征映射; 确定归一化互信息的多模态融合方式; 利用各种模态数据集的特征数据将宽 度学习系统进行训练和测试, 得到训练和测试好的宽度学习系统的判别架构模型; 判别架 构模型采用伪逆矩阵运算来算出; 0117 多模态融合输出模块, 用于根据训练和测试好的多模态融合方式和判别架构模型 来进行模态特征融合和最终的判决输出。 0118 实施例三 0119 本实施例一种存储介质, 其特征在于, 其中所述存储介质存储有计算机程序, 所述 计算机程序当被处理器执行时使所述处理器执行实施例一所述的一种基于归一化互信息。
39、 的多模态融合方法。 0120 实施例四 0121 本实施例一种计算设备, 包括处理器以及用于存储处理器可执行程序的存储器, 其特征在于, 所述处理器执行存储器存储的程序时, 实现实施例一所述的一种基于归一化 互信息的多模态融合方法。 0122 上述实施例为本发明较佳的实施方式, 但本发明的实施方式并不受上述实施例的 限制, 其他的任何未背离本发明的精神实质与原理下所作的改变、 修饰、 替代、 组合、 简化, 均应为等效的置换方式, 都包含在本发明的保护范围之内。 说明书 8/8 页 12 CN 111461176 A 12 图1 图2 说明书附图 1/1 页 13 CN 111461176 A 13 。
- 内容关键字: 基于 归一化 互信 多模态 融合 方法 装置 介质 设备
农业育苗盘.pdf
污水厂处理用空气介入的药剂搅拌装置.pdf
选粉机.pdf
氧气管收纳装置.pdf
中频感应电炉冷炉装置.pdf
玩具变形车.pdf
复合纤维的快速烘干装置.pdf
可折叠伸缩式电井盖板提升转运装置.pdf
过滤元件旋转焊接装置的接电模块.pdf
漂染废水处理和中水回用设备.pdf
具有旋转装饰部件的玩具泡泡棒.pdf
LED光源模组.pdf
用于标液精确取样装置.pdf
用于制备二氧化碳吸附储存材料的装置.pdf
节能保温断桥铝合金型材.pdf
多节联动节距机构.pdf
气体防倾倒运输装置.pdf
条装食品的整理机.pdf
石墨型钛合金底注式浇注排气系统.pdf
大挠度伸缩闸阀.pdf
薄膜吹塑用冷却装置.pdf
红外图像超分辨重建系统及方法.pdf
数码云相框智能照片优化处理系统.pdf
玄武岩纤维管材检测装置及方法.pdf
桥梁梁板加固焊接设备.pdf
宽范围任意频点的时频参数综合测方法.pdf
高分子颗粒筛选系统.pdf
纳米硅复合隔热材料及其制备方法.pdf
气浮轴承刚度测试装置.pdf
金属软管与燃气灶的连接结构.pdf
基于点云深度学习的机械零部件装配特征测量方法.pdf
基于车身颜色的车辆事故预测方法、设备和存储介质.pdf