基于光流输入的迁移学习用于微表情识别的方法.pdf

上传人:利贞 文档编号:10047328 上传时间:2021-06-02 格式:PDF 页数:8 大小:474.28KB
收藏 版权申诉 举报 下载
基于光流输入的迁移学习用于微表情识别的方法.pdf_第1页
第1页 / 共8页
基于光流输入的迁移学习用于微表情识别的方法.pdf_第2页
第2页 / 共8页
基于光流输入的迁移学习用于微表情识别的方法.pdf_第3页
第3页 / 共8页
文档描述:

《基于光流输入的迁移学习用于微表情识别的方法.pdf》由会员分享,可在线阅读,更多相关《基于光流输入的迁移学习用于微表情识别的方法.pdf(8页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010666988.0 (22)申请日 2020.07.13 (71)申请人 南京航空航天大学 地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人 张立言李星燃 (74)专利代理机构 南京瑞弘专利商标事务所 (普通合伙) 32249 代理人 陈国强 (51)Int.Cl. G06K 9/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于光流输入的迁移学习用于微表情 识别的方法 (5。

2、7)摘要 本发明公开了一种基于光流输入的迁移学 习用于微表情识别的方法, 包括以下步骤: 步骤 1: 下载微表情数据集, 对其进行对齐、 归一化; 步 骤2: 计算经步骤1处理后的微表情数据集中每个 微表情视频的光流估计, 得到光流序列; 步骤3: 使用基于面部表情的CNN模型进行从宏表情到微 表情迁移学习, 输入为步骤2中得到的光流序列, 输出为时间空间特征, 对网络进行训练后最终实 现微表情识别功能。 本发明解决了微表情识别中 数据规模小产生过拟合的问题, 同时光流比原始 数据具有更高的层次特征, 进一步提升了模型的 性能。 权利要求书2页 说明书5页 CN 111950373 A 202。

3、0.11.17 CN 111950373 A 1.一种基于光流输入的迁移学习用于微表情识别的方法, 其特征在于: 包括以下步骤: 步骤1: 下载微表情数据集, 对其进行对齐、 归一化; 步骤2: 计算经步骤1处理后的微表情数据集中每个微表情视频的光流估计, 得到光流 序列; 步骤3: 使用基于面部表情的CNN模型进行从宏表情到微表情迁移学习, 输入为步骤2中 得到的光流序列, 输出为时间空间特征, 对网络进行训练后最终实现微表情识别功能。 2.根据权利要求1所述的基于光流输入的迁移学习用于微表情识别的方法, 其特征在 于: 所述步骤1中, 对齐时使用活动形状模型在微表情数据集中的每个微表情视频。

4、的第一帧 中检测到68个面部标志, 然后根据比对模板对每个微表情视频的第一帧进行归一化, 每个 微表情视频中的后续帧都通过局部加权均值变换与第一帧进行比对; 归一化包括空间域和 时间域归一化, 空间域归一化将所有图像都在人脸区域内被裁剪为96112像素, 时间域归 一化采用线性插值方法来获取足够数量的帧。 3.根据权利要求1或2所述的基于光流输入的迁移学习用于微表情识别的方法, 其特征 在于: 所述步骤1中, 微表情数据集为CASMEII。 4.根据权利要求1所述的基于光流输入的迁移学习用于微表情识别的方法, 其特征在 于: 所述步骤2中, 在一段微表情视频中, 设在点(x, y, t)的值是。

5、I(x, y, t), 时隔 t到下一帧, 像素移动(x+ x, y+ y, t+ t), 强度为I(x+ x, y+ y, t+ t), 基于小周期内亮度的不变性, 得 到: I(x, y, t)I(x+ x, y+ y, t+ t) (1) 其中, xu t, yv t, u(x, y)和v(x, y)为光流场中需要估计的水平分量和垂直分 量, 设微表情视频中的像素值是其位置和时间的连续函数, 根据泰勒级数展开, 上述函数的 右部表示为: 其中, 是二阶及以上时间 t的无偏估计量, 当 t趋向于无穷小, 让式(2)两边除以时间 t和式(1), 然后得到光流方程如下: 即, 5.根据权利要求。

6、1所述的基于光流输入的迁移学习用于微表情识别的方法, 其特征在 于: 所述步骤3中, 设计一个从宏表情到微表情进行迁移学习的网络, 以实现微表情识别功 能: 迁移学习的源标签空间为: 目标标签空间为: 其中, PositiveHappy, NegativeAfraid, Angry, Disgust, Sad, Fear, Surprise Surprise, 情绪不清的面部动作属于Others; 权利要求书 1/2 页 2 CN 111950373 A 2 网络整体结构如下: input-conv_1-max-pool_1-conv_2-max-pool_2-conv_3-max-pool_。

7、3- fc_1-fc_2-lstm_1-lstm_2-lstm_3-fc_3-spatial_temporal feature 其中, input为步骤2中得到的光流序列, conv_ii1, 2, 3表示第i个卷积层, 除conv1 的卷积操作后都采用批归一化; max-pool_ii1, 2, 3表示第i个最大池化层; fc_ii1, 2, 3表示第i个全连接层, 从fc_2层提取空间特征表示; lstm_ii1, 2, 3表示第i个LSTM 层; spatial_temporal feature表示经过迁移学习最终得到的时空特征向量; 每个卷积和 全连接层的输出都采用ReLU非线性层作为。

8、激活函数来约束输出; 在第一和第二完全连接层 之后, 有一个dropout层, 来减轻对特征向量的过拟合; 学习空间特征表示的目标函数如下: 其中,表示第i个样本的真值, 如果k是正确的类, 则为1, 否则为0,表示在 全连接层上计算的表情类别k的预测概率; 目标项L1使具有不同表情类型的样本在功能空 间中可分离; 其中, fc, p, i表示c类第i个训练样本的空间特征表示向量, 最后一层提取的第p个表情状 态; mc表示c类训练样本的均值特征向量;是在jc时, mc和mj之间最小距离的一半; 目 标项L2便同一表情类中的类内变化因受试者外观等因素造成的影响减少; 学习时间特征表示的LSTM。

9、层的操作如下: gin, t(l)sigm(Win(l)ht-1(l), ht(l-1)+bin(l), gf, t(l)sigm(Wf(l)ht-1(l), ht(l-1)+bf(l), go, t(l)sigm(Wo(l)ht-1(l), ht(l-1)+bo(l), 其中, W*(l)和b*(l)分别表示第l个LSTM层的权值和偏差, *为下标in、 f、 o、 cell, 分别表示 input、 forget、 output、 记忆单元; gin, t(l)表示输入门, 决定了当前时刻t网络的输入有多少 保存到单元状态; gf, t(l)表示遗忘门, 决定了上一时刻的单元状态有多少保存。

10、到当前时刻t; go, t(l)表示输出门, 决定单元状态有多少输出到LSTM的当前输出值; cellt(l)表示当前时刻t 输入的单元状态; ht(l)表示给定第t个输入的第l个LSTM层的输出。 权利要求书 2/2 页 3 CN 111950373 A 3 一种基于光流输入的迁移学习用于微表情识别的方法 技术领域 0001 本发明属于计算机视觉领域中, 特别涉及一种应用深度学习实现的微表情识别方 法。 背景技术 0002 微表情识别是计算机视觉领域的一个具有挑战性的任务, 因为它具有面部表情受 抑制和持续时间短的特点。 近年来, 因其在临床诊断、 刑事侦查、 安全系统等诸多领域的潜 在应用。

11、, 越来越受到不同学科领域专家的关注。 微表情是一种特殊的面部表情, 它被定义为 一种不受人的意识控制、 能表现真实情感的快速面部动作, 能够揭示人们试图隐藏的真实 情感。 用面部表情来欺骗别人是可能的, 但是微表情是不可能的。 0003 尽管微表情在视觉上与面部表情相似, 但微表情短且受抑制, 这使得微表情识别 比面部表情识别更具挑战性。 在一个心理学实验中使用微表情训练工具(METT)来训练微表 情的七个类别, 平均微表情识别率为50。 深度学习的发展使得可以利用卷积神经网络 (CNN)从多个标记图像中学习层次特征。 然而, 深度学习需要大量的数据, 由于微表情数据 的缺乏, 从微表情数据。

12、中直接训练卷积神经网络(CNN)模型是不可行的。 据规模小的问题。 发明内容 0004 本发明的目的是提供一种基于光流输入的迁移学习用于微表情识别的方法, 以解 决直接用微表情数据库进行微表情识别数据规模小而产生的过拟合问题 0005 为实现上述目的, 本发明采用的技术方案为: 0006 一种基于光流输入的迁移学习用于微表情识别的方法, 包括以下步骤: 0007 步骤1: 下载微表情数据集, 对其进行对齐、 归一化; 0008 步骤2: 计算经步骤1处理后的微表情数据集中每个微表情视频的光流估计, 得到 光流序列; 0009 步骤3: 使用基于面部表情的CNN模型进行从宏表情到微表情迁移学习,。

13、 输入为步 骤2中得到的光流序列, 输出为时间空间特征, 对网络进行训练后最终实现微表情识别功 能。 0010 所述步骤1中, 对齐时使用活动形状模型在微表情数据集中的每个微表情视频的 第一帧中检测到68个面部标志, 然后根据比对模板对每个微表情视频的第一帧进行归一 化, 每个微表情视频中的后续帧都通过局部加权均值变换与第一帧进行比对; 归一化包括 空间域和时间域归一化, 空间域归一化将所有图像都在人脸区域内被裁剪为96112像素, 时间域归一化采用线性插值方法来获取足够数量的帧。 0011 所述步骤2中, 在一段微表情视频中, 设在点(x,y,t)的值是I(x,y,t), 时隔 t到下 一帧。

14、,像素移动(x+ x,y+ y,t+ t), 强度为I(x+ x,y+ y,t+ t), 基于小周期内亮度的不变 性, 得到 0012 I(x,y,t)I(x+ x,y+ y,t+ t) (1) 说明书 1/5 页 4 CN 111950373 A 4 0013 其中, xu t, yv t, u(x,y)和v(x,y)为光流场中需要估计的水平分量和垂直 分量, 设微表情视频中的像素值是其位置和时间的连续函数, 根据泰勒级数展开, 上述函数 的右部表示为: 0014 0015 其中, 是二阶及以上时间 t的无偏估计量, 当 t趋向于无穷小,让式(2)两边除以 时间 t和式(1),然后得到光流方。

15、程如下: 0016 0017 即, 0018 0019 所述步骤3中, 设计一个从宏表情到微表情进行迁移学习的网络, 以实现微表情识 别功能: 0020 迁移学习的源标签空间为: 0021 ySNeutral,Angry,Contempt,Disgust,Fear,Happy,Sad,Surprise 0022 目标标签空间为: 0023 yTPositive,Negative,Surprise,Others 0024 其中, PositiveHappy, NegativeAfraid,Angry,Disgust,Sad,Fear, SurpriseSurprise, 情绪不清的面部动作属于O。

16、thers; 0025 网络整体结构如下: 0026 input-conv_1-max-pool_1-conv_2-max-pool_2-conv_3-max-pool_3- fc_1-fc_2-lstm_1-lstm_2-lstm_3-fc_3-spatial_temporal feature 0027 其中, input为步骤2中得到的光流序列, conv_ii1, 2, 3表示第i个卷积层, 除 conv1的卷积操作后都采用批归一化; max-pool_ii1, 2, 3表示第i个最大池化层; fc_i i1, 2, 3表示第i个全连接层, 从fc2层提取空间特征表示; lstm_ii1。

17、, 2, 3表示第i个 LSTM层; spatial_temporal feature表示经过迁移学习最终得到的时空特征向量; 每个卷 积和全连接层的输出都采用ReLU非线性层作为激活函数来约束输出; 在第一和第二完全连 接层之后, 有一个dropout层, 来减轻对特征向量的过拟合; 0028 学习空间特征表示的目标函数如下: 0029 0030其中,表示第i个样本的真值, 如果k是正确的类, 则为1, 否则为0,表 示在全连接层上计算的表情类别k的预测概率; 目标项L1使具有不同表情类型的样本在功 能空间中可分离; 0031 0032 其中, fc, p, i表示c类第i个训练样本的空间特。

18、征表示向量, 最后一层提取的第p个表 情状态; mc表示c类训练样本的均值特征向量;是在jc时, mc和mj之间最小距离的一 说明书 2/5 页 5 CN 111950373 A 5 半; 目标项L2使同一表情类中的类内变化因受试者外观等因素造成的影响减少; 0033 学习时间特征表示的LSTM层的操作如下: 0034 gin, t(l)sigm(Win(l)ht-1(l), ht(l-1)+bin(l), 0035 gf, t(l)sigm(Wf(l)ht-1(l), ht(l-1)+bf(l), 0036 go, t(l)sigm(Wo(l)ht-1(l), ht(l-1)+bo(l), 。

19、0037 0038 0039 其中, W*(l)和bx(l)分别表示第l个LSTM层的权值和偏差, *为下标in、 f、 o、 cell, 分别 表示input、 forget、 output、 记忆单元; gin, t(l)表示输入门, 决定了当前时刻t网络的输入有 多少保存到单元状态; gf, t(l)表示遗忘门, 决定了上一时刻的单元状态有多少保存到当前时 刻t; go, t(l)表示输出门, 决定单元状态有多少输出到LSTM的当前输出值; cellt(l)表示当前 时刻t输入的单元状态; ht(l)表示给定第t个输入的第l个LSTM层的输出。 0040 有益效果: 与现有技术不同的是,。

20、 本发明在两方面提出了创新。 一方面, 网络输入 不是经过简单对齐、 归一化处理的微表情数据序列, 而是对原始微表情数据集中序列进行 光流估计, 使得微表情视频中的细微动作更加明显, 以此来获得高层次的特征; 另一方面, 卷积神经网络能够学习具有代表性的表情状态帧的空间图像特征, 但是微表情数据的样本 量非常小, 直接训练很容易过拟合, 因此本发明采用基于面部表情的CNN模型进行迁移学 习, 使用预训练的ImageNet_CNN在面部表情数据集CK+上训练, 训练后的网络包含一些与微 表情共享的表情信息, 这些信息被传输到LSTM训练网络中学习时空特征。 以此来解决直接 用微表情数据库进行微表。

21、情识别数据规模小而产生的过拟合问题。 具体实施方式 0041 下面对本发明做更进一步的解释。 0042 一种基于光流输入的迁移学习用于微表情识别的方法, 包括以下步骤: 0043 步骤1, 下载微表情数据集, 对其进行对齐、 归一化; 获取CASMEII作为本次训练模 型的数据集。 其中, 对齐时使用活动形状模型(ASM)在微表情数据集中的每个微表情视频的 第一帧中检测到68个面部标志, 然后根据比对模板对每个微表情视频的第一帧进行归一 化, 每个微表情视频中的后续帧都通过局部加权均值(LWM)变换与第一帧进行比对; 归一化 包括空间域和时间域归一化, 空间域归一化将所有图像都在人脸区域内被裁。

22、剪为96112 像素, 时间域归一化采用线性插值方法来获取足够数量的帧。 0044 步骤2: 计算经步骤1处理后的微表情数据集中每个微表情视频的光流估计, 得到 光流序列; 为了保证提出的体系结构能够获得高层特征, 输入网络的数据不是原始数据, 而 是光流, 光流比原始数据具有更高的层次特征, 在微表情识别中被证明是有效的。 0045 在一段微表情视频中, 设在点(x, y, t)的值是I(x, y, t), 时隔 t到下一帧, 像素移 动(x+ x, y+ y, t+ t), 强度为I(x+ x, y+ y, t+ t), 基于小周期内亮度的不变性, 得到 0046 I(x, y, t)I(。

23、x+ x, y+ y, t+ t) (1) 0047 其中, xu t, yv t, u(x, y)和v(x, y)为光流场中需要估计的水平分量和垂直 分量, 设微表情视频中的像素值是其位置和时间的连续函数, 根据泰勒级数展开, 上述函数 说明书 3/5 页 6 CN 111950373 A 6 的右部表示为: 0048 0049 其中, 是二阶及以上时间 t的无偏估计量, 当 t趋向于无穷小, 让式(2)两边除以 时间 t和式(1), 然后得到光流方程如下: 0050 0051 即, 0052 0053 步骤3: 使用基于面部表情的CNN模型进行从宏表情到微表情迁移学习, 输入为步 骤2中得。

24、到的光流序列, 输出为时间空间特征, 对网络进行训练后最终实现微表情识别功 能。 0054 表情和微表情有着共同的知识, 它们在表达情感时是相似的, 因此有相似的纹理 信息。 作为动态的面部运动, 它们具有相同的时间模式、 onset期、 apex期和offset期。 相似 的纹理和时间模式使得从表情到微表情的学习成为可能。 0055 迁移学习的目的是在相关的源域和目标域之间迁移知识。 0056 设计一个从宏表情到微表情进行迁移学习的网络, 以实现微表情识别功能: 0057 迁移学习的源标签空间为: 0058 ysNeutral, Angry, Contempt, Disgust, Fear,。

25、 Happy, Sad, Surprise 0059 目标标签空间为: 0060 yTPositive, Negative, Surprise, Others 0061 其中, PositiveHappy, NegativeAfraid, Angry, Disgust, Sad, Fear, SurpriseSurprise, 情绪不清的面部动作属于Others; 因此, 源任务和目标任务是相关 的, 这进一步提高了迁移学习的性能。 0062 Deep CNN需要大量带注释的样本, 微表情数据的样本量与现有的表情数据相比, 样本量非常小。 深度CNN对这样小尺寸的数据并不能保证有良好的性能。 。

26、因此, 使用预训练 的ImageNet_CNN在面部表情数据集CK+上训练, 训练后的网络包含一些与微表情共享的表 情信息, 这些信息被传输到LSTM训练网络中学习时空特征。 0063 网络整体结构如下: 0064 input-conv_1-max-pool_1-conv_2-max-pool_2-conv_3-max-pool_3- fc_1-fc_2-lstm_1-lstm_2-lstm_3-fc_3-spatial_temporalfeature 0065 其中, input为步骤2中得到的光流序列, conv_ii1, 2, 3表示第i个卷积层, 除 conv1的卷积操作后都采用批归一。

27、化; max-pool_ii1, 2, 3表示第i个最大池化层; fc_i i1, 2, 3表示第i个全连接层, 从fc_2层提取空间特征表示; lstm_ii1, 2, 3表示第i 个LSTM层; spatial_temporal feature表示经过迁移学习最终得到的时空特征向量; 每个 卷积和全连接层的输出都采用ReLU非线性层作为激活函数来约束输出; 在第一和第二完全 连接层之后, 有一个dropout层, 来减轻对特征向量的过拟合; 0066 学习空间特征表示的目标函数如下: 说明书 4/5 页 7 CN 111950373 A 7 0067 0068其中,表示第i个样本的真值, 。

28、如果k是正确的类, 则为1, 否则为0,表 示在全连接层上计算的表情类别k的预测概率; 目标项L1使具有不同表情类型的样本在功 能空间中可分离; 0069 0070 其中, fc, p, i表示c类第i个训练样本的空间特征表示向量, 最后一层提取的第p个表 情状态; mc表示c类训练样本的均值特征向量;是在jc时, mc和mj之间最小距离的一 半; 目标项L2使同一表情类中的类内变化因受试者外观等因素造成的影响减少; 0071 学习时间特征表示的LSTM层的操作如下: 0072 gin, t(l)sigm(Win(l)ht-1(l), ht(l-1)+bin(l), 0073 gf, t(l)。

29、sigm(Wf(l)ht-1(l), ht(l-1)+bf(l), 0074 go, t(l)sigm(Wo(l)ht-1(l), ht(l-1)+bo(l), 0075 0076 0077 其中, W*(l)和b*(l)分别表示第l个LSTM层的权值和偏差, *为下标in、 f、 o、 cell, 分别 表示input、 forget、 output、 记忆单元; gin, t(l)表示输入门, 决定了当前时刻t网络的输入有 多少保存到单元状态; gf, t(l)表示遗忘门, 决定了上一时刻的单元状态有多少保存到当前时 刻t; go, t(l)表示输出门, 决定单元状态有多少输出到LSTM的。

30、当前输出值; cellt(l)表示当前 时刻t输入的单元状态; ht(l)表示给定第t个输入的第l个LSTM层的输出; 。 0078 本发明对原始微表情数据集中的视频序列进行光流估计, 使得视频中的细微动作 更加明显, 以此来获得高层次的特征; 在网络结构方面, 本发明使用了从宏表情到微表情的 迁移学习, 利用在ImageNet上预训练的深度CNN, 使用大样本的表情数据对上述深度CNN进 行预训练, 训练后的网络包含一些与微表情共享的表情信息, 这些信息被传输到LSTM训练 网络中进行微表情识别, 加快网络训练速度。 解决了因为卷积神经网络需要大量带注释的 样本而对这样小尺寸的数据产生过拟合且不能保证有良好性能的问题。 0079 以上所述仅是本发明的优选实施方式, 应当指出, 对于本技术领域的普通技术人 员来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和润饰, 这些改进和润饰也应 视为本发明的保护范围。 说明书 5/5 页 8 CN 111950373 A 8 。

展开阅读全文
内容关键字: 基于 输入 迁移 学习 用于 表情 识别 方法
关于本文
本文标题:基于光流输入的迁移学习用于微表情识别的方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10047328.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1