基于自然语言描述的行人再识别方法.pdf

上传人:n****g 文档编号:10797920 上传时间:2021-08-12 格式:PDF 页数:21 大小:1MB
收藏 版权申诉 举报 下载
基于自然语言描述的行人再识别方法.pdf_第1页
第1页 / 共21页
基于自然语言描述的行人再识别方法.pdf_第2页
第2页 / 共21页
基于自然语言描述的行人再识别方法.pdf_第3页
第3页 / 共21页
文档描述:

《基于自然语言描述的行人再识别方法.pdf》由会员分享,可在线阅读,更多相关《基于自然语言描述的行人再识别方法.pdf(21页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911148055.6 (22)申请日 2019.11.21 (71)申请人 河北工业大学 地址 300130 天津市红桥区丁字沽光荣道8 号河北工业大学东院330# (72)发明人 于明霍昶伟师硕郝小可 于洋阎刚朱叶刘依郭迎春 (74)专利代理机构 天津翰林知识产权代理事务 所(普通合伙) 12210 代理人 胡安朋 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/46(2006.01) G06K 9/62(2006.01) G06N 3/04。

2、(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于自然语言描述的行人再识别方法 (57)摘要 本发明一种基于自然语言描述的行人再识 别方法, 涉及用于识别图形记录载体的处理, 具 体说是设计图像和自然语言描述双分支网络结 构, 图像分支网络结构采用MobileNet卷积网络 进行图像特征提取, 自然语言描述分支网络结构 通过BiLSTM网络进行文本特征提取, 对于图像特 征和文本特征之间的相似性度量部分进行构建 堆叠损失函数并进行网络训练, 用训练好的网络 在待测图像集中搜索所包含的对应的行人图像, 实现基于堆叠损失函数的自然语言描述的行人 再识别, 克服了现。

3、有技术中所存在的特征提取部 分文本特征表征性不高, 损失函数部分训练网络 困难训练时间长及训练过程要消耗大量内存的 缺陷。 权利要求书6页 说明书13页 附图1页 CN 110909673 A 2020.03.24 CN 110909673 A 1.一种基于自然语言描述的行人再识别方法, 其特征在于: 设计图像和自然语言描述 双分支网络结构, 图像分支网络结构采用MobileNet卷积网络进行图像特征提取, 自然语言 描述分支网络结构通过BiLSTM网络进行文本特征提取, 对于图像特征和文本特征之间的相 似性度量部分进行构建堆叠损失函数并进行网络训练, 得到的训练模型导入网络之后, 在 待测图。

4、像集中搜索所包含的对应的行人图像, 实现基于堆叠损失函数的自然语言描述的行 人再识别, 具体步骤如下: 第一步, 设计图像分支网络结构: 设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取; 第二步, 设计自然语言描述分支网络结构: 设计自然语言描述分支网络结构是进行文本预处理操作、 BiLSTM网络提取文本特征和 截断式注意力机制再处理文本特征; 第三步, 构建堆叠损失函数L, 进行网络训练: 上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的 相似性度量部分进行构建跨模态损失函数Lit和构建单模态分类损失函数Lid, 将跨模态损 失函数Lit和单模。

5、态分类损失函数Lid合并构建堆叠损失函数L, 再进行基于堆叠损失函数L 的网络训练, 得到训练模型; 第四步, 实现基于堆叠损失函数的自然语言描述的行人再识别: 将上述第三步得到的训练模型导入网络之后, 在待测图像集中搜索所包含的对应的行 人图像, 实现基于堆叠损失函数的自然语言描述的行人再识别; 至此, 完成基于自然语言描述的行人再识别。 2.根据权利要求1所述一种基于自然语言描述的行人再识别方法, 其特征在于: 所述设 计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取, 具体操作如下: 首先搭建如下的MobileNet卷积网络, MobileNet卷积网络由14层卷积层,。

6、 1层池化层和 1层全连接层组成, 其中卷积层除了第一层为传统卷积层之外, 其它卷积层均为深度可分离 卷积层, 由一层深度卷积层和一层点卷积层组成; 再进行图像特征提取, 过程是, 输入MobileNet卷积网络的图像大小为224224像素, 经过MobileNet卷积网络之后特征图大小变为输入图像大小的1/32, 输入MobileNet卷积网 络的图像经过第一层传统卷积层之后, 卷积后的特征图大小为112112像素, 通道数为32; 第二层深度可分离卷积层由参数为3332的深度卷积层和参数为113264的点卷 积层组成, 经过第二层卷积后的特征图大小为112112像素, 通道数为64; 第三。

7、层深度可分 离卷积层由参数为3364的深度卷积层和参数为1164128的点卷积层组成, 经过 第三层卷积后的特征图大小为5656像素, 通道数为128; 第四层深度可分离卷积层由参数 为33128的深度卷积层和参数为11128128的点卷积层组成, 经过第四层卷积后 的特征图大小为5656像素, 通道数为128; 第五层深度可分离卷积层由参数为33128 的深度卷积层和参数为11128256的点卷积层组成, 经过第五层卷积后的特征图大小 为2828像素, 通道数为256; 第六层深度可分离卷积层由参数为33256的深度卷积层 和参数为11256256的点卷积层组成, 经过第六层卷积后的特征图大。

8、小为2828像 素, 通道数为256; 第七层深度可分离卷积层由参数为33256的深度卷积层和参数为1 1256512的点卷积层组成, 第八层至第十二层深度可分离卷积层均由参数为33512 权利要求书 1/6 页 2 CN 110909673 A 2 深度卷积层和参数为11512512的点卷积层组成, 经过第七层以及第八层至第十二层 卷积后的特征图大小为1414像素, 通道数为512; 第十三层深度可分离卷积层由参数为3 3512的深度卷积层和参数为115121024的点卷积层组成, 经过第十三层卷积后 的特征图大小为77像素, 通道数为1024; 第十四层深度可分离卷积层由参数为33 102。

9、4的深度卷积层和参数为1110241024的点卷积层组成, 经过第十四层卷积后的特 征图大小为77像素, 通道数为1024; 再经过一层池化层, 得到特征图大小为11像素, 通 道数为1024的图像特征; 为保证图像特征和文本特征的维度相同, 将得到的大小为11像 素, 通道数为1024的图像特征经过MobileNet卷积网络之外的一个111024512卷积层 处理, 提取得到图像特征为IR11512, 由此完成采用MobileNet卷积网络进行图像特征提 取的操作。 3.根据权利要求1所述一种基于自然语言描述的行人再识别方法, 其特征在于: 所述设 计自然语言描述分支网络结构是进行文本预处理。

10、操作、 BiLSTM网络提取文本特征和截断式 注意力机制再处理文本特征的具体操作如下: 第(2.1)步, 文本预处理操作: 通过文本预处理操作得到文本的预处理特征矩阵E, 方法是将文本中的句子划分为单 词, 对每个单词依据词汇表进行one-hot编码, 句子中第i个单词的one-hot编码经过词嵌入 矩阵得到一个d维特征向量edi, 如公式(1)所示, 公式(1)中, n是句子长度, v是词汇表的长度, d是edi的维度, 长度为n的句子, 其nv维的one-hot编码经过vd的词嵌入矩阵, 由此完成文本预处 理操作得到文本的预处理特征矩阵E; 第(2.2)步, BiLSTM网络提取文本特征:。

11、 将上述第(2.1)步得到的文本的预处理特征矩阵E, 依据句子长度为n的文本序列顺序, 依次通过BiLSTM网络的前向LSTM单元和反向LSTM单元, 得到句子的隐藏状态矩阵H, 隐藏状 态矩阵H中任意时刻t的状态向量由前向隐藏状态和反向隐藏状态合并得到, 如 公式(2)所示, 公式(2)中, t为句子中第t个位置, t(1,n)为t的取值范围, 由此通过BiLSTM网络获取到文本特征; 第(2.3)步, 截断式注意力机制再处理文本特征: 对软注意力机制添加阈值进行筛选, 称为截断式注意力机制, 截断式注意力机制由两 层全连接层和一层Softmax层组成, 采用截断式注意力机制处理文本特征的具。

12、体操作是, 将上述第(2.2)步得到的句子的 权利要求书 2/6 页 3 CN 110909673 A 3 时序状态矩阵H通过截断式注意力机制, 得到一个和句子长度n相同维数的权重向量M, 如公 式(3)所示, Msoftmax(Wt2tanh(Wt1H+b1)+b2) (3), 公式(3)中, Wt1和b1为第一个全连接层的参数, Wt2和b2为第二个全连接层的参数, 再通 过对得到的权重向量M进行筛选, 将权重小于阈值 的权重向量忽略掉, 而其他的权重向量 保持不变, 得到截断式注意力机制的权重向量Mnew, 如公式(4)所示, 公式(4)中, x为权重向量M中第x个位置, Mx为权重向量。

13、M中第x个位置的权重, n为句子长 度, 将该截断式注意力机制的权重向量Mnew与上述第(2.2)步得到的隐藏状态矩阵H对应做 乘积运算后再求和, 得到最终的文本特征T, 完成截断式注意力机制处理文本特征, 文本特 征T定义为如下公式(5), TMnewH (5), 由此完成截断式注意力机制再处理文本特征; 至此, 完成进行文本预处理操作、 BiLSTM网络提取文本特征和截断式注意力机制再处 理文本特征的操作。 4.根据权利要求1所述一种基于自然语言描述的行人再识别方法, 其特征在于: 所述上 述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性 度量部分进行构建跨模。

14、态损失函数Lit和构建单模态分类损失函数Lid, 将跨模态损失函数 Lit和单模态分类损失函数Lid合并构建堆叠损失函数L, 再进行基于堆叠损失函数L的网络 训练, 其具体操作如下: 第(3.1)步, 构建跨模态损失函数Lit: 将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间 的相似性度量部分组成匹配图像文本特征对(I,T), 再将图像特征I与文本特征T在空间上 进行相互映射, 得到文本特征T空间下的图像特征 和图像特征I空间下的文本特征T, 再将 如此处理后的图像特征和文本特征作如下处理: 随机抽取训练集中部分图像和文本组成一组输入数据输入到神经网络中, 将每一个。

15、图 像特征和所有文本特征根据身份类别进行匹配, 得到多个图像文本标签对(Iiid,Tjid), 其中 Iiid为第i个图像的身份标签, Tjid为第j个文本的身份标签, 判断自由组合的图像文本标签 对(Iiid,Tjid)是否属于同类, 当同属于一类时, 结果标签Qij记为1, 当不是一类时, 结果标签 Qij记为0, 如公式(6)所示: 一组输入的数据大小为r, 那么由rr个结果标签Qij组成标签矩阵Q, 结果标签Qij对应 的概率分布记为如下公式(7)所示, 权利要求书 3/6 页 4 CN 110909673 A 4 rr个组成概率分布矩阵 同上, 在每次输入数据中, 将每一个图像特征和。

16、和所有的文本特征进行匹配, 得到多个 图像文本特征对, 得到rr个图文特征匹配结果Pij组成矩阵P; 矩阵P经过Softmax层得到对 应的rr的概率分布结果矩阵图文特征匹配结果Pij对应的概率分布是图文特征匹 配结果的概率分布和图文标签匹配结果的概率分布之间的距离即是跨模态损失函数 Lit, 由公式(8)所示, 公式(8)中, r为一组输入数据的大小, 和分别表示第i个图像和第j个文本组成的 图像文本对的特征和标签匹配结果的概率分布, 由此完成构建跨模态损失函数Lit; 第(3.2)步, 构建单模态分类损失函数Lid: 通过如下公式(9)计算获得单模态图像交叉熵损失函数LIid, 通过如下公。

17、式(10)计算获得文本多分类交叉熵损失函数LTid, 公式(9)和公式(10)中, Ws为全连接层权重, 为线性变换函数, r为输入批次的大小, Ik 为第k个图像文本对的图像特征向量, Tk为第k个图像文本对的文本特征向量; 将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T经过线 性变换后通过一个全连接层和一个Softmax层, 得到单模态图像LIid的预测结果PI和文本多 分类损失LTid的预测结果PT, 用公式(11)计算图像文本概率分布之间的相对熵之和, 公式(11)中, PIq为PI的第q个图像的分类预测结果, PTq为PT的第q个文本的分类预测结 果, r为输入。

18、批次的大小, Litid为图像文本概率分布之间的损失函数, q为PT和PI中第q个图像 或者文本; 通过单模态图像交叉熵损失函数LIid、 文本多分类交叉熵损失函数LTid和图像文本概率 分布之间的损失函数Litid求和, 得到基于身份标签的单模态分类损失函数, 如公式(12)所 示, LidLIid+LTid+Litid (12), 公式(12)中, Lid为单模态分类损失函数, 由此完成构建单模态分类损失函数Lid; 第(3.3)步, 构建堆叠损失函数L: 将上述第(3.1)步得到的跨模态损失函数Lit和上述第(3.2)步得到的单模态分类损失 函数Lid合并构建得到最终的堆叠损失函数L, 。

19、如公式(13)所示, 权利要求书 4/6 页 5 CN 110909673 A 5 LLit+Lid (13), 至此完成了构建堆叠损失函数L; 第(3.4)步, 基于堆叠损失函数L的网络训练: 基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练, 具体操作如下: 对于整个训练集, 随机抽取其中一部分图像和文本生成神经网络的一组输入数据, 将 不同次的输入数据分别输入到基于堆叠损失函数L的网络中进行训练, 再通过堆叠损失函 数L进行模型的优化, 缩小跨模态匹配的概率分布差距和单模态分类的概率分布差距进行 训练, 其中堆叠损失函数L的反向传播算法为Adam, 对堆叠损失函数。

20、L的梯度依次进行一阶 矩估计记为nz和二阶矩估计记为vz, 计算公式分别如下公式(14)和公式(15)所示, nz 1nz-1+(1- 1)gz (14), vz 2vz-1+(1- 2)gz2 (15), 公式(14)和公式(15)中, 1、 2表示默认参数, z为更新的步数, gz表示损失函数L的当前 梯度, 再分别对nz、 vz进行校正, 以将其近似为对期望的无偏估计, 校正公式如下公式(16)和 公式(17)所示, 公式(16)和公式(17)中,表示校正后的结果, 1、 2表示默认参数, 最后网络参 数的优化公式为如下公式(18)所示, 公式(18)中, 为学习率, z为当前的参数权重。

21、, z+1为梯度方向下降后的参数权重, 至此 实现了基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训 练。 5.根据权利要求1所述一种基于自然语言描述的行人再识别方法, 其特征在于: 所述将 上述第三步得到的训练模型导入网络, 之后在待测图像集中搜索所包含的对应的行人图 像, 实现基于堆叠损失函数的自然语言描述的行人再识别, 其具体操作如下: 在待测图像集中搜索所包含的对应的行人图像, 操作如下, 依据上述第(3.1)步步得到文本特征T空间下的图像特征 和图像特征I空间下的文本 特征T, 用以下公式(19)计算余弦距离, 公式(19)中, 为待测图像集中的第k个图像,为当。

22、前输入的自然语言描述文本, Scorek为和的余弦距离, 即此时行人图像和自然语言描述文本之间的相似程度, 然后根据测试集图像与目标文本中的余弦距离进行排序, 采用rank1, rank5, rank10的 权利要求书 5/6 页 6 CN 110909673 A 6 精度来进行性能评估, 给定一个文本描述, 构建待测图像集为其中num表示 待测图像集的总数, 根据待测图像集里图像与当前输入的自然语言描述文本之间的余弦相 似度对所有测试图像进行排序, 当前面k个图像中包含对应的行人图像, 则表示rank-k搜索 成功; 至此, 实现了基于堆叠损失函数的自然语言描述的行人再识别。 权利要求书 6。

23、/6 页 7 CN 110909673 A 7 一种基于自然语言描述的行人再识别方法 技术领域 0001 本发明的技术方案涉及用于识别图形记录载体的处理, 具体地说是一种基于自然 语言描述的行人再识别方法。 背景技术 0002 在监控视频中, 因摄相机分辨率和拍摄角度的缘故, 通常无法得到质量非常高的 人脸图片。 在人脸识别失效的情况下, 行人再识别成为了一种十分重要的替代技术。 借助于 大量监控摄像头所摄的海量图像数据, 行人再识别技术能够在一定范围内相对准确地实现 行人再识别任务, 甚至实时地发现和定位行人的当前位置, 在公共安全领域中具有重要的 意义。 然而, 在实际应用中, 并不是所有。

24、需要进行行人再识别的任务中都有图像数据信息可 供使用, 但可能会有关于需要再识别行人特征的自然语言描述信息供使用, 因此基于自然 语言描述的行人再识别方法被人们提出并开始进行深入的研究。 0003 基于自然语言描述的行人再识别多采用双分支结构框架, 分别是文本编码分支和 图像特征提取分支, 然后对提取的特征再进行跨模态匹配, 实现行人的图文匹配。 文献 “Cascade Attention Network for Person Search:Both Image and Text-Image Similarity Selection” , 介绍了通过添加poseCNN提取图像的姿态信息与VGG。

25、16得到的特 征共同作为图像特征, 增加了特征的多样性。 文献 “Learning semantic concepts and order for image and sentence matching” , 介绍了通过提取LSTM网络的多个隐藏状态作 为文本的特征表示, 注重每个单词与图像的相似性。 为了提高自然语言描述的文本和图像 特征信息的有效性和准确性, 需对初步特征进行进一步处理, 近年来注意力机制在提高特 征有效性上起到了关键作用。 文献 “Person search with natural language description” 提出了一种新颖的具有门控神经注意的递归神经网。

26、络(GNA-RNN)用于人员搜 索, 首先将文本描述的每个单词特征与图像特征结合, 再通过软注意力机制得到权重分配, 再结合文本特征和图像特征得到最终的相似性结果, 但忽略了文本序列的时序性关系以及 仍然存在较多的低相关性特征。 0004 特征提取之后进行相似性度量是行人再识别技术的重要步骤。 文献 “Improving deep visual representation for person re-identification by global and local image-language association” , 介绍了使用二分类交叉熵函数作为损失函数对匹配结果 进行二分类问题。

27、的研究, 但是二分类问题分类过于简单和绝对化。 文献 “Dual-path convolutional image-text embedding” 介绍了为输入的每一对图像和文本在mini-batch 上选择出一个最相似的不同类图像或一个最相似的不同类文本组成两组三元组, 让同类的 图像和文本匹配结果好于不同类的图像和文本匹配结果, 但每个batch输入的有限性以及 三元组样本的选择, 可能导致训练不稳定, 而且随着训练集样本的增加, 构建三元组的时间 开销会明显增加。 文献 “Identity-aware textual-visual matching with latent co- att。

28、ention” 提出了跨模态交叉熵损失函数, 该损失函数采用跨模态样本与身份标签的相似 度进行类别预测, 但这种策略需要分配额外的身份特征缓冲区, 当数据集较大时, 训练过程 说明书 1/13 页 8 CN 110909673 A 8 会消耗大量内存。 0005 CN109993070A公开了一种基于全局距离尺度损失函数的行人再识别方法, 是一种 基于交叉熵损失函数和全局距离尺度损失函数的行人再识别方法, 该方法存在每一个批次 的数据需要额外的超参数以及交叉熵分类过于简单和绝对化的缺陷。 CN109190446A公开了 基于三元组聚焦损失函数的行人再识别方法和CN109635695A公开了基于。

29、三元组卷积神经 网络的行人再识别方法, 是一种聚集损失函数的行人再识别方法, 该类方法存在限制每个 批次行人类别数量以及每类行人的数量并且每个训练批次图像数量较大的缺陷。 CN108960142A公开了基于全局特征损失函数的行人再识别方法, 与上述专利技术同样是用 的标准差和均值去做行人再识别, 存在着在每一个批次的数据需要额外的超参数的缺陷。 CN110321862A公开了一种基于紧致三元损失的行人再识别方法, 该方法中存在难样本(即 最相似的负样本)三元组损失函数训练结果不稳定的缺陷。 CN109635636A公开了基于属性 特征和加权的分块特征相融合的行人再识别方法, 该方法运用传统特征。

30、和深度特征相结 合, 存在着在提高行人再识别准确率的情况下增大了网络结构影响了方法的实时性的缺 陷。 CN109190471A公开了基于自然语言描述的视频监控行人搜索的注意力模型方法, 该方 法存在主要去做单词与图像之间的相似性, 忽略了文本以及图像之间的上下文信息的缺 陷。 CN109145763A公开了基于自然语言描述的视频监控行人搜索图像文本融合方法, 该方 法存在融合权重还是基于文本整体, 对无关信息的干扰问题并没有解决的缺陷。 0006 综上所述, 基于自然语言描述的行人再识别方法的现有技术中, 存在特征提取部 分文本特征表征性不高, 损失函数部分训练网络困难训练时间长及训练过程要消。

31、耗大量内 存的缺陷。 发明内容 0007 本发明所要解决的技术问题是: 提供一种基于自然语言描述的行人再识别方法, 是设计图像和自然语言描述双分支网络结构, 图像分支网络结构采用MobileNet卷积网络 进行图像特征提取, 自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取, 对于 图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练, 得到 的训练模型导入网络之后, 在待测图像集中搜索所包含的对应的行人图像, 实现基于堆叠 损失函数的自然语言描述的行人再识别, 克服了现有技术中所存在的特征提取部分文本特 征表征性不高, 损失函数部分训练网络困难训练时间长及训练。

32、过程要消耗大量内存的缺 陷。 0008 本发明解决该技术问题所采用的技术方案是: 一种基于自然语言描述的行人再识 别方法, 设计图像和自然语言描述双分支网络结构, 图像分支网络结构采用MobileNet卷积 网络进行图像特征提取, 自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取, 对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练, 得到的训练模型导入网络之后, 在待测图像集中搜索所包含的对应的行人图像, 实现基于 堆叠损失函数的自然语言描述的行人再识别, 具体步骤如下: 0009 第一步, 设计图像分支网络结构: 0010 设计图像分支网络结构是采用M。

33、obileNet卷积网络进行图像特征提取; 0011 第二步, 设计自然语言描述分支网络结构: 说明书 2/13 页 9 CN 110909673 A 9 0012 设计自然语言描述分支网络结构是进行文本预处理操作、 BiLSTM网络提取文本特 征和截断式注意力机制再处理文本特征; 0013 第三步, 构建堆叠损失函数L, 进行网络训练: 0014 上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之 间的相似性度量部分进行构建跨模态损失函数Lit和构建单模态分类损失函数Lid, 将跨模 态损失函数Lit和单模态分类损失函数Lid合并构建堆叠损失函数L, 再进行基于堆叠损失函。

34、 数L的网络训练, 得到训练模型; 0015 第四步, 实现基于堆叠损失函数的自然语言描述的行人再识别: 0016 将上述第三步得到的训练模型导入网络之后, 在待测图像集中搜索所包含的对应 的行人图像, 实现基于堆叠损失函数的自然语言描述的行人再识别; 0017 至此, 完成基于自然语言描述的行人再识别。 0018 上述一种基于自然语言描述的行人再识别方法, 所述设计图像分支网络结构是采 用MobileNet卷积网络进行图像特征提取, 具体操作如下: 0019 首先搭建如下的MobileNet卷积网络, MobileNet卷积网络由14层卷积层, 1层池化 层和1层全连接层组成, 其中卷积层除。

35、了第一层为传统卷积层之外, 其它卷积层均为深度可 分离卷积层, 由一层深度卷积层和一层点卷积层组成; 0020 再进行图像特征提取, 过程是, 输入MobileNet卷积网络的图像大小为224224像 素, 经过MobileNet卷积网络之后特征图大小变为输入图像大小的1/32, 输入MobileNet卷 积网络的图像经过第一层传统卷积层之后, 卷积后的特征图大小为112112像素, 通道数 为32; 第二层深度可分离卷积层由参数为3332的深度卷积层和参数为113264的 点卷积层组成, 经过第二层卷积后的特征图大小为112112像素, 通道数为64; 第三层深度 可分离卷积层由参数为336。

36、4的深度卷积层和参数为1164128的点卷积层组成, 经过第三层卷积后的特征图大小为5656像素, 通道数为128; 第四层深度可分离卷积层由 参数为33128的深度卷积层和参数为11128128的点卷积层组成, 经过第四层卷 积后的特征图大小为5656像素, 通道数为128; 第五层深度可分离卷积层由参数为33 128的深度卷积层和参数为11128256的点卷积层组成, 经过第五层卷积后的特征图 大小为2828像素, 通道数为256; 第六层深度可分离卷积层由参数为33256的深度卷 积层和参数为11256256的点卷积层组成, 经过第六层卷积后的特征图大小为2828 像素, 通道数为256。

37、; 第七层深度可分离卷积层由参数为33256的深度卷积层和参数为1 1256512的点卷积层组成, 第八层至第十二层深度可分离卷积层均由参数为33 512深度卷积层和参数为11512512的点卷积层组成, 经过第七层以及第八层至第十 二层卷积后的特征图大小为1414像素, 通道数为512; 第十三层深度可分离卷积层由参数 为33512的深度卷积层和参数为115121024的点卷积层组成, 经过第十三层卷积 后的特征图大小为77像素, 通道数为1024; 第十四层深度可分离卷积层由参数为33 1024的深度卷积层和参数为1110241024的点卷积层组成, 经过第十四层卷积后的特 征图大小为77。

38、像素, 通道数为1024; 再经过一层池化层, 得到特征图大小为11像素, 通 道数为1024的图像特征; 为保证图像特征和文本特征的维度相同, 将得到的大小为11像 素, 通道数为1024的图像特征经过MobileNet卷积网络之外的一个111024512卷积层 处理, 提取得到图像特征为IR11512, 由此完成采用MobileNet卷积网络进行图像特征提 说明书 3/13 页 10 CN 110909673 A 10 取的操作。 0021 上述一种基于自然语言描述的行人再识别方法, 所述设计自然语言描述分支网络 结构是进行文本预处理操作、 BiLSTM网络提取文本特征和截断式注意力机制再。

39、处理文本特 征的具体操作如下: 0022 第(2.1)步, 文本预处理操作: 0023 通过文本预处理操作得到文本的预处理特征矩阵E, 方法是将文本中的句子划分 为单词, 对每个单词依据词汇表进行one-hot编码, 句子中第i个单词的one-hot编码经过词 嵌入矩阵得到一个d维特征向量edi, 如公式(1)所示, 0024 0025 公式(1)中, n是句子长度, v是词汇表的长度, d是edi的维度, 0026 长度为n的句子, 其nv维的one-hot编码经过vd的词嵌入矩阵, 由此完成文本 预处理操作得到文本的预处理特征矩阵E; 0027 第(2.2)步, BiLSTM网络提取文本特。

40、征: 0028 将上述第(2.1)步得到的文本的预处理特征矩阵E, 依据句子长度为n的文本序列 顺序, 依次通过BiLSTM网络的前向LSTM单元和反向LSTM单元, 得到句子的隐藏状态矩阵H, 隐藏状态矩阵H中任意时刻t的状态向量由前向隐藏状态和反向隐藏状态合并 得到, 如公式(2)所示, 0029 0030 公式(2)中, t为句子中第t个位置, t(1,n)为t的取值范围, 0031 由此通过BiLSTM网络获取到文本特征; 0032 第(2.3)步, 截断式注意力机制再处理文本特征: 0033 对软注意力机制添加阈值进行筛选, 称为截断式注意力机制, 截断式注意力机制 由两层全连接层和。

41、一层Softmax层组成, 0034 采用截断式注意力机制处理文本特征的具体操作是, 将上述第(2.2)步得到的句 子的时序状态矩阵H通过截断式注意力机制, 得到一个和句子长度n相同维数的权重向量M, 如公式(3)所示, 0035 Msoftmax(Wt2tanh(Wt1H+b1)+b2) (3), 0036 公式(3)中, Wt1和b1为第一个全连接层的参数, Wt2和b2为第二个全连接层的参数, 再通过对得到的权重向量M进行筛选, 将权重小于阈值 的权重向量忽略掉, 而其他的权重 向量保持不变, 得到截断式注意力机制的权重向量Mnew, 如公式(4)所示, 0037 0038 公式(4)中。

42、, x为权重向量M中第x个位置, Mx为权重向量M中第x个位置的权重, n为 说明书 4/13 页 11 CN 110909673 A 11 句子长度, 将该截断式注意力机制的权重向量Mnew与上述第(2.2)步得到的隐藏状态矩阵H 对应做乘积运算后再求和, 得到最终的文本特征T, 完成截断式注意力机制处理文本特征, 文本特征T定义为如下公式(5), 0039 TMnewH (5), 0040 由此完成截断式注意力机制再处理文本特征; 0041 至此, 完成进行文本预处理操作、 BiLSTM网络提取文本特征和截断式注意力机制 再处理文本特征的操作。 0042 上述一种基于自然语言描述的行人再识。

43、别方法, 所述上述第一步所提取得到的图 像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分进行构建跨模态 损失函数Lit和构建单模态分类损失函数Lid, 将跨模态损失函数Lit和单模态分类损失函数 Lid合并构建堆叠损失函数L, 再进行基于堆叠损失函数L的网络训练, 其具体操作如下: 0043 第(3.1)步, 构建跨模态损失函数Lit: 0044 将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的 之间的相似性度量部分组成匹配图像文本特征对(I,T), 再将图像特征I与文本特征T在空 间上进行相互映射, 得到文本特征T空间下的图像特征 和图像特征I空间下的文。

44、本特征T, 再将如此处理后的图像特征和文本特征作如下处理: 0045 随机抽取训练集中部分图像和文本组成一组输入数据输入到神经网络中, 将每一 个图像特征和所有文本特征根据身份类别进行匹配, 得到多个图像文本标签对(Iiid,Tjid), 其中Iiid为第i个图像的身份标签, Tjid为第j个文本的身份标签, 判断自由组合的图像文本 标签对(Iiid,Tjid)是否属于同类, 当同属于一类时, 结果标签Qij记为1, 当不是一类时, 结果 标签Qij记为0, 如公式(6)所示: 0046 0047 一组输入的数据大小为r, 那么由rr个结果标签Qij组成标签矩阵Q, 结果标签Qij 对应的概率。

45、分布记为如下公式(7)所示, 0048 0049rr个组成概率分布矩阵 0050 同上, 在每次输入数据中, 将每一个图像特征和和所有的文本特征进行匹配, 得到 多个图像文本特征对, 得到rr个图文特征匹配结果Pij组成矩阵P; 矩阵P经过Softmax层得 到对应的rr的概率分布结果矩阵图文特征匹配结果Pij对应的概率分布是图文特 征匹配结果的概率分布和图文标签匹配结果的概率分布之间的距离即是跨模态损失函 数Lit, 由公式(8)所示, 0051 0052公式(8)中, r为一组输入数据的大小, 和分别表示第i个图像和第j个文本组 说明书 5/13 页 12 CN 110909673 A 1。

46、2 成的图像文本对的特征和标签匹配结果的概率分布, 由此完成构建跨模态损失函数Lit; 0053 第(3.2)步, 构建单模态分类损失函数Lid: 0054 通过如下公式(9)计算获得单模态图像交叉熵损失函数LIid, 0055 0056 通过如下公式(10)计算获得文本多分类交叉熵损失函数LTid, 0057 0058 公式(9)和公式(10)中, Ws为全连接层权重, 为线性变换函数, r为输入批次的大 小, Ik为第k个图像文本对的图像特征向量, Tk为第k个图像文本对的文本特征向量; 0059 将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T经 过线性变换后通过一个。

47、全连接层和一个Softmax层, 得到单模态图像LIid的预测结果PI和文 本多分类损失LTid的预测结果PT, 0060 用公式(11)计算图像文本概率分布之间的相对熵之和, 0061 0062 公式(11)中, PIq为PI的第q个图像的分类预测结果, PIq为PT的第q个文本的分类预 测结果, r为输入批次的大小, Litid为图像文本概率分布之间的损失函数, q为PT和PI中第q个 图像或者文本; 0063 通过单模态图像交叉熵损失函数LIid、 文本多分类交叉熵损失函数LTid和图像文本 概率分布之间的损失函数Litid求和, 得到基于身份标签的单模态分类损失函数, 如公式 (12)。

48、所示, 0064 LidLIid+LTid+Litid (12), 0065 公式(12)中, Lid为单模态分类损失函数, 0066 由此完成构建单模态分类损失函数Lid; 0067 第(3.3)步, 构建堆叠损失函数L: 0068 将上述第(3.1)步得到的跨模态损失函数Lit和上述第(3.2)步得到的单模态分类 损失函数Lid合并构建得到最终的堆叠损失函数L, 如公式(13)所示, 0069 LLit+Lid (13), 0070 至此完成了构建堆叠损失函数L; 0071 第(3.4)步, 基于堆叠损失函数L的网络训练: 0072 基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人。

49、再识别方法的训 练, 具体操作如下: 0073 对于整个训练集, 随机抽取其中一部分图像和文本生成神经网络的一组输入数 据, 将不同次的输入数据分别输入到基于堆叠损失函数L的网络中进行训练, 再通过堆叠损 失函数L进行模型的优化, 缩小跨模态匹配的概率分布差距和单模态分类的概率分布差距 进行训练, 其中堆叠损失函数L的反向传播算法为Adam, 对堆叠损失函数L的梯度依次进行 一阶矩估计记为nz和二阶矩估计记为vz, 计算公式分别如下公式(14)和公式(15)所示, 说明书 6/13 页 13 CN 110909673 A 13 0074 nz 1nz-1+(1- 1)gz (14), 0075。

50、 vz 2vz-1+(1- 2)gz2 (15), 0076 公式(14)和公式(15)中, 1、 2表示默认参数, z为更新的步数, gz表示损失函数L的 当前梯度, 0077 再分别对nz、 vz进行校正, 以将其近似为对期望的无偏估计, 校正公式如下公式 (16)和公式(17)所示, 0078 0079 0080公式(16)和公式(17)中,表示校正后的结果, 1、 2表示默认参数, 最后网 络参数的优化公式为如下公式(18)所示, 0081 0082 公式(18)中, 为学习率, z为当前的参数权重, z+1为梯度方向下降后的参数权 重, 至此实现了基于堆叠损失函数L的网络训练即为对基。

展开阅读全文
内容关键字: 基于 自然语言 描述 行人 识别 方法
关于本文
本文标题:基于自然语言描述的行人再识别方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10797920.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1