基于对抗学习的多风格行人重识别方法、系统、终端.pdf
《基于对抗学习的多风格行人重识别方法、系统、终端.pdf》由会员分享,可在线阅读,更多相关《基于对抗学习的多风格行人重识别方法、系统、终端.pdf(16页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010656271.8 (22)申请日 2020.07.09 (71)申请人 上海交通大学 地址 200240 上海市闵行区东川路800号 (72)发明人 杨华陈琳 (74)专利代理机构 上海恒慧知识产权代理事务 所(特殊普通合伙) 31317 代理人 刘翠 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/62(2006.01) G06N 3/04(2006.01) (54)发明名称 基于对抗学习的多风格行人重识别方法、 系 统、 终端 (57)。
2、摘要 本发明提供了一种基于对抗学习的多风格 行人重识别方法、 系统、 终端, 包含数据变换和分 类识别功能模块, 其中图像生成器作为数据空间 变换功能模块, 将来自不同源的数据转移到模态 不变空间中, 并消除由多风格行人图片中的模态 差距引起的不一致问题。 同时利用在分类识别器 和模态识别器之间对抗学习来引导表示学习, 其 中模态识别器在真实图像和虚拟图像之间进行 区分从而引导数据的空间变换, 以进一步弥合模 态差距, 分类识别器用于最后的识别分类, 从而 学习到更具区分度的不变性特征。 本发明提取出 的特征更具有区分度, 更具有鲁棒性, 可同时消 除模态差距并提高现有特征学习网络的性能, 能。
3、 更好的解决与适应多风格行人图片之间的匹配 问题。 权利要求书3页 说明书11页 附图1页 CN 111985313 A 2020.11.24 CN 111985313 A 1.一种基于对抗学习的多风格行人重识别方法, 其特征在于, 包括: 构造图像生成器G, 将分别从虚拟图像源和真实图像源获取的行人图片对Ia,b输 入到模态不变的图像生成器G数据空间, 得到映射后的输出图像其中, a和b分别 表示属于不同模态的图片, 和 分别表示输入的图片a和图片b对应的映射后生成图像; 构造模态识别器D, 将输出图像输入到模态识别器D, 区分输出图像中 各图片对应的来源, 并求得对抗损失Ladv后输出; 。
4、构造分类识别器L, 将输出图像输入到分类识别器L, 并结合对应的行人类别标 签cca,cb, 求得分类的交叉熵损失Llabel; 引入三元组损失Ltriplet, 拉近正样本对间的距 离, 拉远负样本对间的距离; 其中, ca和cb分别表示原图片a,b所对应的行人类别标签; 综合交叉熵损失Llabel和三元组损失Ltriplet, 得到最终的分类损失Lclass; 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG; 交替优化图像生成器G、 分类识别器L和模态识别器D, 其中, 根据损失LG优化图像生成器 G, 根据分类损失Lclass优化分类识别器L, 根据对抗损失Ladv优。
5、化模态识别器D, 最终得到多风 格行人重识别模型; 采用得到的多风格行人重识别模型对行人图片中的行人图像进行重识别。 2.根据权利要求1所述的基于对抗学习的多风格行人重识别方法, 其特征在于, 构造的 所述图像生成器G包括: 由三个卷积层构成的编码器、 由三个残差网络层构成的转换器以及 由两个逆卷积层和一个卷积层构成的解码器。 3.根据权利要求1所述的基于对抗学习的多风格行人重识别方法, 其特征在于, 构造的 所述模态识别器D包括四个卷积层, 输出的对抗损失Ladv为: 其中, m*表示设定的来源类别标签, 其中来源于 的来源类别标签设为0, 来源于 的来 源类别标签设为1, n为每次迭代中输。
6、入图片数, D代表经过生成器的操作, D为模态识别器D 的网络参数, n为每次迭代中输入图片数。 4.根据权利要求1所述的基于对抗学习的多风格行人重识别方法, 其特征在于, 所述分 类识别器L将输出图像结合对应的行人类别标签cca,cb, 求得分类的交叉熵 损失Llabel为: 其中, n为每次迭代中输入图片数, p为对应的概率分布; 同时引入三元组损失Ltriplet为: 其中,为正样本对, 属于同一个行人类别标签;为负样本对, 属于不同的 权利要求书 1/3 页 2 CN 111985313 A 2 行人类别标签。 5.根据权利要求1所述的基于对抗学习的多风格行人重识别方法, 其特征在于,。
7、 综合交 叉熵损失Llabel和三元组损失Ltriplet, 得到最终的分类损失Lclass为: Lclassw0Llabel+w1Ltriplet 其中, w0,w1分别为各损失的权重; 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG为: LG Lclass+(- Ladv) 其中, , 分别为各损失的权重。 6.根据权利要求5所述的基于对抗学习的多风格行人重识别方法, 其特征在于, 设所述 w0,w1均为1; 和/或 设所述 1.0, 2.0。 7.根据权利要求1-6任一项所述的基于对抗学习的多风格行人重识别方法, 其特征在 于, 还包括: 构建多风格行人重识别数据集,。
8、 用以训练并评估多风格行人重识别模型性能; 其中: 所述多风格行人重识别数据集, 包括: 从素描图片到实际行人图片以及从肖像图片到 实际行人图片的数据集; 其中, 所述素描图片和肖像图片分别作为虚拟图像源; 所述多风格行人重识别数据集中行人类别标签数为245, 素描图片和肖像图片中每个 行人类别标签均只包含一张图片, 实际监控系统下行人图片包含3到8个摄像机视角, 总共 包含40971张图片。 8.一种基于对抗学习的多风格行人重识别系统, 其特征在于, 包括: 图像生成器G模块, 所述图像生成器G模块为模态不变的数据空间, 用于输入分别从虚 拟图像源和真实图像源获取的原始图片并得到映射后的输出。
9、图像输 出; 其中, a和b分别表示属于不同模态的图片, 和 分别表示输入的图片a和图片b对应的 映射后生成图像; 模态识别器D模块, 所述模态识别器D模块用于输入输出图像区分输出图像 中各图片对应的来源, 并求得对抗损失Ladv后输出; 分类识别器L模块, 所述分类识别器L模块用于输入输出图像并结合对应的行 人类别标签cca,cb, 求得分类的交叉熵损失Llabel; 同时引入三元组损失Ltriplet, 拉近正 样本对间的距离, 拉远负样本对间的距离; 其中, ca和cb分别表示原图片a,b所对应的行人类 别标签; 模型生成模块: 用于综合交叉熵损失Llabel和三元组损失Ltriplet。
10、, 得到最终的分类损失 Lclass; 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG; 交替优化图像生成器G、 分 类识别器L和模态识别器D, 其中, 根据损失LG优化图像生成器G, 根据分类损失Lclass优化分 类识别器L, 根据对抗损失Ladv优化模态识别器D, 最终得到多风格行人重识别模型, 该多风 格行人重识别模型用于对行人图片中的行人图像进行重识别。 9.根据权利要求8所述的基于对抗学习的多风格行人重识别系统, 其特征在于, 还包括 如下任意一项或任意多项: 权利要求书 2/3 页 3 CN 111985313 A 3 -所述图像生成器G包括: 由三个卷积层构。
11、成的编码器、 由三个残差网络层构成的转换 器以及由两个逆卷积层和一个卷积层构成的解码器; -所述模态识别器D包括四个卷积层, 输出的对抗损失Ladv为: 其中, m*表示设定的来源类别标签, 其中来源于的来源类别标签设为0, 来源于 的来 源类别标签设为1, n为每次迭代中输入图片数, D代表经过生成器的操作, D为模态识别器D 的网络参数, n为每次迭代中输入图片数; -所述分类识别器L将映射后的输出图像结合对应的行人类别标签cca,cb, 求得分类的交叉熵损失Llabel为: 其中, n为每次迭代中输入图片数, p为对应的概率分布; 同时引入三元组损失Ltriplet为: 其中,为正样本对。
12、, 属于同一个行人类别标签,为负样本对, 属于不同的 行人类别标签; -所述模型生成模块, 综合交叉熵损失Llabel和三元组损失Ltriplet, 得到最终的分类损失 Lclass为: Lclassw0Llabel+w1Ltriplet 其中, w0,w1分别为各损失的权重; 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG为: LG Lclass+(- Ladv) 其中, , 分别为各损失的权重。 10.一种终端, 包括存储器、 处理器及存储在存储器上并能够在处理器上运行的计算机 程序, 其特征在于, 所述处理器执行所述计算机程序时能够用于执行权利要求1至7中任一 项所述。
13、的方法。 权利要求书 3/3 页 4 CN 111985313 A 4 基于对抗学习的多风格行人重识别方法、 系统、 终端 技术领域 0001 本发明属于计算机视觉技术领域, 具体地, 涉及一种基于对抗学习的多风格行人 重识别方法、 系统、 终端。 背景技术 0002 行人重识别是智能视频监控中的一项关键任务, 是近年来计算机视觉领域中一直 备受关注的研究热点,适用于安防以及公共场所寻人等技术领域。 行人重识别可定义为:在 无重叠的视频监控网络中, 对于摄像头中给定的某个行人, 判断其是否出现在其他摄像头 中的过程。 它是一种自动的目标识别技术, 能在监控网络中快速定位到感兴趣的人体目标, 是。
14、智能视频监控和人体行为分析等应用中的重要步骤。 0003 随着多媒体领域和计算机视觉技术的快速发展, 智能安防监控对多摄像机网络布 局下多模态下的行人重识别, 特别是多风格行人图片的重识别, 如从素描、 肖像等到实际监 控系统下行人图片的匹配, 有着很大的需求和发展空间。 传统行人重识别受限于不同摄像 机视角下光线和行人姿势变化的挑战。 多模态下的行人重识别, 除了数据量不足和特征提 取算法方面的挑战, 关键性问题还在于多源数据匹配的困难性。 已有的技术对这方面的关 注度并不高, 进展缓慢。 基于多模态下全自动一体化的行人重识别架构已经成为了新的发 展方向。 0004 传统的行人重识别在不同的。
15、摄影机视角之间存在严重差异。 与传统的行人重识别 任务相比, 多风格行人重识别包含了传统行人重识别上存在的问题, 并带来了更多的数据 匹配挑战。 由于不同风格的图片同实际监控系统下行人图像存在显着差异, 因此传统的识 别方法无法轻易将虚拟图像与真实身份进行匹配(参见Y.P.Calana,H.Mendez-Vazquez, R.L.Fonseca,Face composite sketch recognition by bovw-based discriminative representations,in:CIARP,2016,pp.200207.)。 这个问题在文献中已被定义为模态差距 (参。
16、见X.Wang,X.Tang,Face photo-sketch synthesis and recognition,in:ICCV,2003, pp.687.)。 由于不同的数据源通常具有不同的统计属性和分布, 因此很难直接进行比较匹 配(参见B.Wang ,Y.Yang ,X.Xu,A.Hanjalic,H.T.Shen,Adversarial cross-modal retrieval,in:ACM MM,2017,pp.154162.)。 解决不同数据源之间模态差异的一种解决方 案是跨集合进行数据增强, 例如使用数据映射将在不同的相机视图或数据集上进行图像转 换(参见J.Y.Zhu,T。
17、.Park,P.Isola,A.A.Efros,Unpaired image-to-image translation using cycle-consistent adversarial networks,in:ICCV,2017,pp.22422251; Z.Zhong,L.Zheng,Z.Zheng,S.Li,Y.Yang,Camera style adaptation for person re- identification,CoRR abs/1711.10295(2018).)。 但是, 固定数据扩充方案无法提供灵活 的输入更改来帮助进一步促进特征学习。 其他代表性方法包括对源编码。
18、器进行预训练, 以 调整无法相互区分的目标编码器(参见E.Tzeng ,J .Hoffman,K.Saenko,T.Darrell, Adversarial discriminative domain adaptation,in:CVPR,2017,pp.29622971; Y.Ganin,V.S.Lempitsky,Unsupervised domain adaptation by backpropagation, 说明书 1/11 页 5 CN 111985313 A 5 415in:ICML,2015,pp.11801189.)。 在源域上针对目标分类进行训练的固定分类器也缺乏 跨域识别。
19、的通用性。 其他工作在特征平面上提出了一个对抗性学习网络, 以实现跨不同模 态的灵活检索体验(参见B.Wang,Y.Yang,X.Xu,A.Hanjalic,H.T.Shen,Adversarial cross-modal retrieval,in:ACM MM,2017,pp.154162.)。 他们通常需要经过预训练的特 征提取器才能获得良好的性能, 这限制了它们的实用性。 此外, 在特征平面上的对抗性学习 不能很好地解决模态之间的差距, 因为高级特征始终缺乏原始数据的底层细节信息。 因此, 针对不同模态下数据的可比较性进行跨模态的数据变换和特征提取, 如何设计有效的适用 性强的一体化框架。
20、从而提升多模态下行人重识别准确率是本领域亟待解决的问题。 发明内容 0005 本发明针对现有技术中存在的上述问题, 提供了一种基于对抗学习的多风格行人 重识别方法、 系统、 终端, 提出了一种利用对抗学习解决不同风格行人图片之间的差异从而 提取不变性特征的模型构建技术, 提出了一个端到端对抗学习框架, 该框架将数据转换与 分类识别相结合, 能够以进一步解决多风格行人重识别任务。 0006 本发明是通过以下技术方案实现的。 0007 根据本发明的一个方面, 提供了一种基于对抗学习的多风格行人重识别方法, 包 括: 0008 构造图像生成器G, 将从分别虚拟图像源和真实图像源获取的行人图片对Ia,。
21、 b输入到模态不变的图像生成器G数据空间, 得到映射后的输出图像其中, a和b 分别表示属于不同模态的图片, 和 分别表示输入的图片a和图片b对应的映射后生成图 像; 0009构造模态识别器D, 将输出图像输入到模态识别器D, 区分输出图像 中各图片对应的来源, 并求得对抗损失Ladv后输出; 0010构造分类识别器L, 将输出图像输入到分类识别器L, 并结合对应的行人类 别标签cca,cb, 求得分类的交叉熵损失Llabel; 引入三元组损失Ltriplet, 拉近正样本对间 的距离, 拉远负样本对间的距离; 其中, ca和cb分别表示原图片a,b所对应的行人类别标签; 0011 综合交叉熵。
22、损失Llabel和三元组损失Ltriplet, 得到最终的分类损失Lclass; 0012 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG; 0013 交替优化图像生成器G、 分类识别器L和模态识别器D, 其中, 根据损失LG优化图像 生成器G, 根据分类损失Lclass优化分类识别器L, 根据对抗损失Ladv优化模态识别器D, 最终得 到多风格行人重识别模型; 0014 采用得到的多风格行人重识别模型对行人图片中的行人图像进行重识别。 0015 优选地, 构造的所述图像生成器G包括: 由三个卷积层构成的编码器、 由三个残差 网络层构成的转换器以及由两个逆卷积层和一个卷积层。
23、构成的解码器。 0016 优选地, 构造的所述模态识别器D包括四个卷积层, 输出的对抗损失Ladv为: 0017 说明书 2/11 页 6 CN 111985313 A 6 0018其中, m*表示设定的来源类别标签, 其中来源于 的来源类别标签设为0, 来源于 的来源类别标签设为1, n为每次迭代中输入图片数, D代表经过生成器的操作, D为模态识 别器D的网络参数, n为每次迭代中输入图片数。 0019优选地, 所述分类识别器L将输出图像结合对应的行人类别标签cca, cb, 求得分类的交叉熵损失Llabel为: 0020 0021 其中, n为每次迭代中输入图片数, p为对应的概率分布;。
24、 0022 同时引入三元组损失Ltriplet为: 0023 0024其中,为正样本对, 属于同一个行人类别标签;为负样本对, 属于不 同的行人类别标签。 0025 优选地, 综合交叉熵损失Llabel和三元组损失Ltriplet, 得到最终的分类损失Lclass为: 0026 Lclassw0Llabel+w1Ltriplet 0027 其中, w0,w1分别为各损失的权重; 0028 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG为: 0029 LG Lclass+(- Ladv) 0030 其中, , 分别为各损失的权重。 0031 优选地, 设所述w0,w1均为1。。
25、 0032 优选地, 设所述 1.0, 2.0。 0033 优选地, 所述方法还包括: 0034 构建多风格行人重识别数据集, 用以训练并评估多风格行人重识别模型性能。 0035 优选地, 所述多风格行人重识别数据集, 包括: 从素描图片到实际行人图片以及从 肖像图片到实际行人图片的数据集; 其中, 所述素描图片和肖像图片分别作为虚拟图像源; 0036 所述多风格行人重识别数据集中行人类别标签数为245, 素描图片和肖像图片中 每个行人类别标签均只包含一张图片, 实际监控系统下行人图片包含3到8个摄像机视角, 总共包含40971张图片。 0037 根据本发明的另一个方面, 提供了一种基于对抗学。
26、习的多风格行人重识别系统, 包括: 0038 图像生成器G模块, 所述图像生成器G模块为模态不变的数据空间, 用于输入分别 从虚拟图像源和真实图像源获取的原始图片并得到映射后的输出图像 输出; 其中, a和b分别表示属于不同模态的图片, 和 分别表示输入的图片a和图片b对应 的映射后生成图像; 0039模态识别器D模块, 所述模态识别器D模块用于输入输出图像区分输出 图像中各图片对应的来源, 并求得对抗损失Ladv后输出; 说明书 3/11 页 7 CN 111985313 A 7 0040分类识别器L模块, 所述分类识别器L模块用于输入输出图像并结合对应 的行人类别标签cca,cb, 求得分。
27、类的交叉熵损失Llabel; 同时引入三元组损失Ltriplet, 拉 近正样本对间的距离, 拉远负样本对间的距离; 其中, ca和cb分别表示原图片a,b所对应的行 人类别标签; 0041 模型生成模块: 用于综合交叉熵损失Llabel和三元组损失Ltriplet, 得到最终的分类 损失Lclass; 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG; 交替优化图像生成器 G、 分类识别器L和模态识别器D, 其中, 根据损失LG优化图像生成器G, 根据分类损失Lclass优 化分类识别器L, 根据对抗损失Ladv优化模态识别器D, 最终得到多风格行人重识别模型, 该 多风格。
28、行人重识别模型用于对行人图片中的行人图像进行重识别。 0042 优选地, 所述图像生成器G包括: 由三个卷积层构成的编码器、 由三个残差网络层 构成的转换器以及由两个逆卷积层和一个卷积层构成的解码器。 0043 优选地, 所述模态识别器D包括四个卷积层, 输出的对抗损失Ladv为: 0044 0045其中, m*表示设定的来源类别标签, 其中来源于 的来源类别标签设为0, 来源于 的来源类别标签设为1, n为每次迭代中输入图片数, D代表经过生成器的操作, D为模态识 别器D的网络参数, n为每次迭代中输入图片数。 0046优选地, 所述分类识别器L将映射后的输出图像结合对应的行人类别标签 c。
29、ca,cb, 求得分类的交叉熵损失Llabel为: 0047 0048 其中, n为每次迭代中输入图片数, p为对应的概率分布; 0049 同时引入三元组损失Ltriplet为: 0050 0051其中,为正样本对, 属于同一个行人类别标签,为负样本对, 属于不 同的行人类别标签。 0052 优选地, 所述模型生成模块, 综合交叉熵损失Llabel和三元组损失Ltriplet, 得到最终 的分类损失Lclass为: 0053 Lclassw0Llabel+w1Ltriplet 0054 其中, w0,w1分别为各损失的权重; 0055 综合分类损失Lclass和对抗损失Ladv, 得到图像生成。
30、损失LG为: 0056 LG Lclass+(- Ladv) 0057 其中, , 分别为各损失的权重。 0058 根据本发明的第三个方面, 提供了一种终端, 包括存储器、 处理器及存储在存储器 上并能够在处理器上运行的计算机程序, 所述处理器执行所述计算机程序时能够用于执行 说明书 4/11 页 8 CN 111985313 A 8 上述任一项所述的方法。 0059 由于采用了上述技术方案, 本发明的有益效果在于: 0060 1、 本发明提供的基于对抗学习的多风格行人重识别方法、 系统、 终端, 提出了一个 端到端的对抗学习框架, 能够处理更具挑战性的多风格行人重识别问题。 0061 2、 。
31、本发明提供的基于对抗学习的多风格行人重识别方法、 系统、 终端, 采用具有模 态不变数据空间的图片生成器, 用以消除不同数据源行人图片中存在的模态差异。 0062 3、 本发明提供的基于对抗学习的多风格行人重识别方法、 系统、 终端, 采用对抗学 习引导更有效的图片生成器数据空间变换, 用以帮助分类识别器L学到更有区分度的图片 特征, 从而提升最后的识别性能。 0063 4、 本发明提供的基于对抗学习的多风格行人重识别方法、 系统、 终端, 采用多风格 行人重识别数据集, 用以评估所构建的模型性能。 附图说明 0064 通过阅读参照以下附图对非限制性实施例所作的详细描述, 本发明的其它特征、 。
32、目的和优点将会变得更明显: 0065 图1为本发明一优选实施例中基于对抗学习的多风格行人重识别中模型构建过程 的流程示意图; 0066 图2为本发明一优选实施例中构建的多风格行人重识别数据集示例图。 具体实施方式 0067 下面对本发明的实施例作详细说明: 本实施例在以本发明技术方案为前提下进行 实施, 给出了详细的实施方式和具体的操作过程。 应当指出的是, 对本领域的普通技术人员 来说, 在不脱离本发明构思的前提下, 还可以做出若干变形和改进, 这些都属于本发明的保 护范围。 0068 本发明实施例提供了一种基于对抗学习的多风格行人重识别方法, 如图1所示, 该 方法包括: 0069 构造图。
33、像生成器G, 将从虚拟风格图像和真实图像的源获取的原始图片Ia,b 输入到模态不变的图像生成器G数据空间, 得到映射后的输出图像其 中, a和b分别表示属于不同模态的图片,和 分别表示输入的图片a和图片b对应的映射后 生成图像, G表示图像生成器G的网络参数; 0070构造模态识别器D, 将输出图像输入到模态识别器D, 区分输出图像 中各图片对应的来源(虚拟图像源或真实图像源), 并求得对抗损失Ladv后输出; 0071构造分类识别器L, 将输出图像输入到分类识别器L, 并结合对应的行人类 别标签cca,cb(该标签由数据源本身提供), 求得分类的交叉熵损失Llabel; 引入三元组 损失Lt。
34、riplet, 拉近正样本对间的距离, 拉远负样本对间的距离; 其中, ca和cb分别表示原土拍 你a,b所对应的行人类别标签; 0072 综合交叉熵损失Llabel和三元组损失Ltriplet, 得到最终的分类损失Lclass; 说明书 5/11 页 9 CN 111985313 A 9 0073 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG; 0074 交替优化图像生成器G、 分类识别器L和模态识别器D, 其中, 根据损失LG优化图像 生成器G, 根据分类损失Lclass优化分类识别器L, 根据对抗损失Ladv优化模态识别器D, 最终得 到多风格行人重识别模型; 00。
35、75 采用得到的多风格行人重识别模型对行人图片中的行人图像进行重识别。 0076 下面以采用的图像帧来自新建的多风格行人重识别数据集: 从素描到实际, 以及 从肖像到实际监控系统行人图片匹配为例, 对本实施例所提供的技术方案进一步详细描述 如下。 0077 作为一优选实施例, 第一步: 构造数据空间变换网络, 将原始图像从两个不一致的 源传输到模态不变的数据空间, 用于下一步的特征提取。 0078 本步骤中具体操作为: 0079 设计一个图像生成器G, 输入成对行人图片Ia,b,其中a属于模态A的图片, b属 于模态B的图片, 均经过此生成器, 得到映射后的图像输出: 0080 0081其中G。
36、代表经过图像生成器G的操作, G为过图像生成器G的网络参数, 是经过变 换后的图片对,本实施例中, G包含三个卷积层构成的编码器、 三个残差网络层构 成的转换器和两个逆卷积层以及一个卷积层构成的解码器。 0082 作为一优选实施例, 第二步: 构造模态识别器D, 用以区分真实图像和虚拟图像, 帮 助提高图像转换性能。 0083 本步骤中具体操作为: 0084 设计模态识别器D, 用以区分转换后的图片对来源用以引导数据的空间变换, 从而 求得对抗损失Ladv, 0085 0086 其中D代表经过生成器的操作, D为模态识别器D的网络参数, n为每次迭代中输入 图片数。 本实施例中, D由四个卷积。
37、层构成, n为128。 0087 作为一优选实施例, 第三步: 构造分类识别器L, 用以对输入行人数据进行最后的 识别分类。 0088 本步骤中具体操作为: 00891.设计分类识别器L, 对经过变换后的行人数据和对应的行人类别标签c ca,cb, 求得分类的的交叉熵损失Llabel, 0090 0091 其中n为每次迭代中输入图片数, p为对应的概率分布。 本实施例中, L为常用的分 类网络, 包括ResNet50, n为128。 0092 2.引入三元组损失Ltriplet, 拉近正样本对间的距离, 拉远负样本对间的距离, 说明书 6/11 页 10 CN 111985313 A 10 0。
38、093 0094其中为正样本对, 属于同一个行人类别标签,为负样本对, 属于不同 的行人类别标签。 0095 作为一优选实施例, 第四步: 构建优化算法, 优化网络G, L和D, 最终得到多风格行 人重识别模型。 0096 本步骤中具体操作为: 0097 1.综合交叉熵损失和三元组损失, 得到最终的分类损失Lclass, 0098 Lclassw0Llabel+w1Ltriplet 0099 其中w0,w1为各损失的权重。 本实施例中均为1。 0100 2.综合分类损失和对抗损失, 用于优化图像生成器G, 0101 LG Lclass+(- Ladv) 0102 其中 , 为各损失的权重。 本。
39、实施例中, 1.0, 2.0。 0103 3.交替优化G, L和D。 其中, 根据LG优化图像生成器G, 根据Lclass优化分类识别器L, 根据Ladv优化模态识别器D。 0104 作为一优选实施例, 还包括第五步: 构建多风格行人重识别数据集, 用以训练并评 估模型性能。 0105 本步骤中具体操作为: 0106 1.构建从素描图片到实际行人图片, 以及肖像图片到实际行人图片的数据集。 本 实 施 例中 , 数 据 集 中 行 人 类 别 数 为 2 4 5 , 将 素 描图 片 到 实际 行 人图 片 命 名为 “Sketch2Reality” , 将肖像图片到实际行人图片命名为 “Po。
40、rtrait2Reality” , 素描图片和 肖像图片中每个行人类别均只包含一张图片, 实际监控系统下行人图片包含3到8个摄像机 视角, 总共包含40971张图片。 0107 2.将本实施例所提供的方法分别应用于构建的数据集, 评估模型性能。 本实施例 中, 一半的行人用于训练, 另一半用于测试。 0108 图1为本实施例所提供的基于对抗学习的多风格行人重识别方法的整体运行流程 示意图。 详细阐释了第一到第四步的具体过程和数据流向。 本实施例中的基于对抗学习的 多风格行人重识别方法可以将构建的模型集成在同一个深度神经网络架构中, 易于重现且 具有很好地适用性和推广性。 0109 综上, 本实。
41、施例方法步骤提出了端到端的学习框架用以解决多风格行人重识别问 题, 提出了图片生成器进行不同模态间图片空间映射同时引入对抗学习帮助更好的图片生 成, 用以帮助下一步的识别, 提取出的特征更具有区分度, 更具有鲁棒性, 能更好的解决多 风格行人重识别问题, 使其在下一步的行人识别中发挥更好的性能及效率。 0110 以下表1, 是基于本实施例所提供的方法得到的性能的最终识别准确率的数值比 较结果。 从上至下依次陈列了用以对照的其他结果同本发明实施结果(MIAM)的数值比较。 可以看到本实施例精度在不同数据集上都有很好的效果提升。 0111 表1 说明书 7/11 页 11 CN 111985313。
42、 A 11 0112 0113 以下表2, 是本实施例方法的中间结果性能比较, 用以说明本实施例提出的对抗学 习网络框架的有效性。 其中G, D, L分别代表算法中的图像生成器, 模态识别器和分类识别 器, DA代表算法中额外运用了空间映射的数据扩充方法(参见Z.Zhong,L.Zheng,Z.Zheng, S.Li,Y.Yang,Camera style adaptation for person re-identification,CoRR abs/ 1711.10295(2018).)可以看到本实施例的方法流程综合了G, D, L能更好的应对多风格行人 重识别问题, 提升最后的识别性能。。
43、 0114 表2 0115 0116 以下表3, 是本实施例方法的中间结果性能比较, 用以说明本实施例提出的方法的 普适性。 MIAM为本方法的简称, 自上而下分别为探索不同的分类识别器应用于本算法的性 能比较。 0117 表3 0118 0119 从表3中可以看出, 本实施例的方法提出的给予对抗学习的算法, 能够普遍的提高 说明书 8/11 页 12 CN 111985313 A 12 现有识别网络在多风格行人重识别问题上的性能, 给出更好的特征提取方案。 0120 本发明另一实施例提供了一种基于对抗学习的多风格行人重识别系统, 包括: 0121 图像生成器G模块, 图像生成器G模块为模态不。
44、变的数据空间, 用于输入分别从虚拟图 像源和真实图像源获取的原始图片Ia,b, 并得到映射后的输出图像 输入; 其中, a和b分别表示属于不同模态的图片, 和 分别表示输入的图片a和图片b对应 的映射后生成图像; 0122模态识别器D模块, 模态识别器D模块用于输入输出图像区分输出图像 中各图片对应的来源, 并求得对抗损失Ladv后输出; 0123分类识别器L模块, 分类识别器L模块用于输入输出图像并结合对应 的行人类别标签cca,cb, 标签由数据集本身提供, 求得分类的交叉熵损失Llabel; 同时引 入三元组损失Ltriplet, 拉近正样本对间的距离, 拉远负样本对间的距离; 其中, 。
45、ca和cb分别表 示原图片a,b所对应的行人类别标签; 0124 模型生成模块: 用于综合交叉熵损失Llabel和三元组损失Ltriplet, 得到最终的分类 损失Lclass; 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG; 交替优化图像生成器 G、 分类识别器L和模态识别器D, 其中, 根据图像生成损失LG优化图像生成器G, 根据分类损 失Lclass优化分类识别器L, 根据对抗损失Ladv优化模态识别器D, 最终得到多风格行人重识别 模型, 该多风格行人重识别模型用于对行人图片中的行人图像进行重识别。 0125 作为一优选实施例, 图像生成器G包括: 由三个卷积层构。
46、成的编码器、 由三个残差 网络层构成的转换器以及由两个逆卷积层和一个卷积层构成的解码器。 0126 作为一优选实施例, 模态识别器D包括四个卷积层, 输出的对抗损失Ladv为: 0127 0128其中, m*表示设定的来源类别标签, 其中来源于的来源类别标签设为0, 来源于 的来源类别标签设为1, n为每次迭代中输入图片数, D代表经过生成器的操作, D为模态识 别器D的网络参数, n为每次迭代中输入图片数。 0129作为一优选实施例, 分类识别器L对映射后的输出图像和对应的行人类别 标签cca,cb, 求得分类的交叉熵损失Llabel为: 0130 0131 其中, n为每次迭代中输入图片数。
47、, p为对应的概率分布; 0132 同时引入三元组损失Ltriplet为: 0133 0134其中,为正样本对, 属于同一个行人类别标签,为负样本对, 属于不 同的行人类别标签。 说明书 9/11 页 13 CN 111985313 A 13 0135 作为一优选实施例, 模型生成模块, 综合交叉熵损失Llabel和三元组损失Ltriplet, 得 到最终的分类损失Lclass为: 0136 Lclassw0Llabel+w1Ltriplet 0137 其中, w0,w1分别为各损失的权重; 0138 综合分类损失Lclass和对抗损失Ladv, 得到图像生成损失LG为: 0139 LG Lc。
48、lass+(- Ladv) 0140 其中, , 分别为各损失的权重。 0141 本发明第三个实施例提供了一种终端, 包括存储器、 处理器及存储在存储器上并 能够在处理器上运行的计算机程序, 处理器执行计算机程序时能够用于执行上述任一项实 施例的方法。 0142 可选地, 存储器, 用于存储程序; 存储器, 可以包括易失性存储器(英文: volatile memory), 例如随机存取存储器(英文: random-access memory, 缩写: RAM), 如静态随机存取 存储器(英文: static random-access memory, 缩写: SRAM), 双倍数据率同步动态随。
49、机存取 存储器(英文: Double Data Rate Synchronous Dynamic Random Access Memory, 缩写: DDR SDRAM)等; 存储器也可以包括非易失性存储器(英文: non-volatile memory), 例如快 闪存储器(英文: flash memory)。 存储器62用于存储计算机程序(如实现上述方法的应用程 序、 功能模块等)、 计算机指令等, 上述的计算机程序、 计算机指令等可以分区存储在一个或 多个存储器中。 并且上述的计算机程序、 计算机指令、 数据等可以被处理器调用。 0143 上述的计算机程序、 计算机指令等可以分区存储在一。
50、个或多个存储器中。 并且上 述的计算机程序、 计算机指令、 数据等可以被处理器调用。 0144 处理器, 用于执行存储器存储的计算机程序, 以实现上述实施例涉及的方法中的 各个步骤。 具体可以参见前面方法实施例中的相关描述。 0145 处理器和存储器可以是独立结构, 也可以是集成在一起的集成结构。 当处理器和 存储器是独立结构时, 存储器、 处理器可以通过总线耦合连接。 0146 本发明上述实施例所提供的基于对抗学习的多风格行人重识别方法、 系统、 终端, 首先设计了一个端到端的对抗学习框架, 同时包含数据变换和分类识别功能模块。 其中图 像生成器作为数据空间变换功能模块, 将来自不同源的数据。
- 内容关键字: 基于 对抗 学习 风格 行人 识别 方法 系统 终端
显示装置.pdf
电子机芯生产用配件装配设备.pdf
玻璃制品生产原料除铁设备.pdf
电路板点焊设备.pdf
茶叶分选用过滤装置.pdf
用于茶叶的储存罐结构.pdf
基于压感自调张力的化纤面料圆筒针织机牵拉结构.pdf
多功能小车移动防护结构.pdf
可拆卸式的灌装装置.pdf
输配电线路无线通信型激光雷达.pdf
炼厂货用升降机轿厢制停测距装置.pdf
文档扫描仪的纸张对齐机构.pdf
测量斜绕螺线管磁场强度的实验装置.pdf
通电检测夹具.pdf
用于丁基胶灌装机的压盘结构.pdf
真空绝热外墙复合一体板.pdf
提高丰年虫孵化率的孵化装置.pdf
陶瓷加工用球磨机.pdf
快速调节间隙的悬挂端梁.pdf
洁净室恒温恒湿空气处理组合风柜.pdf
汽车管柱筒生产用下料设备.pdf
裤耳机的裤耳定位装置.pdf
建筑设施抗震性能的评估方法、装置、设备及存储介质.pdf
基于牵引振动落饵料的导料槽结构及灭蚁毒饵撒料机.pdf
高通量高分辨率静态傅里叶变换光谱测量方法.pdf
智能计量包装方法及装置.pdf
RNA疫苗递送制剂及其制备方法.pdf
基于点云与有限元分析的飞机蒙皮修配方法.pdf
检测番鸭查帕马病毒的引物和探针、病毒分离培养方法.pdf
长效保湿乳液及其制备方法.pdf
水泥碎渣废料清理装置.pdf
基于病患信息的全病程管理平台的应用方法及系统.pdf
一种日光温室智能应用系统.pdf
一种用于清洗韭菜花的装置.pdf
一种动态动物供食装置.pdf
用于家禽溯源标识信息采集的二维码脚环.pdf
一种不粘痰盂.pdf
一种提高生根率的铁皮石斛组培养方法.pdf
一种甘蔗收割机的归拢装置.pdf
体外反搏装置及体外反搏信号控制方法.pdf
一种授粉器.pdf
收纳箱.pdf
具有补光装置的视频阴道窥镜.pdf
一种昆虫信息素诱虫带.pdf
一种放射性核素标记的特异性前哨淋巴结显像剂及其制备方法.pdf
一种白带采集器.pdf
用于改进的植物性状的分离的复合内生菌组合物和方法.pdf
用于植入型舌牵拉装置的U型牵引板.pdf
一种白带取样送检器.pdf
小型播种机防堵器.pdf
保护并促进幼鱼生长的增殖型人工鱼礁装置.pdf