基于2D图像的虚拟换装方法.pdf

上传人:刘** 文档编号:11465345 上传时间:2021-09-28 格式:PDF 页数:13 大小:771.07KB
收藏 版权申诉 举报 下载
基于2D图像的虚拟换装方法.pdf_第1页
第1页 / 共13页
基于2D图像的虚拟换装方法.pdf_第2页
第2页 / 共13页
基于2D图像的虚拟换装方法.pdf_第3页
第3页 / 共13页
文档描述:

《基于2D图像的虚拟换装方法.pdf》由会员分享,可在线阅读,更多相关《基于2D图像的虚拟换装方法.pdf(13页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910395740.2 (22)申请日 2019.05.13 (71)申请人 东北大学 地址 110819 辽宁省沈阳市和平区文化路 三巷11号 (72)发明人 于瑞云王晓琦 (74)专利代理机构 大连理工大学专利中心 21200 代理人 梅洪玉刘秋彤 (51)Int.Cl. G06F 3/01(2006.01) G06T 11/00(2006.01) G06K 9/62(2006.01) G06T 11/60(2006.01) (54)发明名称 基于2D图像的虚拟换装方法。

2、 (57)摘要 本发明提出了基于2D图像的虚拟换装方法, 属于计算机视觉领域。 该方法采用首先生成用户 穿着目标服装的分割图, 来清晰地划分用户的肢 体和服装的范围; 接下来使用该新生成的分割图 来引导合成最终图像, 避免了服装和肢体两部分 互相争抢而出现缺失的现象, 进而得到更好的合 成效果。 相比于传统的3D虚拟换装方法, 该方法 具有更广泛的应用场景。 权利要求书2页 说明书5页 附图5页 CN 110096156 A 2019.08.06 CN 110096156 A 1.一种基于2D图像的虚拟换装方法, 其特征在于, 包括以下步骤: 步骤1: 输入一张用户照片I和一张目标服装照片C;。

3、 步骤2: 根据照片I中的用户, 提取该用户的骨骼节点姿态图Pose和该用户的身体分割 图M1; 步骤3: 将Pose、 M1和C合并作为第一个卷积网络的输入, 经过编码解码过程, 该网络输 出用户穿着目标服装的新分割图M2和变形后的服装分割图Mc; 步骤4: 依据变形后的服装分割图Mc, 对未变形的RGB三通道的服装C进行形状上下文 TPS插值变形, 得到变形后的RGB三通道服装图像C ; 步骤5: 将Pose、 C 、 M2和用户脸部头发的分割图Face_hair合并作为条件对抗网络的输 入, 经过生成器和判别器的对抗合成, 输出最终的用户换装后的合成图像I 。 2.根据权利要求1所述的基。

4、于2D图像的虚拟换装方法, 其特征在于, 所述步骤2具体按 如下步骤执行: 步骤2.1: 将用户照片I输入识别姿态关节点的网络模型, 最终得到18个骨骼关节点, 然 后将18个点分别绘制成18个1111的小矩形框, 得到用户的骨骼节点姿态图Pose; 步骤2.2: 将图像I输入分割网络模型, 最终得到单通道用户身体的肢体分割图M1。 3.根据权利要求1或2所述的基于2D图像的虚拟换装方法, 其特征在于, 所述步骤3具体 按如下步骤执行: 步骤3.1: 将Pose、 M1和C按照通道进行合并, 作为input1; 步骤3.2: 将input1输入卷积神经网络, 该卷积神经网络为U-Net编码解码。

5、网络, 在其 中, 添加Attention机制, 使得网络更关注与任务相关的位置; 编码网络部分, 逐步提取 input1的特征; 解码网络部分, 根据得到的最终特征, 进行转置操作, 逐步将特征放大还原 为原图大小; 网络最终输出两张图, 分别是用户穿着目标服装的新分割图M2和变形后的服 装分割图Mc; 步骤3.3: 针对网络训练过程, 对于M2和Mc使用Focal-loss损失结合L1损失。 4.根据权利要求1或2所述的基于2D图像的虚拟换装方法, 其特征在于, 所述步骤5具体 按如下步骤执行: 步骤5.1: 将Pose、 C 、 M2和Face_hair按照通道进行合并, 作为input。

6、2; 步骤5.2: 将input2输入条件对抗网络; 条件对抗网络包括一个生成器和一个判别器, 生成器根据输入的input2生成合成换装图, 判别器则要判断出来合成换装图是真还是假, 生成器和判别器互相监督互相督促, 最终得到优化的生成器和判别器, 生成器能够生成足 以以假乱真的合成图I ; 生成器要生成两个输出, 分别是一个初始的人像合成图I_coarse 和一个掩膜mask, mask用来权衡最终合成图I 哪些部分来自于I_coarse, 哪些部分来自于 变形后的服装C ; 步骤5.3: 针对网络训练过程, 对于mask使用L1损失, 对I_coarse使用VGG-loss损失, 对 I 。

7、使用VGG-loss损失、 L1损失和cGAN-loss损失。 5.根据权利要求3所述的基于2D图像的虚拟换装方法, 其特征在于, 所述步骤5具体按 如下步骤执行: 步骤5.1: 将Pose、 C 、 M2和Face_hair按照通道进行合并, 作为input2; 步骤5.2: 将input2输入条件对抗网络; 条件对抗网络包括一个生成器和一个判别器, 权利要求书 1/2 页 2 CN 110096156 A 2 生成器根据输入的input2生成合成换装图, 判别器则要判断出来合成换装图是真还是假, 生成器和判别器互相监督互相督促, 最终得到优化的生成器和判别器, 生成器能够生成足 以以假乱真。

8、的合成图I ; 生成器要生成两个输出, 分别是一个初始的人像合成图I_coarse, 和一个掩膜mask, mask用来权衡最终合成图I 哪些部分来自于I_coarse, 哪些部分来自于 变形后的服装C ; 步骤5.3: 针对网络训练过程, 对于mask使用L1损失, 对I_coarse使用VGG-loss损失, 对 I 使用VGG-loss损失、 L1损失和cGAN-loss损失。 6.根据权利要求1、 2或5所述的基于2D图像的虚拟换装方法, 其特征在于, 所述步骤2 中, 18个骨骼关节点包括左眼、 右眼、 鼻子、 左耳、 右耳、 脖子、 左手、 右手、 左肘关节、 右肘关 节、 左肩、。

9、 右肩、 左胯骨、 右胯骨、 左膝、 右膝、 左脚和右脚; 身体分割图M1包括脸部、 头发、 上 半身、 胳膊、 腿、 脚6个部分。 7.根据权利要求3所述的基于2D图像的虚拟换装方法, 其特征在于, 所述步骤2中, 18个 骨骼关节点包左眼、 右眼、 鼻子、 左耳、 右耳、 脖子、 左手、 右手、 左肘关节、 右肘关节、 左肩、 右 肩、 左胯骨、 右胯骨、 左膝、 右膝、 左脚和右脚; 身体分割图M1包括脸部、 头发、 上半身、 胳膊、 腿、 脚6个部分。 8.根据权利要求4所述的基于2D图像的虚拟换装方法, 其特征在于, 所述步骤2中, 18个 骨骼关节点包括左眼、 右眼、 鼻子、 左耳。

10、、 右耳、 脖子、 左手、 右手、 左肘关节、 右肘关节、 左肩、 右肩、 左胯骨、 右胯骨、 左膝、 右膝、 左脚和右脚; 身体分割图M1包括脸部、 头发、 上半身、 胳 膊、 腿、 脚6个部分。 9.根据权利要求3所述的基于2D图像的虚拟换装方法, 其特征在于, 所述步骤3.3中, Focal-loss损失与L1损失表达式如下: 其中, 损失(1)中, N表示参与计算的像素数量, C表示类别总数,表示预测的类别, 表示常量, yik表示类别真值; 损失(2)中, x表示预测类别, 表示类别真值。 10.根据权利要求4所述的基于2D图像的虚拟换装方法, 其特征在于, 所述步骤5.3中, VG。

11、G-loss损失和cGAN-loss损失表达式如下: LcGANEx, ylogD(x, y)+Ex, zlog(1-D(x, G(x, z) (4) 其中, I 为预测值, 为真值, 为VGG网络第i层卷积的输出特征图, i为权重, 靠前的 层, 权重低; x表示输入条件, 在这里表示input2; y表示真值, 在这里表示原图I; z为预测值, 在这里表示最终合成图I , Ex, y表示求取均值; Ex, z表示求取均值。 权利要求书 2/2 页 3 CN 110096156 A 3 基于2D图像的虚拟换装方法 技术领域 0001 本发明属于计算机视觉领域, 具体涉及基于2D图像的虚拟换装。

12、方法。 背景技术 0002 现在, 越来越多的人选择网上购物, 其中就包括服装的购买。 网上购物不仅便利了 我们的生活, 还促进了商业的发展。 然而, 当我们在网上购买服装时, 往往不知道这个服装 是否真的适合自己。 如果我们可以虚拟地试穿服装, 那么这将极大地提高我们的购物体验。 亦或是, 当我们游玩在景区, 总会看到提供换装拍照的服务, 然而有时候我们并不想真正地 换上那些服装, 这时, 虚拟换装将会为我们带来便利, 我们可以通过移动设备, 看到自己虚 拟换装后的效果并进行拍照。 0003 近年来, 随着卷积网络等神经网络的发展, 计算机视觉领域掀起了新的发展热潮。 对于物体识别方面, 计。

13、算机甚至可以超越人类的识别能力; 对于物体检测方面, 计算机视觉 技术越来越多的进入我们的生活中, 例如监控系统已经可以通过计算机来进行24小时监 控; 对于图像生成方面, 随着生成对抗网络的发展, 计算机可以做更多有趣的事情, 例如人 脸生成和照片风格迁移等等。 相对于传统的视觉方法, 深度学习方法不需要人工设计特征, 节省了大量的人力和时间, 且近几年的研究成果充分展现了它更高的准确性和更广泛的适 用性。 本方法基于深度学习, 设计了新的虚拟换装方法。 0004 然而, 传统的虚拟换装是基于3D信息的, 需要用户提供额外的3D信息, 例如身材尺 寸, 或是服装的3D模型; 除此之外, 还需。

14、要高昂的计算代价。 这对于增强现实系统, 亦或是, 网上购物是非常不利的。 基于此, 有一些基于2D图像的虚拟换装算法被提出, 然而, 这一任 务充满了挑战, 现阶段的方法不能在保留服装细节的同时, 保留用户完整的身体信息, 从而 产生错误的生成结果。 发明内容 0005 针对现有技术存在的不足, 本发明提供了一种新的基于2D图像的虚拟换装方法。 0006 本发明的技术方案: 0007 基于2D图像的虚拟换装方法, 包括以下步骤: 0008 步骤1: 输入一张用户照片I和一张目标服装照片C; 0009 步骤2: 根据照片I中的用户, 提取该用户的骨骼节点姿态图Pose和该用户的身体 分割图M1。

15、(身体分割图M1是按照肢体结构进行分割获得的); 0010 步骤2.1: 将用户照片I输入识别姿态关节点的网络模型, 最终得到18个骨骼关节 点, 然后将18个点分别绘制成18个1111的小矩形框, 得到用户的骨骼节点姿态图Pose; 0011 步骤2.2: 将图像I输入分割网络模型, 最终得到单通道用户身体的肢体分割图M1 (肢体分割图M1包括脸部、 头发、 上半身、 胳膊、 腿、 脚6个部分); 0012 步骤3: 将Pose、 M1和C合并作为第一个卷积网络(CNN网络)的输入, 经过编码解码 过程, 该网络输出用户穿着目标服装的新分割图M2(新分割图M2是按照服装进行分割获得 说明书 。

16、1/5 页 4 CN 110096156 A 4 的)和变形后的服装分割图Mc; 0013 步骤3.1: 将Pose、 M1和C按照通道进行合并, 作为input1; 0014 步骤3.2: 将input1输入卷积神经网络, 该卷积神经网络为U-Net编码解码网络, 在 其中, 添加Attention机制, 使得网络更关注与任务相关的位置。 编码网络部分, 逐步提取 input1的特征; 解码网络部分, 根据得到的最终特征, 进行转置操作, 逐步将特征放大还原 为原图大小。 网络最终输出两张图, 分别是用户穿着目标服装的新分割图M2(这里按照服装 进行分割)和变形后的服装分割图Mc。 0015。

17、 步骤3.3: 针对网络训练过程, 对于M2和Mc使用Focal-loss损失结合L1损失。 0016 步骤4: 依据变形后的服装分割图Mc, 对未变形的RGB三通道的服装C进行形状上下 文TPS插值变形, 得到变形后的RGB三通道服装图像C ; 0017 步骤5: 将Pose、 C 、 M2和用户脸部头发的分割图Face_hair合并作为条件对抗网络 (cGAN网络)的输入, 经过生成器和判别器的对抗合成, 输出最终的用户换装后的合成图像 I 。 0018 步骤5.1: 将Pose、 C 、 M2和Face_hair按照通道进行合并, 作为input2; 0019 步骤5.2: 将input。

18、2输入条件对抗网络。 条件对抗网络包括一个生成器和一个判别 器, 生成器根据输入的input2生成合成换装图, 判别器则要判断出来合成换装图是真还是 假, 生成器和判别器互相监督互相督促, 最终得到优化的生成器和判别器, 生成器能够生成 足以以假乱真的合成图I 。 生成器要生成两个输出, 分别是一个初始的人像合成图I_ coarse, 和一个掩膜mask, mask用来权衡最终合成图I 哪些部分来自于I_coarse, 哪些部分 来自于变形后的服装C 。 0020 步骤5.3: 针对网络训练过程, 对于mask使用L1损失, 对I_coarse使用VGG-loss损 失, 对I 使用VGG-l。

19、oss损失、 L1损失和cGAN-loss损失。 0021 本发明的有益效果: 本发明提出了一种新的基于2D图像的虚拟换装方法, 该方法 一共包括三个模块, 分别是分割图生成模块、 服装变形模块和图像合成模块。 针对当前的算 法不能同时保留服装细节和用户肢体信息的问题, 我们的方法采用首先生成用户穿着目标 服装的分割图, 来清晰地划分用户的肢体和服装的范围; 接下来使用该新生成的分割图来 引导最终合成图像的方法, 避免了服装和肢体两部分互相争抢而出现缺失的现象, 进而得 到更好的合成效果。 附图说明 0022 图1为本发明的整体路程图; 0023 图2为本发明方法的功能模块图; 0024 图3。

20、为本发明中第一个分割图生成模块的方法流程图; 0025 图4为本发明中第二个服装变形模块的方法示意图; 0026 图5位本发明中cGAN的流程示意图; 0027 图6为本发明中第三个图像合成模块的方法流程图; 0028 图7为本发明的应用结果展示图。 说明书 2/5 页 5 CN 110096156 A 5 具体实施方式 0029 下面结合附图对本发明的具体训练和测试步骤详细说明。 0030 本实施方式的方式, 软件环境为Ubuntu16.04。 0031 针对训练阶段, 该方法的整体流程如图1所示。 0032 步骤1: 输入任意一张用户照片I和一张目标服装照片C。 将两张图调整到256192。

21、 3大小, 3表示RGB三通道彩色图片。 0033 步骤2: 根据照片I中的用户, 提取该用户的骨骼节点姿态图Pose, 和该用户的身体 分割图M1(这里按照肢体结构进行分割)。 0034 步骤2.1: 将图像I输入识别姿态关节点的网络模型, 得到18个骨骼关节点(包括左 眼、 右眼、 鼻子、 左耳、 右耳、 脖子、 左手、 右手、 左肘关节、 右肘关节、 左肩、 右肩、 左胯骨、 右胯 骨、 左膝、 右膝、 左脚和右脚, 然后将18个点分别绘制成18个1111的小矩形框, 最终组成 25619218的输入特征图Pose。 0035 步骤2.2: 将图像I输入分割网络模型, 得到单通道用户身体。

22、的肢体分割图(包括脸 部、 头发、 上半身、 胳膊、 腿、 脚6个部分), 最终得到2561921特征图M1。 0036 步骤3: 将Pose、 M1和C合并作为第一个卷积网络(CNN网络)的输入, 经过编码解码 过程, 该网络输出用户穿着目标服装的新分割图M2(这里按照服装进行分割)和变形后的服 装分割图Mc, 如图3所示。 0037 步骤3.1: 将姿态关节点的特征图Pose、 用户的身体分割图M1和服装照片C按照通 道方向进行合并, 得到25619222的输入特征图作为input1, 如图3所示; 0038 步骤3.2: 将input1输入Attention-U-Net卷积神经网络, 该。

23、卷积网络为编码解码 网络, 包括5层编码层和5层解码层, 其中Attention机制通过学习权重, 叠加在中间特征图 中使得网络更关注与任务相关的位置。 0039 如图3所示, 其中实线细箭头为编码网络部分, 通过卷积层结合批归一化层, 它逐 步提取input1的特征; 实线宽箭头为解码网络部分, 根据得到的最终特征, 通过转置卷积结 合批归一化层, 逐步将特征放大还原为原图大小; 虚线细箭头为跳层拼接部分, 通过将编码 层的特征直连到后面解码层, 让网络保留更多的输入信息, 在跳层之前, 首先通过 Attention机制对跳层特征图进行修改。 图中额外特征是从未变形的服装图像上提取的卷 积特。

24、征, 通过提供更多的信息, 让网络结构更加鲁棒。 为了防止网络过拟合, 我们在网络结 构中加入Dropout层, 激活函数选择LeakyReLU。 0040 网络最终输出的output为2561922, 将它按照通道拆分成两张图, 分别是用户 穿着目标服装的新分割图M2, 大小为2561921(这里按照服装进行分割)和变形后的服 装分割图Mc, 大小为2561921。 0041 步骤3.3: 针对网络训练过程, 对于M2和Mc使用Focal-loss损失(1)结合L1损失 (2): 0042 0043 0044损失(1)中, N表示参与计算的像素数量, C表示类别总数,表示预测的类别, yik。

25、 表示类别真值。 损失(2)中, x表示预测类别, 表示类别真值, 表示常量。 说明书 3/5 页 6 CN 110096156 A 6 0045 步骤4: 依据变形后的服装分割图Mc, 对未变形的RGB三通道的服装C进行形状上下 文薄板样条插值(Thin-Plate Spline, TPS)变形, 得到变形后的RGB三通道服装图像C , 如 图4所示。 变形后的服装给第三个合成模块提供更多的服装信息, 若是直接将未变形的服装 送给合成模块作为输入, 由于服装与人体姿态未对齐, 最终的合成效果将不理想。 0046 形状上下文(Shape Context)是一种轮廓形状描述子, 在该服装变形模块。

26、中, 分别 获取变形后的服装C 和未变形的服装C的形状上下文描述子, 并计算N对匹配的点对集合。 0047 薄板样条插值将根据这N对匹配的点对集合求出TPS参数。 TPS是一种用于2D形状 变形的常用方法, 对于两张图像中的N对匹配的点集, 计算一个形变来模拟2D的变形, 使得 其中一张图像变形后, 这N对匹配的点相重合。 最后, 根据计算得到的TPS参数, 对原RGB三通 道的服装图像C, 进行相同的变换, 得到RGB三通道变形后的服装C 。 0048 步骤5: 将用户的骨骼节点姿态图Pose、 变形后的服装C 、 用户穿着目标服装的新 分割图M2和用户脸部头发的分割图Face_hair合并。

27、作为条件对抗网络(cGAN网络, 如图5所 示)的输入, 经过生成器和判别器的对抗合成, 输出最终的用户换装后的合成图像I , 如图6 所示。 0049 步骤5.1: 将Pose、 C 、 M2和Face_hair按照通道进行合并, 作为input2, 大小为256 19225, 这里Face_hair是RGB三通道彩色图像, 单独拿出它作为输入是为了保证合成的 图像保持用户的脸部和头发信息不改变; 0050 步骤5.2: 将input2输入条件对抗网络。 条件对抗网络包括一个生成器和一个判别 器, 生成器根据输入的input2生成我们要的合成换装图, 判别器则要判断出来合成换装图 是真还是假。

28、, 基于此, 生成器和判别器互相监督互相督促, 最终我们得到优秀的生成器和判 别器, 生成器可以生成足以以假乱真的合成图I 。 条件对抗网络结构如图5所示。 0051 生成器是一个更深层的Attention-U-Net卷积神经网络, 判别器是一个浅层的卷 积网络。 在生成器的解码网络中, 使用双线性插值首先放大特征图, 进而连接卷积网络; 以 之替换转置操作, 避免了生成结果中的棋盘伪影现象, 得到更好的生成效果。 0052 在这里生成器要生成两个输出, 分别是一个初始的人像合成图I_coarse, 和一个 掩膜mask。 通过掩膜mask分别与I_coarse和变形后的服装C 做元素积, 来。

29、权衡最终合成图 I 哪些部分来自于I_coarse, 哪些部分来自于变形后的服装C 。 在保证用户肢体信息完整 的前提下, 尽可能多地保留服装细节。 0053 步骤5.3: 针对网络训练过程, 对于mask使用L1损失(2), 对I_coarse使用VGG-loss 损失(3), 对I 使用VGG-loss损失(3)、 L1损失(2)和cGAN-loss损失(4)。 0054 0055 LcGANEx, ylogD(x, y)+Ex, zlog(1-D(x, G(x, z) (4) 0056在公式(3)中, I 为预测值,为真值, 为VGG网络第i层卷积的输出特征图, i为 权重, 靠前的层,。

30、 权重低。 在公式(4)中, x表示输入条件, 在这里表示的就是input2; y表示真 值, 在这里表示原图I; z为预测值, 在这里表示最终合成图I , Ex, y表示求取均值; Ex, z表示求 取均值。 0057 针对测试阶段, 整体流程与训练阶段类似, 流程图如图1所示。 0058 由用户首先输入两张图像, 分别是用户自身照片和一张目标服装照片; 然后, 经过 说明书 4/5 页 7 CN 110096156 A 7 第一个分割图生成模块, 得到用户穿着目标服装的新分割图和变形后的服装分割图; 接着, 按照服装分割图进行服装变形; 最后, 根据前两阶段的结果合成最终用户穿着该目标服装。

31、 的新图像, 完成虚拟换装的任务。 换装流程及效果如图7所示。 0059 综上所述, 基于2D图像的虚拟换装方法可以在不借助于任何额外3D信息的情况 下, 完成虚拟换装的任务。 相比于传统的3D虚拟换装方法, 该方法不需要高昂的软硬件成 本, 具有更广泛的适用场景。 相比于最近的2D换装方法, 该方法采用首先生成分割图的策 略, 进一步引导最终合成图像, 避免了肢体部分和服装部分的冲突, 保证了生成图像的完整 性。 说明书 5/5 页 8 CN 110096156 A 8 图1 说明书附图 1/5 页 9 CN 110096156 A 9 图2 说明书附图 2/5 页 10 CN 110096156 A 10 图3 图4 说明书附图 3/5 页 11 CN 110096156 A 11 图5 图6 说明书附图 4/5 页 12 CN 110096156 A 12 图7 说明书附图 5/5 页 13 CN 110096156 A 13 。

展开阅读全文
内容关键字: 基于 图像 虚拟 换装 方法
关于本文
本文标题:基于2D图像的虚拟换装方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11465345.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1