自适应属性和实例掩码嵌入图的文本到图像生成方法.pdf

上传人：伱** 文档编号：10597603 上传时间：2021-06-25 格式：PDF 页数：15 大小：1.08MB

收藏版权申诉举报下载

第1页 / 共15页

第2页 / 共15页

第3页 / 共15页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《自适应属性和实例掩码嵌入图的文本到图像生成方法.pdf》由会员分享，可在线阅读，更多相关《自适应属性和实例掩码嵌入图的文本到图像生成方法.pdf（15页完成版）》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010139353.5 (22)申请日 2020.03.03 (71)申请人曲阜师范大学地址 273165 山东省济宁市曲阜市静轩西路57号 (72)发明人倪建成张素素 (74)专利代理机构温州名创知识产权代理有限公司 33258 代理人陈加利 (51)Int.Cl. G06T 11/00(2006.01) G06T 9/00(2006.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.0。

2、1) G06N 3/04(2006.01) (54)发明名称一种自适应属性和实例掩码嵌入图的文本到图像生成方法 (57)摘要本发明提供一种自适应属性和实例掩码嵌入图的文本到图像生成方法，包括根据输入的文本使用边框回归网络来获得6464、 128128及 256256语义布局；根据6464语义布局、句嵌入向量和随机噪声，在低分辨率生成器中生成粗粒度的图像潜在特征及低分辨率6464图像；根据128128语义布局，在第一高分辨率生成器中形成像素级特征向量；根据128128语义布局、粗粒度的图像潜在特征及像素级特征向量，在第一高分辨率生成器中生成第一细粒度的图像潜。

3、在特征及高分辨率128128图像；根据256256 语义布局、第一细粒度的图像潜在特征及像素级特征向量，在第二高分辨率生成器中生成高分辨率的256256图像。实施本发明，让图像不仅分辨率高、满足实例形状约束，而且属性特征与描述一致。权利要求书3页说明书8页附图3页 CN 111340907 A 2020.06.26 CN 111340907 A 1.一种自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述方法包括以下步骤：根据输入的文本，使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息，并。

4、整合所有实例生成的边界框的位置和标签信息，得到6464、 128128及256256语义布局；根据6464语义布局、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的6464图像；根据128128语义布局，在第一高分辨率生成器中通过预设的掩码回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图，并在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128128语义布局的各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将。

5、所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量；根据128128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128128图像；根据256256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256256图像。 2.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述使用预设的编码。

6、器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息的步骤具体包括：首先，使用预训练的Bi-LSTM作为文本编码器，将所述文本编码为词向量和一个句向量其中，每个词均有两个隐藏状态，且每个词的两个隐藏状态级联，得到所有单词的一个特征矩阵；所述特征矩阵的每一列均代表每一个单词的特征向量；同时连接Bi-LSTM两个方向最后的隐层状态来获得句向量；其次，采用LSTM作为解码器来得到每个单词对应的实例类标签lt、坐标信息bt，具体为：类别标签lt使用softmax函数计算， bt采用高斯混合模型建模：其中， et表示概率分布向量，和表示。

7、高斯混合模型中的参数， et和GMM参数均根据LSTM每个单元的第t步输出来计算， k是混合单元的数量；最后，根据所述每个单词对应的实例类标签lt、坐标信息bt，得到每个单词对应实例的标签信息Bt(bt,lt)，并根据所述每个单词对应实例的标签信息Bt(bt,lt)，分别得到在64 64、 128128及256256语义布局中每个实例边界框的位置；其中，权利要求书 1/3 页 2 CN 111340907 A 2 四元组中(x,y,w,h)表示其坐标和宽高。 3.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述根据6464语义布局、。

8、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的6464图像的步骤具体包括：在低分辨率生成器中对6464语义布局下采样，得到第一布局编码 0，并将所述第一布局编码、句嵌入向量和随机噪声送入预设的第一残差块后再进行上采样，得到粗粒度的图像潜在特征；将所述粗粒度的图像潜在特征导入33卷积神经网络中，输出低分辨率的6464图像。 4.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述根据128128语义布局，在第一高分辨率生成器中通过所述预设的边框回归网络计算得到全。

9、局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图的步骤具体包括：在第一高分辨率生成器中，采用预设的掩码回归网络将128128语义布局中每一个实例的标签信息均编码为二进制张量，并通过下采样来获得每一个实例的特征编码；将所述每一个实例的特征编码均送入预设的Bi-LSTM并级联随机噪声中，并在当且仅当每一个实例的边框包含相关的类标签时，将每一个实例的二进制张量均设为1并进行掩码表示，得到每一个实例的二进制张量的掩码特征；将所有每一个实例的二进制张量的掩码特征输入预设的第二残差块后再进行上采样，映射形成全局实例掩码图，且进一步将所述全局实例掩码图进行裁。

10、剪操作，得到每一个实例的掩码嵌入图。 5.如权利要求1中所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对 128128语义布局的各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量的步骤具体包括：首先，根据低分辨率的6464图像子区域向量，在第一高分辨率生成器中从128128 语义布局中检索包含细节信息的相关实例向量，并为每个实例向量Vt 分配注意力权重wt，然后计算输入信息的权。

11、重和，得到每一个实例的上下文向量：其中，表示第t个对象的实例级别的上下文向量；其次，根据所述每一个实例的上下文向量与其对应的掩码嵌入图，在第一高分辨率生成器中采用最大池化为每一个实例的上下文向量选择最相关的像素级特征向量：其中，表示向量外积， V表示像素级特征向量。 6.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述根据128128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在权利要求书 2/3 页 3 CN 111340907 A 3 第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在。

12、特征对应生成的高分辨率的128128图像的步骤具体包括：在第一高分辨率生成器中对128128语义布局下采样，得到第一布局编码 1，并将所述第二布局编码、所述粗粒度的图像潜在特征及所述像素级特征向量送入预设的第三残差块后再进行上采样，得到第一细粒度的图像潜在特征；将所述第一粒度的图像潜在特征导入33卷积神经网络中，输出高分辨率的128128 图像。 7.如权利要求1所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述根据256256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据。

13、所述第二细粒度的图像潜在特征对应生成的高分辨率的256256图像的步骤具体包括：在第二高分辨率生成器中对256256语义布局下采样，得到第三布局编码 2，并将所述第三布局编码、所述第一细粒度的图像潜在特征及所述像素级特征向量送入预设的第四残差块后再进行上采样，得到第二细粒度的图像潜在特征；将所述第二粒度的图像潜在特征导入33卷积神经网络中，输出高分辨率的256256 图像。 8.如权利要求3、 6-7中任一项所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，所述低分辨率的6464图像、高分辨率的128128图像及高分辨率的 256256图像均采用词级。

14、自适应属性的判别器进行对抗训练；其中，每一个词级自适应属性的判别器均能判断生成的图像是否包含每一个属性描述，并为生成器提供反馈信号，指导其生成包含准确属性特征的图像。 9.如权利要求8所述的自适应属性和实例掩码嵌入图的文本到图像生成方法，其特征在于，每一个词级自适应属性的判别器可表示为其中， T表示输入文本中单词的总数， tn是softmax函数的权重， t,n是对第n层图像特征中第t个词分配的注意力权重。权利要求书 3/3 页 4 CN 111340907 A 4 一种自适应属性和实例掩码嵌入图的文本到图像生成方法技术领域 0001 本发明涉及计算机视觉图像生成技术领域。

15、，尤其涉及一种自适应属性和实例掩码嵌入图的文本到图像生成方法。背景技术 0002 近年来，深度学习在文本-图像生成领域已取得较好的成果。生成对抗网络(GAN) 作为最常用的生成模型，联合学习生成器和判别器；其中，生成器主要用于学习像素分布并生成逼真的图像，而判别器需鉴别生成图像的真假，两者不断对抗更新以达到最终的纳什平衡。 0003 生成对抗网络有多种输入类型，如随机噪声、语义分割图、素描图、图像对、场景图、文本等；其中，文本是最简单且最易操作的输入形式，越来越多的研究人员也趋向于文本-图像生成，但当文本描述中存在复杂多样的对象和场景时，由于缺。

16、乏语义布局作为中间表示，导致生成图像的质量会急剧下降。 0004 现有的文本-图像生成技术使用多级生成策略，对初步生成的低分辨率图像逐步优化来合成高分辨率图像。此外，边框回归网络可根据输入的嵌入向量预测目标的位置和大小，已被用于Fast R-CNN中的目标检测，定位的目标可用四元组(x,y,w,h)表示其坐标和宽高。 0005 但是，现有的文本-图像生成方法的输入大多是句向量，缺乏词级别的细粒度信息，合成的图像缺少实例级别的纹理特征。此外，在图像生成过程中，生成器容易忽略不同实例之间的空间交互关系，缺乏实例形状掩码约束，合成的图像出现了实例形状不合理，。

17、像素重叠和遮挡等问题；同时，句子级别的判别器只能提供粗粒度的训练反馈信息，难以判别词级的实例视觉属性，导致生成模型倾向于合成对象的 “平均” 模式，而非最相关的属性特征，无法合成真实而准确的高分辨率图像。 0006 因此，亟需一种新的文本-图像生成方法，能克服整个句子的复杂性和歧义性，使生成器能学习到实例的细粒度特征以及判别器能提供准确的属性反馈信息，让生成的图像不仅分辨率高、满足实例形状约束，而且属性特征与描述一致。发明内容 0007 本发明实施例所要解决的技术问题在于，提供一种自适应属性和实例掩码嵌入图的文本到图像生成方法，能克服整个句子的复杂性和。

18、歧义性，使生成器能学习到实例的细粒度特征以及判别器能提供准确的属性反馈信息，让生成的图像不仅分辨率高、满足实例形状约束，而且属性特征与描述一致。 0008 为了解决上述技术问题，本发明实施例提供了一种自适应属性和实例掩码嵌入图的文本到图像生成方法，所述方法包括以下步骤： 0009 根据输入的文本，使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息，并整合所有实例生成的边界框的位置说明书 1/8 页 5 CN 111340907 A 5 和标签信息，得到6464、 128128及256256语义布局； 0010 根据64。

19、64语义布局、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的6464图像； 0011 根据128128语义布局，在第一高分辨率生成器中通过预设的掩码回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图，并在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128128语义布局的各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量； 0012 根据1281。

20、28语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128128图像； 0013 根据256256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256256图像。 0014 其中，所述使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息的步骤具体包括： 0015 首先，使用预训练的Bi-LSTM作。

21、为文本编码器，将所述文本编码为词向量和一个句向量其中，每个词均有两个隐藏状态，且每个词的两个隐藏状态级联，得到所有单词的一个特征矩阵；所述特征矩阵的每一列均代表每一个单词的特征向量；同时连接Bi-LSTM两个方向最后的隐层状态来获得句向量； 0016 其次，采用LSTM作为解码器来得到每个单词对应的实例类标签lt、坐标信息bt，具体为： 0017 0018 类别标签lt使用softmax函数计算， bt采用高斯混合模型建模： 0019 0020 0021其中， et表示概率分布向量，和表示高斯混合模型中的参数， et和GMM参数均根据LSTM每个单元的第t步输出来计。

22、算， k是混合单元的数量； 0022 最后，根据所述每个单词对应的实例类标签lt、坐标信息bt，得到每个单词对应实例的标签信息Bt(bt， lt)，并根据所述每个单词对应实例的标签信息Bt(bt， lt)，分别得到在64 64、 128128及256256语义布局中每个实例边界框的位置；其中，四元组中(x， y， w， h)表示其坐标和宽高。 0023 其中，所述根据6464语义布局、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64 64图像的步骤具体包括： 0024 在低分辨率生成器中对6464语。

23、义布局下采样，得到第一布局编码 0，并将所述说明书 2/8 页 6 CN 111340907 A 6 第一布局编码、句嵌入向量和随机噪声送入预设的第一残差块后再进行上采样，得到粗粒度的图像潜在特征； 0025 将所述粗粒度的图像潜在特征导入33卷积神经网络中，输出低分辨率的6464 图像。 0026 其中，所述根据128128语义布局，在第一高分辨率生成器中通过所述预设的边框回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图的步骤具体包括： 0027 在第一高分辨率生成器中，采用预设的掩码回归网络将128128语义布局中每一个实例。

24、的标签信息均编码为二进制张量，并通过下采样来获得每一个实例的特征编码； 0028 将所述每一个实例的特征编码均送入预设的Bi-LSTM并级联随机噪声中，并在当且仅当每一个实例的边框包含相关的类标签时，将每一个实例的二进制张量均设为1并进行掩码表示，得到每一个实例的二进制张量的掩码特征； 0029 将所有每一个实例的二进制张量的掩码特征输入预设的第二残差块后再进行上采样，映射形成全局实例掩码图，且进一步将所述全局实例掩码图进行裁剪操作，得到每一个实例的掩码嵌入图。 0030 其中，所述在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对128128语义布局的。

25、各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量的步骤具体包括： 0031 首先，根据低分辨率的6464图像子区域向量，在第一高分辨率生成器中从128 128语义布局中检索包含细节信息的相关实例向量，并为每个实例向量Vt分配注意力权重 wt，然后计算输入信息的权重和，得到每一个实例的上下文向量： 0032 0033其中，表示第t个对象的实例级别的上下文向量； 0034 其次，根据所述每一个实例的上下文向量与其对应的掩码嵌入图，在第一高分辨率生成器中采用最大池化为每。

26、一个实例的上下文向量选择最相关的像素级特征向量： 0035 0036其中，表示向量外积， V表示像素级特征向量。 0037 其中，所述根据128128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128128图像的步骤具体包括： 0038 在第一高分辨率生成器中对128128语义布局下采样，得到第一布局编码 1，并将所述第二布局编码、所述粗粒度的图像潜在特征及所述像素级特征向量送入预设的第三残差块后再进行上采样，得到第一细粒度的图像潜在特征； 0039 将。

27、所述第一粒度的图像潜在特征导入33卷积神经网络中，输出高分辨率的128 128图像。 0040 其中，所述根据256256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256256图像的步骤具体包括：说明书 3/8 页 7 CN 111340907 A 7 0041 在第二高分辨率生成器中对256256语义布局下采样，得到第三布局编码 2，并将所述第三布局编码、所述第一细粒度的图像潜在特征及所述像素级特征向量送入预设的第四残差块后再进行上采样，得到第。

28、二细粒度的图像潜在特征； 0042 将所述第二粒度的图像潜在特征导入33卷积神经网络中，输出高分辨率的256 256图像。 0043 其中，所述低分辨率的6464图像、高分辨率的128128图像及高分辨率的256 256图像均采用词级自适应属性的判别器进行对抗训练； 0044 其中，每一个词级自适应属性的判别器均能判断生成的图像是否包含每一个属性描述，并为生成器提供反馈信号，指导其生成包含准确属性特征的图像。 0045其中，每一个词级自适应属性的判别器可表示为其中， T表示输入文本中单词的总数， tn是softmax函数的权重， t， n是对第n层图像特征中第t个词分配的注。

29、意力权重。 0046 实施本发明实施例，具有如下有益效果： 0047 1、本发明将生成对抗网络中的高分辨率生成器结合实例掩码嵌入和实例级别的注意力机制，解决生成像素间的重叠问题并获取细节特征，将判别器设计为词级别且能自适应属性，通过多阶段合成策略来提高生成图像的分辨率和准确度； 0048 2、本发明结合实例掩码嵌入的高分辨率生成器，对低分辨率生成器从语义布局生成的全局图像进行优化，解析实例类别和特征信息，生成包含纹理细节、清晰且高质量图像； 0049 3、本发明采用自适应属性的判别器，独立地对每个属性进行判断，并为高分辨率生成器提供准确的反馈信息，指导其合。

30、成与文本匹配的视觉属性。附图说明 0050 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。 0051 图1为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法的流程图； 0052 图2为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中文本推理语义布局的应用场景图； 0053 图3为本发明实施例提供的自适应属性和实例掩码。

31、嵌入图的文本到图像生成方法中采用低分辨率生成器生成6464图像的应用场景图； 0054 图4为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中采用第一高分辨率生成器生成全局实例掩码图的应用场景图； 0055 图5为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中采用第一高分辨率生成器生成128128图像的应用场景图； 0056 图6为本发明实施例提供的自适应属性和实例掩码嵌入图的文本到图像生成方法中从文本到图像生成的训练模型结构示意图；说明书 4/8 页 8 CN 111340907 A 8 0057 图7为本发明实施例提供的自适应属性和实例掩码嵌。

32、入图的文本到图像生成方法中词级自适应属性的判别器的结构示意图。具体实施方式 0058 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。 0059 如图1所示，为本发明实施例中，提供的一种自适应属性和实例掩码嵌入图的文本到图像生成方法，所述方法包括以下步骤： 0060 步骤S1、根据输入的文本，使用预设的编码器-解码器结构的边框回归网络来获得所述文本中每个单词对应的实例边界框的位置和标签信息，并整合所有实例生成的边界框的位置和标签信息，得到6464、 128128及256256语义布局； 0061 具体过程为，如图2所示，首先。

33、使用预训练的Bi-LSTM作为文本编码器，将文本编码为词向量和一个句向量其中，每个词均有两个隐藏状态，且每个词的两个隐藏状态级联，得到所有单词的一个特征矩阵；该特征矩阵的每一列均代表每一个单词的特征向量；同时连接Bi-LSTM两个方向最后的隐层状态来获得句向量 0062 其次，采用LSTM作为解码器来得到每个单词对应的实例类标签lt、坐标信息bt，具体为： 0063 0064 类别标签lt使用softmax函数计算， bt采用高斯混合模型建模： 0065 0066 0067其中， et表示概率分布向量，和表示高斯混合模型中的参数， et和GMM参数均根据LSTM每个单。

34、元的第t步输出来计算， k是混合单元的数量； 0068 最后，根据每个单词对应的实例类标签lt、坐标信息bt，得到每个单词对应实例的标签信息Bt(bt， lt)，并根据每个单词对应实例的标签信息Bt(bt， lt)，分别得到在6464、 128128及256256语义布局中每个实例边界框的位置；其中，四元组中(x， y， w， h)表示其坐标和宽高。 0069 步骤S2、根据6464语义布局、句嵌入向量和随机噪声，在低分辨率生成器中获得粗粒度的图像潜在特征以及根据所述粗粒度的图像潜在特征对应生成的低分辨率的64 64图像； 0070 具体过程为，如图3所示，在低分辨。

35、率生成器G0中对6464语义布局L0下采样，得到第一布局编码 0，并将第一布局编码 0、句嵌入向量和随机噪声z送入残差块(如预设的第一残差块)后再进行上采样，得到粗粒度的图像潜在特征y0； 0071 将粗粒度的图像潜在特征y0导入33卷积神经网络中，输出低分辨率的6464图像I0；其中，I0G0(y0)， F0被建模为神经网络。 0072 步骤S3、根据128128语义布局，在第一高分辨率生成器中通过预设的掩码回归网络计算得到全局实例掩码图以及根据所述全局实例掩码图被裁剪出的每一个实例的掩码嵌入图，并在第一高分辨率生成器中使用预设的实例级别的注意力机制沿通道维度对。

36、说明书 5/8 页 9 CN 111340907 A 9 128128语义布局的各种上下文信息进行编码，得到每一个实例的上下文向量，且进一步在第一高分辨率生成器中将所述每一个实例的上下文向量与其对应的掩码嵌入图组合，形成像素级特征向量； 0073 具体过程为，如图4所示，在第一高分辨率生成器G1中，采用预设的掩码回归网络将128128语义布局L1中每一个实例的标签信息Bt均编码为二进制张量Bt0， 1hwl，并通过下采样(如由33卷积、批量归一化和ReLU激活函数构成的采样块)来获得每一个实例的特征编码； 0074 将每一个实例的特征编码均送入预设的Bi-LSTM并。

37、级联随机噪声z中，并在当且仅当每一个实例的边框包含相关的类标签时，将每一个实例的二进制张量Bt均设为1并进行掩码表示，得到每一个实例的二进制张量Bt的掩码特征；应当说明的是，除了每一个实例的二进制张量Bt在当且仅当每一个实例的边框包含相关的类标签时设为1并进行掩码表示，其它部分均设为0，使得该掩码的所有元素均在(0， 1)之间； 0075 将所有每一个实例的二进制张量Bt的掩码特征输入残差块(如预设的第二残差块)后再进行上采样(如由44反卷积层、批量归一化和ReLU激活函数构成的采样块)，映射形成全局实例掩码图使第一高分辨率生成器G1能合成满足形状特征约束的细粒度。

38、图像； 0076 进一步将全局实例掩码图Pglobal进行裁剪操作，得到每一个实例的掩码嵌入图Pt；其中， t表示实例。 0077 步骤S4、根据128128语义布局、所述粗粒度的图像潜在特征及所述像素级特征向量，在第一高分辨率生成器中获得第一细粒度的图像潜在特征以及根据所述第一细粒度的图像潜在特征对应生成的高分辨率的128128图像； 0078 具体过程为，由于高分辨率生成器G1需沿着通道维度对128128语义布局L1的各种上下文信息进行编码，所以利用实例级别的注意力机制来选取最相关的特征信息。 0079 如图5所示，首先，根据低分辨率的6464图像I0子区域向量Vs。

39、ub，在第一高分辨率生成器G1中从128128语义布局L1中检索包含细节信息的相关实例向量，并为每个实例向量Vt分配注意力权重wt，然后计算输入信息的权重和，得到每一个实例的上下文向量： 0080 0081其中，表示第t个对象的实例级别的上下文向量； 0082其次，根据每一个实例的上下文向量与其对应的掩码嵌入图Pt，在第一高分辨率生成器G1中采用最大池化为每一个实例的上下文向量选择最相关的像素级特征向量： 0083 0084其中，表示向量外积， V表示像素级特征向量。 0085 然后，在第一高分辨率生成器G1中对128128语义布局L1下采样，得到第一布局编码 1，。

40、并将第二布局编码 1、粗粒度的图像潜在特征y0及像素级特征向量V送入残差块(如预设的第三残差块)后再进行上采样，得到第一细粒度的图像潜在特征y1； 0086 最后，将第一粒度的图像潜在特征y1导入33卷积神经网络中，输出高分辨率的 128128图像I1。说明书 6/8 页 10 CN 111340907 A 10 0087 步骤S5、根据256256语义布局、所述第一细粒度的图像潜在特征及所述像素级特征向量，在第二高分辨率生成器中获得第二细粒度的图像潜在特征以及根据所述第二细粒度的图像潜在特征对应生成的高分辨率的256256图像。 0088 具体过程为，在第二高分辨率。

41、生成器G2中对256256语义布局L2下采样，得到第三布局编码 2，并将第三布局编码 2、第一细粒度的图像潜在特征y1及像素级特征向量V送入残差块(如预设的第四残差块)后再进行上采样，得到第二细粒度的图像潜在特征y2； 0089 将第二粒度的图像潜在特征y2导入33卷积神经网络中，输出高分辨率的256 256图像I2。 0090 应当说明的是， 256256图像I2的生成过程与128128图像I1的生成过程相同，具体图例可参考图5所示。 0091 在本发明实施例中，低分辨率的6464图像I0、高分辨率的128128图像I1及高分辨率的256256图像I2均采用词级自适应。

42、属性的判别器和进行对抗训练，如图6所示； 0092 其中，每一个词级自适应属性的判别器均能判断生成的图像是否包含每一个属性描述，并为生成器提供反馈信号，指导其生成包含准确属性特征的图像。 0093 例如，如图7所示，给定生成的图像，自适应属性的判别器对其编码并输出图像特征，对所有的特征层进行全局平均池化，获得一维图像特征向量e；同时根据输入的文本计算词向量w1， w2， wT；然后将词向量分别喂入词级判别器。以第t个单词向量wt为例，使用一维sigmoid词级判别器判断第n层图像特征是否包含与wt相关的视觉属性。词级判别器为： 0094 0095 其中，。

43、表示sigmoid函数， en是第n层图像特征的一维特征向量， W(wt)和b(wt)表示偏置和权重矩阵。 0096 为减少不重要单词对判别过程的影响，判别器使用词级别的注意力来表示单词和视觉属性之间的相关程度。通过注意力分布，每一个词级自适应属性的判别器可表示为： 0097 0098 其中， T表示输入文本中单词的总数， tn是softmax函数的权重， t， n是对第n层图像特征中第t个词分配的注意力权重。 0099 应当说明的是，与句子级别的判别器相比，词级自适应属性的判别器能在不同阶段判断视觉属性的真实性并提供反馈，指导生成器合成与描述相关的属性特征。 0100 。

44、在本发明实施例中，低分辨率的6464图像I0、高分辨率的128128图像I1及高分辨率的256256图像I2所使用到的卷积神经网络中的完整目标损失函数为GAN交叉熵损失和DAMSM损失之和。然而， GAN交叉熵损失中，生成器和判别器都由无条件损失和有条件损失组成。 0101 此时，生成器的目标损失函数定义为： 0102 0103 其中，第一项表示无条件损失，第二项表示有条件损失， I和x分别表示合成的图像和相应的文本。说明书 7/8 页 11 CN 111340907 A 11 0104 此时，判别器的目标损失函数也包括无条件损失和有条件损失： 0105 0106 其。

45、中， Pdata表示真实图像的分布。 0107 DAMSM损失由AttnGAN模型提出，被用来计算图像-文本的细粒度匹配损失。因此，完整目标损失函数为： 0108 0109其中， 1表示超参数，是基于真实图像和相关文本描述预训练的深度注意力多模态相似模型损失。 0110 实施本发明实施例，具有如下有益效果： 0111 1、本发明将生成对抗网络中的高分辨率生成器结合实例掩码嵌入和实例级别的注意力机制，解决生成像素间的重叠问题并获取细节特征，将判别器设计为词级别且能自适应属性，通过多阶段合成策略来提高生成图像的分辨率和准确度； 0112 2、本发明结合实例掩码嵌入的高分辨率。

46、生成器，对低分辨率生成器从语义布局生成的全局图像进行优化，解析实例类别和特征信息，生成包含纹理细节、清晰且高质量图像； 0113 3、本发明采用自适应属性的判别器，独立地对每个属性进行判断，并为高分辨率生成器提供准确的反馈信息，指导其合成与文本匹配的视觉属性。 0114 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。 0115 以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。说明书 8/8 页 12 CN 111340907 A 12 图1 说明书附图 1/3 页 13 CN 111340907 A 13 图2 图3 图4 说明书附图 2/3 页 14 CN 111340907 A 14 图5 图6 图7 说明书附图 3/3 页 15 CN 111340907 A 15 。

展开阅读全文

内容关键字: 自适应属性实例掩码嵌入文本图像生成方法