基于双向单注意力机制图像描述方法.pdf
《基于双向单注意力机制图像描述方法.pdf》由会员分享,可在线阅读,更多相关《基于双向单注意力机制图像描述方法.pdf(9页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910159879.7 (22)申请日 2019.03.04 (71)申请人 山西大学 地址 030051 山西省太原市小店区坞城路 92号 (72)发明人 张丽红陶云松 (74)专利代理机构 太原市科瑞达专利代理有限 公司 14101 代理人 李富元 (51)Int.Cl. G06K 9/62(2006.01) G06K 9/46(2006.01) (54)发明名称 基于双向单注意力机制图像描述方法 (57)摘要 本发明涉及图像描述领域, 具体是一种基于 双向单注意力机制。
2、图像描述方法。 基于双向单注 意力机制图像描述方法, 图片经过卷积神经网络 提取图像特征; 将卷积神经网络最后一层卷积层 的图像特征作为注意力机制的输入, 输入到含有 注意力机制的双向长短期记忆网络中; 前向长短 期记忆网络中, 注意力机制得到上一次的隐层状 态和图片特征, 输出图像的显著信息; 同样在后 向网络中, 隐层状态和图片特征一起预测得到显 著信息; 显著图像信息和都分别作为前向和后向 长短期记忆网络的输入, 整合前向和后向的隐层 状态与, 双向注意力网络在同时获取前向和后向 的图像显著信息与隐层状态, 产生图像描述。 权利要求书1页 说明书4页 附图3页 CN 109902750 。
3、A 2019.06.18 CN 109902750 A 1.基于双向单注意力机制图像描述方法, 其特征在于: 按照如下的步骤进行 步骤一、 图片经过卷积神经网络提取图像特征; 步骤二、 将卷积神经网络最后一层卷积层的图像特征V作为注意力机制的输入, 输入到 含有注意力机制的双向长短期记忆网络中; 步骤三、 前向长短期记忆网络中, 注意力机制得到上一次LSTM的隐层状态ht-1和图片特 征V, 输出图像的显著信息Cft; 步骤四、 同样在后向网络中, 隐层状态g和图片特征V一起预测得到显著信息Cbt; 步骤五、 显著图像信息Cft和Cbt都分别作为前向和后向长短期记忆网络的输入, 双向 LSTM。
4、整合前向和后向的隐层状态ht与gt, 双向注意力网络在同时获取前向和后向的图像显 著信息与隐层状态, 产生图像描述。 2.根据权利要求1所述的基于双向单注意力机制图像描述方法, 其特征在于: 含有注意 力机制的双向长短期记忆网络中, 评价标准为损失函数: 前向训练过程公式为: it (Wxixt+Whiht-1+CiCft+bi); ft (Wxfxt+Whfht-1+CfCft+bf); ot (Wxoxt+Whoht-1+CoCft+bo) ctftct-1+it tanh(Wcxt+hcht-1+CcCft+bc) htot tanh(ct); 预测概率公式为: pt+1Softmax(。
5、Whht+Wggt+WfCft+WbCbt+b); 其中, it, ft, ot, ct, ht, gt分别是输入门状态, 遗忘门状态, 输出门状态, 记忆单元状态, 前向隐层状态, 后向隐层状态, pt+1详细展开是p(xt+1|V,x1,.,xt), 指在图像信息与上文信 息的条件下, 当前输出xt+1的概率。 因为当前时刻的输入xt是上一时刻的输出yt-1, p(xt+1|V, x1,.,xt)可表示为p(yt|V,y0,.,yt-1), 简写为pt+1。 权利要求书 1/1 页 2 CN 109902750 A 2 基于双向单注意力机制图像描述方法 技术领域 0001 本发明涉及图像描。
6、述领域, 具体是一种基于双向单注意力机制图像描述方法。 背景技术 0002 近些年, 基于计算机视觉和自然语言处理的基础, 在图像描述研究方面进行了大 量研究。 图像描述的过程是将图像输入到 “编码-解码模型” 中生成语言描述。 编码将输入图 像转化成一个固定长度向量的过程, 解码将生成的向量转化成输出语言序列。 在图像描述 中常用的编码器模型是卷积神经网络(Convolutional Neural Network, 简称CNN), 解码器 是各种变体循环神经网络(Recurrent Neural Network, 简称RNN), 如长短期记忆网络 (Long Short-Term Memor。
7、y Network, 简称LSTM)。 近几年, Kelvin Xu等人将注意力机制引 入其中, 在生成描述时关注图像的显著部分, 从而提高描述的准确率; Justin Johnson等人 提出了密集描述, 对图片生成多句描述, 句子之间并无联系; Jonathan Krause等人提出了 段落描述, 该任务对图片生成一段描述, 这段描述在语义上是连通的。 这些工作在生成当前 描述时只考虑图像与上文信息, 并没有考虑下文信息。 在当前描述与前后信息相关性较高 的情况时, 模型只考虑图片与生成的上文信息将使描述的准确率降低。 发明内容 0003 本发明所要解决的技术问题是: 如何将其与双向长短时。
8、记忆网络(Bidirectional Long Short-Term Memory Network, 简称Bi-LSTM)结合构成双向双注意力网络, 并将其应 用于图像描述模型中。 0004 本发明所采用的技术方案是: 基于双向单注意力机制图像描述方法, 按照如下的 步骤进行 0005 步骤一、 图片经过卷积神经网络提取图像特征; 0006 步骤二、 将卷积神经网络最后一层卷积层的图像特征V作为注意力机制的输入, 输 入到含有注意力机制的双向长短期记忆网络中; 0007 步骤三、 前向长短期记忆网络中, 注意力机制得到上一次LSTM的隐层状态ht-1和图 片特征V, 输出图像的显著信息Cft;。
9、 0008 步骤四、 同样在后向网络中, 隐层状态g和图片特征V一起预测得到显著信息Cbt; 0009 步骤五、 显著图像信息Cft和Cbt都分别作为前向和后向长短期记忆网络的输入, 双 向LSTM整合前向和后向的隐层状态ht与gt, 双向注意力网络在同时获取前向和后向的图像 显著信息与隐层状态, 产生图像描述。 0010 作为一种优选方式: 含有注意力机制的双向长短期记忆网络中, 0011评价标准为损失函数: 0012 前向训练过程公式为: it (Wxixt+Whiht-1+CiCft+bi); 0013 ft (Wxfxt+Whfht-1+CfCft+bf); 说明书 1/4 页 3 C。
10、N 109902750 A 3 0014 ot (Wxoxt+Whoht-1+CoCft+bo) 0015 ctftct-1+ittanh(Wcxt+hcht-1+CcCft+bc) 0016 htottanh(ct); 0017 预测概率公式为: pt+1Softmax(Whht+Wggt+WfCft+WbCbt+b); 0018 其中, it, ft, ot, ct, ht, gt分别是输入门状态, 遗忘门状态, 输出门状态, 记忆单元状 态, 前向隐层状态, 后向隐层状态, pt+1详细展开是p(xt+1|V,x1,.,xt), 指在图像信息与上 文信息的条件下, 当前输出xt+1的概率。
11、。 因为当前时刻的输入xt是上一时刻的输出yt-1, p (xt+1|V,x1,.,xt)可表示为p(yt|V,y0,.,yt-1), 简写为pt+1。 0019 本发明的有益效果是: 采用本发明方法图像描述准确率获得了提高。 附图说明 0020 图1是循环神经网络图; 0021 图2是双向循环神经网络图; 0022 图3是长短时记忆网络图; 0023 图4是注意力机制结构网络图; 0024 图5是单注意力机制在长短期记忆网络实现图; 0025 图6是双注意力机制在长短期记忆网络实现图。 具体实施方式 0026 循环神经网络RNN是一类用于处理序列数据的神经网络, 主要处理和预测序列数 据。 。
12、图1展示了一个典型的循环神经网络。 在每一时刻, 输入xt和上一时刻隐层状态ht-1作为 循环神经网络的输入, 循环神经网络产生输出ot并更新ht传入下一时刻。 由于循环神经网络 中的变量与运算在不同的时刻是相同的, 循环神经网络可以看作是同一神经网络被复制无 限次数的结果。 A代表隐层内部其他所有状态。 0027 循环神经网络只有一个 “因果” 结构, 在当前时刻的状态只能从过去的状态和当前 的输入获取信息。 但是在许多应用任务中, 输出量很有可能是依赖于整个序列的。 为解决该 问题, 从而提出了双向循环神经网络(Bidirectional Recurrent Neural Network,。
13、 简称 Bi-RNN), Bi-RNN结合时间从序列起点开始移动的RNN和时间上从序列末尾开始移动的RNN。 其网络结构如图2所示。 0028 循环神经网络模型只能应用于依照短期信息预测的任务。 当任务更复杂时, 例如, 当前的预测信息与相关信息之间的文本间隔巨大时, 图1中简单的循环神经网络就无法学 习到如此远间隔的信息。 0029 长短期记忆网络LSTM可解决该问题。 RNN只包含简单的tanh单元, 而LSTM内部含有 三种门, 分别是输入门、 遗忘门、 输出门。 LSTM依靠这些门结构让信息有选择性地影响循环 神经网络的每个状态。 LSTM内部结构如图2。 是sigmod函数, 可以将。
14、一个实数映射到(0,1) 的区间。 C是LSTM的记忆单元, 是记忆内容更新单元。 ct-1与ct是记忆单元具体的输入与输 出。 Softmax函数是归一化函数。 0030 本实施例采用Bi-RNN和LSTM相结合的双向长短期记忆网络, 该网络既可以克服无 法获取下文信息问题, 又可以学习到间隔时间较长的信息。 说明书 2/4 页 4 CN 109902750 A 4 0031 在一般图像描述任务中, 解码部分在不同的时刻对全部信息等同处理。 但是对于 人类视觉行为, 关注的信息是有选择的, 有注意焦点的。 因此模型在生成单词时关注的信息 也应是不一样的。 注意力机制就是为了实现在生成一个词时。
15、去关注当前所应该关注的显著 信息这一目的而设计的。 通过对输入信息的各个局部赋予权重来实现注意力机制方法。 注 意力机制结构网络如图4所示。 0032 首先, 空间注意力机制的上下文向量Ct, 它的定义为: 0033 0034 g是注意力机制函数。 原始的图像特征V来自于卷积神经网络的卷积层, 而不是最 后的全连接层。 通过压缩原始图像特征V的宽W和高H, 得到Vv1,v2,.vL图像特征集合。 其中LWH, viRD。 vi是D维度的空间图像特征, 同时代表着图片中的某个区域。 ht-1是在 t-1时刻LSTM隐层状态。 0035 我们将图像特征和LSTM的隐层状态传入一个单层的神经网络层,。
16、 之后再通过一个 softmax函数去产生图片K个区域的注意力分布。 0036 0037 tsoftmax(zt) (3) 0038 wv, wta和wh是一组需要学习的权重参数, 是图像特征的注意权重。 基于注意力分 布, 图像显著信息为: 0039 0040 单注意力机制如图5所示。 单注意力机制在长短期记忆网络上的实现是用过去的 隐层状态ht-1去预测当前图像的显著信息Ct, 然后将Ct与词向量xt作为长短期记忆网络的输 入得到了当前隐层状态ht。 当前隐层状态ht与当前的显著信息Ct一起预测得到输出yt。 0041 提出的双向单注意网络引入图像描述模型后, 如图6所示。 图片经过卷积神。
17、经网络 提取特征, 将最后一层卷积层的图像特征V作为注意力机制的输入。 前向长短期记忆网络 中, 注意力机制得到上一次LSTM的隐层状态ht-1和图片特征V, 输出图像的显著信息Cft。 同 样在后向网络中, 隐层状态g和图片特征V一起预测得到显著信息Cbt。 每一次描述生成时, 显著图像信息Cft和Cbt都分别作为前向和后向长短期记忆网络的输入。 双向LSTM整合前向 和后向的隐层状态ht与gt, 获取最终结果。 0042 该模型采用端到端的训练方式, 即在整个学习流程中并不进行人为的子问题划 分, 而是完全交给深度学习模型直接学习从原始输入到期望输出的映射。 0043 模型的评价标准为损失。
18、函数: 0044 0045 模型中前向训练过程公式如下: 0046 it (Wxixt+Whiht-1+CiCft+bi) 0047 (6) 说明书 3/4 页 5 CN 109902750 A 5 0048 ft (Wxfxt+Whfht-1+CfCft+bf) (7) 0049 ot (Wxoxt+Whoht-1+CoCft+bo) (8) 0050 ctftct-1+it tanh(Wcxt+hcht-1+CcCft+bc) (9) 0051 htot tanh(ct) (10) 0052 后向LSTM训练过程公式与前向公式(6)到(10)一致。 结合前向后向的显著信息与 隐层状态, 预。
19、测概率公式为 0053 pt+1Softmax(Whht+Wggt+WfCft+WbCbt+b) (11) 0054 其中, it, ft, ot, ct, ht, gt分别是LSTM中的输入门状态, 遗忘门状态, 输出门状态, 记 忆单元状态, 前向隐层状态, 后向隐层状态。 pt+1详细展开是p(xt+1|V,x1,.,xt), 指在图像 信息与上文信息的条件下, 当前输出xt+1的概率。 因为当前时刻的输入xt是上一时刻的输出 yt-1, p(xt+1|V,x1,.,xt)可表示为p(yt|V,y0,.,yt-1), 简写为pt+1。 0055 值得注意的是, 在训练阶段, xt是有监督。
20、地输入正确的描述词向量。 测试阶段xt则 是之前的状态产生的预测词向量。 0056 实验及结果分析 0057 实验采用数据集MSCOCO数据集与Flickr30k数据集。 MSCOCO数据集是图像描述中 最大的数据集, 拥有训练样本82,783张, 验证样本40,504张和测试样本40,775张。 每张图片 拥有5个人的描述。 在训练时, 验证和测试图片都是5000张。 Flickr30k数据集中含有31783 张图像, 模型在该数据集上测试泛化性。 0058 实验结果如表1所示。 表1是模型与其他模型评估分数对比表, 使用的评估指标有 双语评估替换分数(Bilingual Evaluatio。
21、n Understudy, 简称BLEU), 机器翻译评价方法 (Machine Translation Evaluation System, 简称METEOR)。 0059 表1模型与其他模型评估分数对比表 0060 0061 表1中, 双向注意力机制网络模型相对于只有注意力机制的Hard-Attention模型 和只有双向长短期记忆网络的Deep-Bi-LSTM模型, 准确率获得了提高。 模型在Flickr30k数 据集上验证, 表明模型具有较好的泛化性。 0062 本实施例在经典注意力机制基础上提出一种单注意力机制网络, 即将单注意力机 制与双向长短期记忆网络相结合生成图像描述。 实验结果表明双向单注意力网络模型准确 率高于只含有注意力机制网络和双向长短期记忆网络, 而且具有很好的泛化性。 说明书 4/4 页 6 CN 109902750 A 6 图1 图2 说明书附图 1/3 页 7 CN 109902750 A 7 图3 图4 说明书附图 2/3 页 8 CN 109902750 A 8 图5 图6 说明书附图 3/3 页 9 CN 109902750 A 9 。
- 内容关键字: 基于 双向 注意力 机制 图像 描述 方法
井用踏步.pdf
油田用平板闸阀密封连接结构.pdf
混凝土搅拌装置.pdf
用于针织设备的供纱机构.pdf
魔方.pdf
防拱装置.pdf
2-乙基蒽醌生产用废酸处理装置.pdf
零件加工定位工装.pdf
水基压裂液搅拌装置.pdf
气动式料带接料台.pdf
电缆生产用托架.pdf
气体环境检测装置.pdf
建筑工程桩.pdf
混凝土保温体系.pdf
自动钉裤袢装置.pdf
无电动力驱动装置.pdf
多功能的离心泵生产加工装置.pdf
静脉设备摄像头模组异常检测的方法和系统.pdf
微模块机房环境监控方法及系统.pdf
供排水设备关联数据在线监测方法及系统.pdf
基于平均队列长度变化趋势的网络自适应拥塞控制方法.pdf
结合事件日志和知识图谱的流程操作序列生成方法及系统.pdf
计算机控制设备的运行功率监测系统.pdf
雷达产品的测试系统及测试方法.pdf
纬纱绕卷装置.pdf
基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用.pdf
基于大模型的信息校验方法及装置.pdf
带有升降旋转摄像头的智能手表拍照控制方法及系统.pdf
公路施工用岩土取样装置.pdf
能够快速调节的建筑施工用垂直检测设备.pdf
中央空调冷热源节能智控系统.pdf
水上天然气管道支护结构.pdf
稳定的人生长激素液体制剂.pdf
一种排毒养生鸦茶及其制备方法.pdf
一种盐酸环苯扎林控释片.pdf
一种妇月康胶囊及其制备方法.pdf
一种添加甜味剂和稳定剂的甜玉米粮食饮料配方及制作方法.pdf
一种加热速率及保温可控的家用欧姆加热豆腐机.pdf
T型吸水管及包含其的血液透析配液机搅拌装置.pdf
一种降血压配方及制作方法.pdf
一种消脂瘦身豆浆.pdf
治疗痤疮的中药组合.pdf
一种用于治疗老年性白血病的组合物.pdf
一种多西他赛注射液及其制备方法.pdf
万向调节咬合架.pdf
海洋软体动物人工鱼礁.pdf
一种托匹司他缓释胶囊及其制备方法.pdf
一种鲜花蜜枣.pdf
一种咖啡豆浆.pdf
一种耕作刀长度可调式耕作机.pdf
一种薄荷茶及其制备方法.pdf