基于空间引导自注意力的食品识别方法及系统.pdf

上传人：zhu****69 文档编号：14523491 上传时间：2024-05-19 格式：PDF 页数：7 大小：862.17KB

收藏版权申诉举报下载

第1页 / 共7页

第2页 / 共7页

第3页 / 共7页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《基于空间引导自注意力的食品识别方法及系统.pdf》由会员分享，可在线阅读，更多相关《基于空间引导自注意力的食品识别方法及系统.pdf（7页完成版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410033038.2(22)申请日 2024.01.10(71)申请人济南大学地址 250024 山东省济南市市中区南辛庄西路336号(72)发明人李忠涛程文轩张波王凯张玉璘(51)Int.Cl.G06V 20/68(2022.01)G06V 20/40(2022.01)G06V 10/82(2022.01)G06V 10/80(2022.01)G06N 3/045(2023.01)G06N 3/082(2023.01)(54)发明名称一种基于空间引导自注意力的食品识别方法及系统(57。

2、)摘要本发明提出了一种基于空间引导自注意力的食品识别方法及系统，涉及计算机视觉领域。本发明根据图像特征图获取目标位置编码，并根据编码引导自注意力机制只计算存在目标的位置，同时将图像特征图进行拆分处理，并以级联方式处理拆分的图像特征图，从而达到节约计算量的目的，另外根据目标位置编码的计算方式，也可以达到节约大量计算量，并为自注意力计算提供先验知识。权利要求书1页说明书4页附图1页CN 117542045 A2024.02.09CN 117542045 A1.一种基于空间引导自注意力的食品识别方法，其特征在于，包括以下步骤：S1、获取食品摄像头视频，每秒对摄像头进行抽帧，获得食品待检测图像；S。

3、2、构建空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出；S3、构。

4、建食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成；S4、将食品待检测图像输入进食品检测模型，获得食品检测结果。2.据权利要求1所述的一种基于空间引导自注意力的食品识别方法，其特征在于，S2中的空间引导自注意力模块，如果输入图像特征为位置编码s的计算为，SAttn为空间注意力操作，MAX 为阈值筛选，将图像特征中非目标位置重置为0后的特征图计算为,表示逐位置相乘，Mask(s)是一个与 s 具有相同形状的矩阵，其中 s 所指定的位置的元素为1，其他位置为0，对 x 应用这样的掩码操作，就可以得到经过 s 筛选后的特征图，然后每个拆分特征图的优化特征的计算为其中代表特征图的第j个拆。

5、分特征图，分别代表生成Q、K、V的权重矩阵，Attn代表自注意力计算，然后将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征的计算为，其中h为拆分的特征图数量，为线性层，目的是将输出的优化图像特征投影回与输入图像特征一致的维度。3.一种基于空间引导自注意力的食品识别系统，其特征在于，包括食品图像数据采集模块、食品检测模块，通过食品图像数据采集模块采集所要检测的食品目标图像，食品检测模块内置食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成，对于空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将。

6、得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出。权利要求书1/1 页2CN 117542045 A2一种基于空间引导自注意力的食品识别方法及系统技术领域0001本发明属于计算机视觉领域，特别涉。

7、及一种基于空间引导自注意力的食品识别方法及系统。背景技术0002自注意力机制是深度学习领域中备受瞩目的特征处理技术。自注意力机制通过学习特征之间的相互依赖关系，使得模型能够准确地捕捉上下文信息，无论是在自然语言处理还是计算机视觉任务中都展现了出色的性能。然而，尽管自注意力机制取得了显著的成就，但目前这种机制仍然存在问题，例如运算量大，模型复杂度高等。如果能够在一个模型中用更少的计算量，仍充分利用自注意力机制的优势，就能够在特征的表达和信息的处理速度上取得双赢的效果。发明内容0003本发明提供一种基于空间引导自注意力的食品识别方法及系统，旨在减少传统自注意力的计算量，并通过空间注意力关注目标存在。

8、位置，从而提高食品的识别效果。0004本发明对于传统自注意力机制作出了改进，提供一种基于空间引导自注意力的食品识别方法，包括以下步骤：S1、获取食品摄像头视频，每秒对摄像头进行抽帧，获得食品待检测图像；S2、构建空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征。

9、，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出；S3、构建食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成；S4、将食品待检测图像输入进食品检测模型，获得食品检测结果。0005优选地，S2中的空间引导自注意力模块，如果输入图像特征为位置编码 s 的计算为，SAttn 为空间注意力操作，MAX 为阈值筛选，将图像特征中非目标位置重置为0后的特征图计算为,表示逐位置相乘，Mask(s)是一个与 s 具有相同形状的矩阵，其中 s 所指定的位。

10、置的元素为1，其他位置为0，对 x 应用这样的掩码操作，就可以得到经过 s 筛选后的特征图，然后每个拆分特征图的优化特征的计算为其中代表特征图的第j个拆分说明书1/4 页3CN 117542045 A3特征图，分别代表生成Q、K、V的权重矩阵，Attn代表自注意力计算，然后将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征的计算为，其中h为拆分的特征图数量，为线性层，目的是将输出的优化图像特征投影回与输入图像特征一致的维度。0006本发明还提供一种基于空间引导自注意力的食品识别系统，其特征在于，包括食品图像数据采集模块、食品检测模块，通过食品图像数据采集模块采集所要检测的食品目标图。

11、像，食品检测模块内置食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成，对于空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所。

12、有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出。0007与现有技术相比，本发明具有以下技术效果：本发明提供的技术方案首先根据图像特征图获取目标位置编码，并根据编码引导自注意力机制只计算存在目标的位置，同时将图像特征图进行拆分处理，并以级联方式处理拆分的图像特征图，从而达到节约计算量的目的，另外根据目标位置编码的计算方式，也可以达到节约大量计算量，并为自注意力计算提供先验知识。附图说明0008图1是本发明提供的食品识别流程图；图2是本发明提供的空间引导自注意力结构图。具体实施方式0009本发明旨在提出一种基于空间引导自注意力的食品识别方法及系统，根据图像特征图获取目标位置。

13、编码，并根据编码引导自注意力机制只计算存在目标的位置，同时将图像特征图进行拆分处理，并以级联方式处理拆分的图像特征图，从而达到节约计算量的目的，另外根据目标位置编码的计算方式，也可以达到节约大量计算量，并为自注意力计算提供先验知识。0010请参见图1所示，本申请实施例中的一种基于空间引导自注意力的食品识别方法：S1、获取食品摄像头视频，每秒对摄像头进行抽帧，获得食品待检测图像；S2、构建空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后。

14、根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每说明书2/4 页4CN 117542045 A4个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出；S3、构建食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成；S4、将食品待检测图像输入进食品检测模型，获得食品检测结果。0011进一步，如图2所示，从摄像头获得食品。

15、图像后，将600600分辨率的3通道图像输入进骨干网络，骨干网络使用RetinaNet网络，并输出维度为(600,600,3)图像特征图，将图像特征输入进空间注意力机制中，获得360000个像素位置得分,得分从0到1分布，按照阈值0.6进行筛选，获得存在目标的位置，并形成目标编码，根据目标编码对应位置，将特征图中不存在目标位置的值重置为0，然后拆分图像特征图为3个特征块，每个特征块维度为（200,200,3），首先将拆分特征1进行自注意力计算，得到优化特征1，然后将优化特征1与拆分特征2进行相加，并进行自注意力计算，得到优化特征2，然后将优化特征2与拆分特征3进行相加，并进行自注意力计算，得到。

16、优化特征3，将三个优化特征进行连接，并进行线性层运算，得到优化图像特征，其维度为(600,600,3)，将优化图像特征输入到检测头，检测头使用RetinaNet网络检测头，并最终得到食品检测结果。0012进一步，S2中的空间引导自注意力模块，如果输入图像特征为位置编码 s 的计算为，SAttn 为空间注意力操作，MAX 为阈值筛选，将图像特征中非目标位置重置为0后的特征图计算为,表示逐位置相乘，Mask(s)是一个与 s 具有相同形状的矩阵，其中 s 所指定的位置的元素为1，其他位置为0，对 x 应用这样的掩码操作，就可以得到经过 s 筛选后的特征图，然后每个拆分特征图的优化特征的计算为其中代。

17、表特征图的第j个拆分特征图，分别代表生成Q、K、V的权重矩阵，Attn代表自注意力计算，然后将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征的计算为，其中h为拆分的特征图数量，为线性层，目的是将输出的优化图像特征投影回与输入图像特征一致的维度。0013本实施例提供一种基于空间引导自注意力的食品识别系统，其特征在于，包括食品图像数据采集模块、食品检测模块，通过食品图像数据采集模块采集所要检测的食品目标图像，食品检测模块内置食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成，对于空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空。

18、间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进说明书3/4 页5CN 117542045 A5行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出。0014以上仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。说明书4/4 页6CN 117542045 A6图 1图 2说明书附图1/1 页7CN 117542045 A7。

展开阅读全文

内容关键字: 基于空间引导注意力食品识别方法系统