书签分享收藏举报版权申诉 / 13

立即下载加入VIP,免费下载

当前位置：首页 > > 一种基于多标签多示例学习的多目标图像联合分割方法.pdf

一种基于多标签多示例学习的多目标图像联合分割方法.pdf

上传人：奻奴

文档编号：5992855

上传时间：2019-04-02

格式：PDF

页数：13

大小：1.16MB

《一种基于多标签多示例学习的多目标图像联合分割方法.pdf》由会员分享，可在线阅读，更多相关《一种基于多标签多示例学习的多目标图像联合分割方法.pdf（13页完整版）》请在专利查询网上搜索。

本发明公开了一种基于多标签多示例学习的图像多目标联合分割方法，包括以下步骤：首先对输入图像集进行对象检测以获得候选对象集，并对候选对象集进行分段式对象聚类以获得准确的对象标签；然后再对输入图像集进行显著度检测及二值分割以获得显著区域，并将候选对象集中的对象标签传递到显著区域中，同时对显著区域进行超像素分割，从而获得含标签的显著区域；最后利用一种基于特征随机选择的集成多示例多标签学习方法以获得显著区。

摘要
申请专利号：	CN201610945584.9	申请日：	2016.11.02
公开号：	CN106504255A	公开日：	2017.03.15
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):G06T 7/11申请日:20161102\|\|\|公开
IPC分类号：	G06T7/11(2017.01)I	主分类号：	G06T7/11
申请人：	南京大学
发明人：	孙正兴; 杨炜辰; 李博; 胡佳高
地址：	210000 江苏省南京市栖霞区仙林大道163号南京大学
优先权：
专利代理机构：	江苏圣典律师事务所 32237	代理人：	胡建华
PDF完整版下载：	PDF下载

内容摘要

本发明公开了一种基于多标签多示例学习的图像多目标联合分割方法，包括以下步骤：首先对输入图像集进行对象检测以获得候选对象集，并对候选对象集进行分段式对象聚类以获得准确的对象标签；然后再对输入图像集进行显著度检测及二值分割以获得显著区域，并将候选对象集中的对象标签传递到显著区域中，同时对显著区域进行超像素分割，从而获得含标签的显著区域；最后利用一种基于特征随机选择的集成多示例多标签学习方法以获得显著区域中每一个超像素的对象标签，从而完成输入图像集的联合分割。

权利要求书

1.一种基于多标签多示例学习的多目标图像联合分割方法，其特征在于，包括以下步
骤：
步骤一，无监督的标签生成：从输入的图像集中获得候选对象集，并候选对象集中的对
候选对象进行分类，从而得到对象标签；包括了单幅图像的对象检测和分段式对象聚类；
单幅图像的对象检测从输入图像集中的每一幅图像上提取出候选对象，从而组成整个
图像集中所包含的候选对象集；
分段式对象聚类将对象检测中获得的候选对象集聚类成两类以上不同的对象，从而获
得相应的对象标签，聚类数对应于图像集中所包含的前景对象数量；
步骤二，显著区域伪标注：从输入的图像集中获得显著区域，并将步骤一中获得的对象
标签传递到相应的显著区域上，包括了显著度检测及二值分割和标签传递及超像素分割：
显著度检测及二值分割首先获得每一幅图像的显著图，然后二值分割所述显著图，提
取出每幅图像的显著区域，将显著区域外的部分做为图像的背景部分，背景部分不参与后
续的分割；
标签传递及超像素分割通过判断一个候选对象的对象标签能否传递给一个显著区域，
从而确定每一个显著区域所含的对象标签，同时利用超像素分割方法对显著区域进行分
割，获得含标签的显著区域；
步骤三，集成多示例多标签学习，将每一个显著区域做为多示例多标签学习中的一个
包，将显著区域中每一个超像素做为一个示例，将每个显著区域所具有的对象标签做为每
个包的标签，利用集成多示例多标签学习方法来获得每一个示例的标签，即每一个超像素
所具有的对象标签，进而获得图像的分割结果。
2.根据权利要求1所述的方法，其特征在于，步骤一中所述单幅图像的对象检测包括以
下步骤：
步骤111，利用对象检测方法检测出图像上的对象窗口，通过筛选，将选中的对象窗口
从图像中分割出来，获得图像的对象区域；
步骤112，从对象区域中提取出初始候选对象，通过筛选合并，从每一个对象区域中提
取出一个候选对象，从而获得图像的候选对象集。
3.根据权利要求2所述的方法，其特征在于，步骤一中所述分段式对象聚类部分包括以
下步骤：
步骤121，提取候选对象的特征，首先将候选对象网格化，形成正方形图块，接着利用低
层视觉特征和高层语义特征两类特征来构建图块描述子，最后利用图块描述子来构建直方
图做为获选对象的特征表示；
步骤122，采用置信传播替代传统谱聚类中的K均值，使得谱聚类算法适用于聚类数未
知的情况，同时两次使用该种谱聚类算法，第一次以候选对象为聚类对象以获得初始聚类，
第二次以初始聚类为聚类对象以获得最终的聚类结果。
4.根据权利要求3所述的方法，其特征在于，步骤121包括：
提取每一个候选对象的特征：将候选对象网格分割，形成边长为10像素的正方形图块；
利用低层视觉特征和高层语义特征两类特征来构建图块描述子；将候选对象所在图像做为
输入送入卷积神经网络模型中，得到该卷积神经网络模型中裁剪层的输出，图像中每一个
像素点对应于一个21维的指示向量，利用平均池化操作来获得图块的高层语义特征；将两
类特征合并，得到了图块的描述子f(p)：
$<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>[</mo> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>l</mi> </msub> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>h</mi> </msub> <mo>(</mo> <mi>p</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>]</mo> <mo>,</mo> </mrow>$
其中：N(·)表示归一化操作，fl表示低层视觉特征，fh表示高层语义特征，p表示一个图
块；
根据图块的描述子利用谱聚类将所有图块分类，计算每一个候选对象中属于每一类的
图块数量，从而构建一个直方图做为候选对象的特征表示，候选对象的特征向量表示
为：
$<mrow> <msubsup> <mi>f</mi> <mi>k</mi> <mi>n</mi> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>h</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>h</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>h</mi> <mi>d</mi> </msub> <mo>}</mo> <mo>,</mo> </mrow>$
其中：hm表示属于第m类的图块数量，表示图像In中第k个候选对象，d表示类的总
数，m属于1～d。
5.据权利要求4所述的方法，其特征在于，步骤122包括：
根据候选对象的特征表示，将候选对象聚类，从而获得每个候选对象的对象标签；第一
阶段，分两种情况计算候选对象间的相似度矩阵，当两个候选对象来自于不同图像时，利用
巴氏距离和高斯核去计算其之间的相似度，当两个候选对象来自于相同图像时，两者间的
相似度记为0；根据得到的相似度矩阵，利用谱聚类方法获得初始的聚类结果C′＝{C′1,C
′2,…,C′t}，其中C′m表示第m个初始聚类，t表示初始的聚类结果中的聚类数，m属于1～t；
第二阶段，将初始聚类的中心做为新的聚类样本，聚类样本特征表示为
其中表示第m个聚类的聚类中心的特征，t表示初始的聚类结果中的
聚类数，m属于1～t；利用巴氏距离和高斯核去计算初始聚类中心之间的相似度，使用谱聚
类方法去获得最终的聚类结果C＝{C1,C2,…,Cv}，其中Cm表示第m个聚类，v表示最终聚类结
果中的聚类数，m属于1～v；
根据得到的聚类数重新截取特征向量，循环迭代进行聚类，直到最后一次得到的聚类
数和上次的聚类数相同，则聚类结束并返回聚类结果。
6.据权利要求5所述的方法，其特征在于，步骤3包括：
提取每一个超像素的特征，构建出一个d维的特征向量，接着从d维的特征向量中随机
抽取出一个d′＝0.6d维的子特征向量，重复抽取t次，构成一个特征向量集，d＝300，t＝50；
将显著区域做为包，超像素做为示例，显著区域的对象标签做为包的标签，训练出一组
弱分类器{c1b,c2b,…,cvb}，其中cmb表示在b个子特征向量上训练出的第m类共同对象的分类
器，v表示分类器的类数，m属于1～v；利用支持向量机学习出每一个弱分类器的权重，得到
了强分类器{c1,c2,…,cv}，其中cm表示第m类共同对象的最终分类器，v表示分类器的类数，
m属于1～v；利用强分类器确定每一个超像素的对象标签；对于每一幅图像中属于显著区域
的部分，根据超像素所具有的不同的对象标签进行分割，不属于显著区域的部分统一分割
为背景，从而完成了图像的分割。

说明书

一种基于多标签多示例学习的多目标图像联合分割方法

技术领域

本发明属于图像处理技术领域，特别涉及对数字图像的多目标联合分割处理方
法。

背景技术

在数字图像处理领域，图像分割是一个基础性难题，图像分割对诸如图像检索、图
像编辑以及图像分类等众多图像处理问题有着很大的影响。传统的图像分割方法，如文献
1：文颖.一种鲁棒性的FCM图像分割方法.中国专利:CN105654453A,2016，文献2：胡海峰.基
于视觉显著模型的图像分割方法.中国专利:CN105678797A,2016等，都是针对单幅图像进
行分割，这种方式要么很难准确的分割图像，要么需要大量的人工交互，不适于大规模图像
集的分割。

为了解决这些问题，联合分割做为一种重要的弱监督图像分割方法被提了出来，
如文献3：李宏亮.一种基于图像复杂度的特征自适应图像共分割方法.中国专利:
CN102982539A,2013，文献4：王正翔.多图像联合分割方法和装置.中国专利:
CN104123713A,2014。图像的联合分割旨在从包含共同对象的多幅图像中同时分割出共同
的前景对象。不同于传统的图像分割算法，联合分割方法是一种针对多幅图像的分割方法，
相对于无监督的分割方法其分割精度更高，而相对于有监督的分割方法其人力成本更低。
因此可广泛应用于多媒体处理及计算机视觉高层应用中。

为了使联合分割方法更好的满足应用的需要，在文献5：李宏亮,一种用于多前景
共分割的前景谱图生成方法.中国专利:CN103268614A,2013，文献6：于慧敏.一种基于超像
素和结构化约束的图像多目标协同分割方法.中国专利:CN105809672A,2016等中提出了多
目标的联合分割方法。该方法假设图像组中的多个共同对象随机的出现在每一幅待分割图
像中。相对于单目标的联合分割，它放宽了方法对图像集的限制，提高了方法的灵活性，使
得方法具有了更加现实的应用背景。

纵观现有的联合分割领域的研究和应用可知，目前多目标联合分割方法存在着以
下的不足：

(1)由于现有的方法往往无法获得准确的一致性信息，从而造成了分割结果中过
分割的现象；

(2)由于现有的方法中主要采用了无监督的方法去利用一致性信息去指导最终的
分割，从而造成了分割精度较低。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于多
示例多标签学习的多目标图像联合分割方法，用于支持对大规模图像组的联合分割。

为了解决上述技术问题，本发明公开了一种基于多标签多示例学习的多目标图像
联合分割方法，包括以下步骤：

步骤一，无监督的标签生成：从输入的图像集中获得候选对象集，并候选对象集中
的对候选对象进行分类，从而得到对象标签；包括了单幅图像的对象检测和分段式对象聚
类；

单幅图像的对象检测从输入图像集中的每一幅图像上提取出候选对象，从而组成
整个图像集中所包含的候选对象集；

分段式对象聚类将对象检测中获得的候选对象集聚类成两类以上不同的对象，从
而获得相应的对象标签，聚类数对应于图像集中所包含的前景对象数量；

步骤二，显著区域伪标注：从输入的图像集中获得显著区域，并将步骤一中获得的
对象标签传递到相应的显著区域上，包括了显著度检测及二值分割和标签传递及超像素分
割：

显著度检测及二值分割首先获得每一幅图像的显著图，然后二值分割所述显著
图，提取出每幅图像的显著区域，将显著区域外的部分做为图像的背景部分，背景部分不参
与后续的分割；

标签传递及超像素分割通过判断一个候选对象的对象标签能否传递给一个显著
区域，从而确定每一个显著区域所含的对象标签，同时利用超像素分割方法对显著区域进
行分割，获得含标签的显著区域；

步骤三，集成多示例多标签学习，将每一个显著区域做为多示例多标签学习中的
一个包，将显著区域中每一个超像素做为一个示例，将每个显著区域所具有的对象标签做
为每个包的标签，利用集成多示例多标签学习方法来获得每一个示例的标签，即每一个超
像素所具有的对象标签，进而获得图像的分割结果。

本发明步骤一中所述单幅图像的对象检测包括以下步骤：

步骤111，利用对象检测方法检测出图像上的对象窗口，通过筛选，将选中的对象
窗口从图像中分割出来，获得图像的对象区域；

步骤112，从对象区域中提取出初始候选对象，通过筛选合并，从每一个对象区域
中提取出一个候选对象，从而获得图像的候选对象集。

本发明步骤一中所述分段式对象聚类部分包括以下步骤：

步骤121，提取候选对象的特征，首先将候选对象网格化，形成正方形图块，接着利
用低层视觉特征和高层语义特征两类特征来构建图块描述子，最后利用图块描述子来构建
直方图做为获选对象的特征表示；

步骤122，采用置信传播替代传统谱聚类中的K均值，使得谱聚类算法适用于聚类
数未知的情况，同时两次使用该种谱聚类算法，第一次以候选对象为聚类对象以获得初始
聚类，第二次以初始聚类为聚类对象以获得最终的聚类结果。

本发明步骤121包括：

提取每一个候选对象的特征：将候选对象网格分割，形成边长为10像素的正方形
图块；利用低层视觉特征和高层语义特征两类特征来构建图块描述子；将候选对象所在图
像做为输入送入卷积神经网络模型中，得到该卷积神经网络模型中裁剪层(crop层)的输
出，图像中每一个像素点对应于一个21维的指示向量，利用平均池化操作来获得图块的高
层语义特征；将两类特征合并，得到了图块的描述子f(p)：

其中：N(·)表示归一化操作，fl表示低层视觉特征，fh表示高层语义特征，p表示一
个图块；

根据图块的描述子利用谱聚类将所有图块分类，计算每一个候选对象中属于每一
类的图块数量，从而构建一个直方图做为候选对象的特征表示，候选对象的特征向量
表示为：

其中：hm表示属于第m类的图块数量，表示图像In中第k个候选对象，d表示类
的总数，m属于1～d。

本发明步骤122包括：

根据候选对象的特征表示，将候选对象聚类，从而获得每个候选对象的对象标签；
第一阶段，分两种情况计算候选对象间的相似度矩阵，当两个候选对象来自于不同图像时，
利用巴氏距离和高斯核去计算其之间的相似度，当两个候选对象来自于相同图像时，两者
间的相似度记为0；根据得到的相似度矩阵，利用谱聚类方法获得初始的聚类结果C′＝
{C′1,C′2,…,C′t}，其中C′m表示第m个初始聚类，t表示初始的聚类结果中的聚类数，m属于1
～t；

第二阶段，将初始聚类的中心做为新的聚类样本，聚类样本特征表示为
其中表示第m个聚类的聚类中心的特征，t表示初始的聚类结果中的
聚类数，m属于1～t；利用巴氏距离和高斯核去计算初始聚类中心之间的相似度，使用谱聚
类方法去获得最终的聚类结果C＝{C1,C2,…,Cv}，其中Cm表示第m个聚类，v表示最终聚类结
果中的聚类数，m属于1～v；

根据得到的聚类数重新截取特征向量，循环迭代进行聚类，直到最后一次得到的
聚类数和上次的聚类数相同，则聚类结束并返回聚类结果。

本发明步骤3包括：

提取每一个超像素的特征，构建出一个d维的特征向量，接着从d维的特征向量中
随机抽取出一个d′＝0.6d维的子特征向量，重复抽取t次，构成一个特征向量集，d＝300，t
＝50；

将显著区域做为包，超像素做为示例，显著区域的对象标签做为包的标签，训练出
一组弱分类器{c1b,c2b,…,cvb}，其中cmb表示在b个子特征向量上训练出的第m类共同对象的
分类器，v表示分类器的类数，m属于1～v；利用支持向量机学习出每一个弱分类器的权重，
得到了强分类器{c1,c2,…,cv}，其中cm表示第m类共同对象的最终分类器，v表示分类器的
类数，m属于1～v；利用强分类器确定每一个超像素的对象标签；对于每一幅图像中属于显
著区域的部分，根据超像素所具有的不同的对象标签进行分割，不属于显著区域的部分统
一分割为背景，从而完成了图像的分割。

本发明通过引入深层语义特征和提出一种分段式对象聚类来获得精确和富有语
义信息的一致性信息来克服过分割现象；同时利用有监督的多示例多标签学习来替换原有
方法中使用的无监督方法，在保证了本发明无需人工交互的基础上，大大提高了分割的精
度。从而使得本发明有着较高的应用价值。

有益效果：本发明具有以下优点：首先，本发明基于对象检测引入深层语义特征和
提出一种两段式对象聚类方法以获得准确而富含语义信息的对象标签；其次，本发明提出
了一种标签传递方法将候选对象中的对象标签无监督的传递给显著区域，实现了将多目标
联合分割问题转化为了有监督多示例多标签问题；最后，本发明提出一种基于特征随机选
择的集成多示例多标签学习方法，克服了无监督方法所带来的模糊性和不确定性，提高了
图像的分割精度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述
和/或其他方面的优点将会变得更加清楚。

图1是本发明的处理流程示意图。

图2是实施例的输入图像集示意图。

图3是对图2输入图像集进行多目标联合分割所得到的分割结果示意图。

图4a是对图2中第二幅图像对象检测后得到对象区域的结果示意图。

图4b是从图2中第二幅图像中提取出的候选对象集的结果示意图。

图5是对候选对象集进行分段式对象聚类得到的聚类结果的示意图。

图6是对图2输入图像集进行显著度检测和标签传递得到的含标签的显著区域结
果示意图。

具体实施方式：

如图1所示，本发明公开的一种基于多示例多标签学习的多目标图像联合分割方
法，包括以下步骤：

步骤一，无监督的标签生成：从输入的图像集中获得候选对象集，并对候选对象进
行分类，从而得到对象标签。该步骤包括单幅图像的对象检测和分段式对象聚类两个子步
骤：

单幅图像的对象检测从输入图像集中的每一幅图像上提取出准确并且少量的候
选对象，从而组成整个图像集中所包含的候选对象集；

分段式对象聚类将对象检测中获得的候选对象集聚类成若干类不同的对象，从而
获得相应的对象标签，聚类数对应于图像集中所包含的前景对象数量，该聚类数有本发明
自动计算得到；

步骤二，显著区域伪标注：从输入的图像集中获得显著区域，并将步骤一中获得的
对象标签传递到相应的显著区域上。该步骤包括了显著度检测及二值分割和标签传递及超
像素分割两个子步骤：

显著度检测及二值分割首先获得每一幅图像的显著图，然后二值分割显著图，提
取出每幅图像的显著区域，将显著区域外的部分做为图像的背景部分，不再参与后续的分
割；

标签传递及超像素分割首先对获得的显著区域进行超像素分割，同时利用一种标
签传递方法以及步骤一中所获得的对象标签来确定每一个显著区域中所包含的对象标签；

步骤三，集成多示例多标签学习，将每一个显著区域做为多示例多标签学习中的
一个包，将显著区域中每一个超像素做为一个示例，将每个显著区域所具有的对象标签做
为每个包的标签，从而利用一种集成多示例多标签学习方法来获得每一个示例的标签，即
每一个超像素所具有的对象标签，进而获得图像的分割结果。

本发明步骤一种所述单幅图像的对象检测还包括以下步骤：步骤111利用对象检
测方法检测出图像上的对象窗口，通过筛选，将剩余的对象窗口从图像中分割出来，获得图
像的对象区域。步骤112从对象区域中提取出初始候选对象，通过筛选合并，从每一个对象
区域中提取出一个候选对象，从而获得图像的候选对象集。

本发明步骤一种所述单幅图像的分段式对象聚类还包括以下步骤：步骤121提取
候选对象的特征，首先将候选对象网格化，形成正方形图块，接着利用低层视觉特征和高层
语义特征两类特征来构建图块描述子，最后利用图块描述子来构建直方图做为获选对象的
特征表示。步骤122采用置信传播替代传统谱聚类中的K均值，使得谱聚类算法适用于聚类
数未知的情况，同时两次使用此谱聚类算法，第一次以候选对象为聚类对象以获得初始聚
类，第二次以初始聚类为聚类对象以获得最终的聚类结果。

本发明的输入图像集为用户自由拍摄的自然图像，图像集中包含了未知数量的共
同对象，且每一幅图像中所含共同对象的数量和类别未知。

下面具体介绍各个步骤的主要流程：

1.无监督的标签生成

从输入的图像集中获得候选对象集，并对候选对象进行分类，从而得到对象标签。
该步骤包括单幅图像的对象检测和分段式对象聚类两个子步骤。

1.1.单幅图像的对象检测

单幅图像的对象检测从输入图像组I＝{I1,I2,…,Im}中发现候选对象集P＝{P1,P
2,…,Pm}，其中，m为输入图像组中图像的数量，Pn表示从n幅图像中获得的候选对象集，n属
于1～m。过程如下：

1.1.1.为了发现候选对象集，首先利用文献7：Zitnick,C.L.,Dollar,P..Edge
boxes:Locating object proposals from edges.ECCV’14,pp.391–405.中的方法来检测
每一幅图像In上的对象窗口，仅保留得分前100的对象窗口。接着为了降低后续处理的复杂
性，当两个对象窗口的重合度大于一定阈值时，得分较低的一个窗口会被舍弃掉，本发明中
该阈值取0.8。如果剩余的对象窗口数大于20个，那么仅保留得分前20的对象窗口，这些窗
口记为其中ln表示图像In中所含对象窗口的数量。最后根据这些对
象窗口从图像中分割出相应的对象区域，记为其中ln表示图像In中所
含对象区域的数量。

1.1.2.利用文献8：Endres,I.,Hoiem,D..Category Independent Object
Proposals.ECCV’10,pp.575-588.从每一个对象区域中提取初始候选对象，仅保留得分前
20的获选对象。然后分两种不同的情况来从初始候选对象中生成候选对象。如果一个对象
区域中没有包含其他的对象区域，那么中得分最高的初始候选对象将做为候选对象；
如果对象区域中包含其他的对象区域那么中的候选对象可以表示成：

其中：δ(·)表示delta函数，表示对象区域中第i个初始候选对象，和
表示在内部和外部的面积，τ用于控制初始候选对象是否是候选对象的
一部分。至此获得了图像In的候选对象集其中ln表示图像In中所含候
选对象的数量。在输入图像集的每一幅图像上重复步骤1.1.1和1.1.2，从而得到输入图像
组的候选对象集。

1.2.分段式对象聚类

分段式对象聚类将对象检测中获得的候选对象集聚类成若干类不同的对象，从而
获得相应的对象标签，聚类数对应于图像集中所包含的前景对象数量，该聚类数有本发明
自动计算得到。过程如下：

1.2.1.提取每一个候选对象的特征。为了获得准确的候选对象的特征，首先将候
选对象网格分割，形成边长为10像素的正方形图块。接着利用低层视觉特征和高层语义特
征两类特征来构建图块描述子。本发明采用文献9：Dalal,N.,Triggs,B..Histograms of
oriented gradients for human detection.CVPR’13,pp.886-893.中提出的HOG描述子来
表示低层视觉特征。同时本发明利用文献10：Long,J.,Shelhamer,E.,Darrell,T..Fully
convolutional networks for semantic segmentation.CVPR’15,pp.3431–3440.中训练
好的卷积神经网络(CNN)模型来提取图块的高层语义特征。将候选对象所在图像做为输入
送入CNN模型中，得到CNN模型中裁剪层(crop层)的输出，图像中每一个像素点对应于一个
21维的指示向量，再利用平均池化操作来获得图块的高层语义特征。将两类特征合并，得到
了图块的描述子：

其中：N(·)表示一种归一化操作，fl表示低层视觉特征，fh表示高层语义特征，p表
示一个图块。最后根据图块的描述子利用谱聚类将所有图块分为多类，再将计算每一个候
选对象中属于每一类的图块数量，从而构建一个直方图做为候选对象的特征表示。每一个
候选对象的特征向量表示为：

其中：hm表示属于第m类的图块数量，d表示类的总数，m属于1～d。

1.2.2.根据候选对象的特征表示，将候选对象自动的聚为多类，从而获得每个候
选对象的对象标签。本发明采用了一种两段式的对象聚类方法来实现这一目标。在第一阶
段，候选对象间的相似度矩阵的计算分两种情况考虑，当两个候选对象来自于不同图像时，
利用巴氏距离和高斯核去计算之间的相似度。当两个候选对象来自于相同图像时，两者间
的相似度记为0。根据这一相似度矩阵，利用一种新的谱聚类方法获得初始的聚类结果C′＝
{C′1,C′2,…,C′t}，其中C′m表示第m个初始聚类，t表示初始的聚类结果中的聚类数，m属于1
～t。在第二阶段中，初始聚类的中心被做为新的聚类样本，其特征可以表示为
其中表示第m个聚类的聚类中心的特征，t表示初始的聚类结果中
的聚类数，m属于1～t。再利用巴氏距离和高斯核去计算初始聚类中心之间的相似度，最后
仍然使用上述新的谱聚类方法去获得最终的聚类结果C＝{C1,C2,…,Cv}，其中Cm表示第m个
聚类，v表示最终聚类结果中的聚类数，m属于1～v。新的谱聚类方法采用了文献11：Frey,
B.J.,Dueck,D.Clustering by passing messages between data points.Science,2007,
315(5814):972–976.中提出的置信传播算法取替代传统谱聚类中使用的K均值算法。和传
统谱聚类方法一样获得拉普拉斯矩阵后，以全部的特征向量利用置信传播算法进行聚类，
得到初步的聚类数，然后根据得到的聚类数重新截取特征向量，再次进行聚类，若此时得到
的聚类数和上次的聚类数相同，则聚类结束并返回聚类结果，若不相同则返回继续执行。

2.显著区域伪标注

从输入的图像集中获得显著区域，并将步骤一中获得的对象标签传递到相应的显
著区域上。该步骤包括了显著度检测及二值分割和标签传递及超像素分割两个子步骤：

2.1.显著度检测及二值分割

显著度检测及二值分割首先获得每一幅图像的显著图，首先本发明采用文献12：
Zhu,W.,Liang,S.,Wei,Y.,Sun,J.Saliency optimization from robust background
detection.CVPR’14,pp.2814–2821.中的显著度检测方法生成图像In的显著图Sn。由于文献
13：Cheng,M.M.,Mitra,N.J.,Huang,X.,Torr,P.H.,Hu,S.M.Global contrast based
salient region detection.IEEE TPAMI,2015,37(3):569–582.中的方法得到的结果具有
很好的查全率而较差的查准率，因此本发明才用该方法二值化显著图Sn得到Sn′，其中Sn′表
示图像In的二值化显著图。最后利用矩形窗口去包围每一个不连通的显著域并把它们分割
出来，得到图像In中的显著区域其中hn表示图像In中显著区域的数量。

2.2.标签传递及超像素分割

标签传递及超像素分割首先对获得的显著区域进行超像素分割，本发明采用了文
献14：Achanta,R.,Shaji,A.,Smith,K.,Lucchi,A.,Fua,P.,Susstrunk,S.SLIC
superpixels com-pared to state-of-the-art superpixel methods.IEEE TPAMI,2012,
34(11):2274–2282.中所述方法，保证了超像素中像素具有相同的对象标签。然后通过计算
显著区域和候选对象之间的覆盖面积来确定对象标签是否传递，定义和
分别表示候选对象Ptn在显著区域内部和外部的面积，其中Ptn表示图像In中
第t个候选对象，而表示图像In中第k个显著区域，则若下式：

成立，则将候选对象Ptn所具有的对象标签传递给显著区域反之亦然，其中ρ表
示控制标签传递的阈值。

3.集成多示例多标签学习

首先利用步骤1.2.1.的方法提取每一个超像素的特征，构建出一个d维的特征向
量。接着从d维的特征向量中随机抽取出一个d′＝0.6d维的子特征向量，重复抽取t次，构成
一个特征向量集，本发明中取d＝300而t＝50。然后将显著区域做为包，超像素做为示例，显
著区域的对象标签做为包的标签，利用文献16：Briggs,F.,Fern,X.Z.,Raich,R.Rank-loss
support instance machines for MIML instance annotation.ACM SIGKDD’12,pp.534–
542.中的方法训练出一组弱分类器{c1b,c2b,…,cvb}，其中cmb表示在b个子特征向量上训练
出的第m类共同对象的分类器，v表示分类器的类数，m属于1～v。同时利用支持向量机学习
出每一个弱分类器的权重，从而得到了强分类器{c1,c2,…,cv}，其中cm表示第m类共同对象
的最终分类器，v表示分类器的类数，m属于1～v。再利用强分类器确定每一个超像素的对象
标签。最后每一幅图像中属于显著区域的部分，根据超像素所具有的不同的对象标签进行
分割，而不属于显著区域的部分统一分割为背景，从而完成了图像的分割。

实施例

本实施例中，如图2所示为输入图像，通过本发明所述的基于多标签多示例学习的
多目标图像联合分割方法，可将图2中每一幅图像分割成如图3中所述不同的共同对象由不
同颜色标识，且标注1～3分别表示3类共同对象。图中，标号1表示蓝衣服女孩，标号2表示红
衣服女孩，标号3表示苹果和篮子。具体实施过程如下：

步骤一中，利用对象检测获得输入图像集的候选对象集，并对候选对象集进行聚
类获得相应的对象标签。如图4所示为图2中第二幅图像经步骤1.1.的单幅图像的对象检测
的结果，其中图4a为经步骤1.1.1.所得到的对象区域，而图4b为经步骤1.1.2所得到的候选
对象集。如图5所示为步骤1.2.的分段式对象聚类算法根据由步骤1.2.1.所得候选对象特
征对候选对象进行聚类的结果。

步骤二中，利用显著度检测及二值分割获得图像的显著区域，然后利用标签传递
和步骤一中获得的对象标签确定显著区域所包含的对象标签，同时利用超像素分割方法对
显著区域进行超像素分割，从而得到含标签的显著区域。如图6所示为图2中第二幅图像所
得到的含标签的显著区域，其中图像下方的数字代表该显著区域的对象标签。步骤三中，利
用一种集成多示例多标签学习方法获得显著区域中每一个超像素的对象标签，从而得到最
后的分割结果如图3所示的标注结果。

本发明提供了一种基于多标签多示例学习的多目标图像联合分割方法的思路，具
体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对
于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进
和润饰，这些改进和润饰也应做为本发明的保护范围。本实施例中未明确的各组成部分均
可用现有技术加以实现。