移动体检测装置以及移动体检测方法 技术领域 本发明涉及通过确定图像中的移动体的区域来检测移动体的图像处理技术。 特别 涉及在移动体是人物那样在形状变化的同时进行移动的对象的情况下根据动态图像中的 运动信息来高速检测移动体的移动体检测装置等。
背景技术 以往, 广泛进行如下的区域提取技术的研究开发 : 从包含移动体的像 ( 以下简称 为 “移动体” 。) 的图像中提取图像中的移动体的区域, 由此检测移动体。特别地, 在移动体 是人的情况下, 提取该移动体的区域的技术成为数字摄像机或者数字静止照相机的焦点控 制和画质改善处理、 汽车的安全运转辅助系统、 或者机器人中的与人的冲突避免控制或冲 突避免用的警报等共同利用的基础技术。
作为提取图像中的移动体的区域的技术中的一般手法, 存在如下手法 : 在从图像 中提取移动体区域的候选后, 评价提取出的移动体区域的候选与预先准备的移动体模型之
间的类似度, 提取类似度高的区域作为移动体区域。
进而, 存在如下手法 : 在提取步行的人物等在变形的同时进行移动的移动体的区 域的情况下, 利用考虑了变形的移动体模型。例如, 在专利文献 1 的技术中, 从多个图像中 提取移动体的剪影图像作为移动体区域候选。 而且, 公开了如下手法 : 评价预先参数化的与 移动体的变形有关的模型与提取出的剪影图像之间的类似度, 估计类似度高的区域和与该 区域对应的模型的参数。 由此, 针对在形状周期变化的同时进行移动的人物, 也能够适用参 数化的模型, 所以, 能够进行移动体的区域提取。
并且, 在非专利文献 1 的技术中, 将从多个视点拍摄固定的一个移动体而得到的 图像作为输入, 计算排列了各图像中的像素值的矢量与排列了其他图像的像素值的矢量之 间的欧几里德距离。而且, 公开了如下方法 : 对计算出的欧几里德距离进行测地距离转换 后, 进行维数压缩, 由此, 能够以使从类似视点拍摄的图像在二维空间上成为近距离的方式 进行投射。 这里, 与现有的 PCA(Principal Component Analysis) 等的线性维数压缩方法相 比, 通过测地距离转换, 能够压缩为更低维数, 进而, 还能够对非线性分布的数据进行处理。
现有技术文献
专利文献
专利文献 1 : 日本特开平 8-214289 号公报
非专利文献
非专利文献 1 : Joshua Tenenbaum, Vin de Silva and John Langford“ ,A Global Geometric Framework for Nonlinear Dimensionality Reduction” , Science, VOL290, pp.2319-2322, 22 December, 2000 发明内容
发明要解决的课题但是, 上述现有的区域提取的技术存在如下问题 : 例如, 如在街头等多个人物等移 动体来回行走的场景等那样, 在移动体被其他移动体部分遮挡的情况下、 或者包括大小显 著不同的移动体的情况下等, 无法正确提取移动体。
在以专利文献 1 为代表的现有的区域提取手法中, 需要从图像中提取移动体区域 的候选。 此时, 如果无法适当提取移动体区域候选, 则无法准确地在移动体区域候选中适用 对移动体进行参数化而得到的模型。 特别地, 在上述那种场景中, 难以适当提取移动体区域 候选。进而, 即使能够适当提取移动体区域候选, 也存在以下课题。即, 特别地, 在将人物等 多关节物体作为移动体的情况下, 由于移动体的各种姿势或大小而引起的图像的变化和变 动非常大, 所以, 在进行移动体模型的参数化时需要数量庞大的参数。 这将诱发模型的适用 错误。 因此, 例如存在将多个移动体误检测为一个移动体、 或将不存在作为提取对象的移动 体的区域误检测为移动体等、 无法正确检测移动体的课题。
另一方面, 在以非专利文献 1 为代表的图像处理手法中, 通过将图像间的距离作 为输入而进行非线性处理, 能够向高效压缩后的低维空间投射图像数据。 由此, 能够期待针 对噪声的耐性。 进而, 通过测地距离转换和维数压缩, 能够高效地表现连续且非线性分布的 数据。但是, 非专利文献 1 的主要目的在于, 通过向低维空间投射多个图像从而使图像间的 类似度可视化, 没有公开对应于形状变化的人物等多关节物体中的各种姿势变化来正确检 测移动体的方法。 这里, 在非专利文献 1 中, 在设要处理的全部数据数为 N 的情况下, 需要使用具有 N 的要素数的矩阵进行测地距离转换和维数压缩。因此, 在数据数 N 较大的情况下, 公知存 在计算量庞大的问题。
与此相对, 在非专利文献 2 和非专利文献 3 中提示了如下方法 : 从数据点中设定数 量比数据点数量少的地标点, 使用所设定的地标点生成所述矩阵, 进行测地距离转换和维 数压缩, 从而削减计算量。
非专利文献 2 : Vin de Silva and Joshua B.Tenenbaum, “Global Versus Local Methods in Nonlinear Dimensionality Reduction” , Neural Information Processing Systems 15, pp.705-712, 2002
非 专 利 文 献 3: Vin de Silva and Joshua B.Tenenbaum , “Sparse Multidimensional Scaling using Landmark Points” , Technical Report, Stanford University, June 2004
因此, 本发明人以解决专利文献 1 的无法正确进行区域提取的问题为目的, 发明 了由以下单元构成的区域提取技术。使用该区域提取技术的区域提取装置包含 : 图像输入 单元 ; 运动解析单元, 从在时间上不同的图像中检测运动, 在时间上连接检测到的运动, 从 而计算移动轨迹 ; 距离计算单元, 计算表示移动轨迹间的类似性的距离 ; 以及区域分割单 元, 将所述距离转换为测地距离, 根据所得到的测地距离对移动轨迹进行分类, 从而进行区 域提取。
特别地, 在该区域提取技术中, 作为基于非专利文献 1 所记载的测地距离转换处 理的性质, 利用能够高效表现连续且非线性分布的数据的性质。
但是, 在该区域提取技术中, 与非专利文献 1 的技术同样, 当输入数据数增多时, 存在计算量庞大的问题。进而, 在以非专利文献 2 和非专利文献 3 为代表的计算量的削减
2方法中, 关于存在于地标点与地标点之间的数据点、 即未选作地标点的点, 使用地标点进行 线性插值。 但是, 特别地, 在形状变化的人物等移动体中, 即使是同一移动体, 运动也根据不 同部位而不同, 如头和脚的运动不同。 例如, 在头和脚存在地标点的情况下或者在地标点与 地标点之间存在关节的情况下, 当进行地标点间的线性插值时, 无法适当捕捉手腕或膝盖 的关节运动等的运动。因此, 难以对应于形状变化的人物等多关节物体中的各种姿势变化 来正确提取移动体。 进而, 在没有预先提取被摄体的阶段中, 难以针对人物等多关节物体适 当设定地标点。
因此, 本发明是为了解决上述课题而完成的, 其目的在于, 提供一种移动体检测装 置等, 确保能够高效表现连续且非线性分布的数据的测地距离的性质, 并且, 针对包含在形 状变化的同时进行移动的人物等移动体的图像, 也能够以较少的计算量、 高速且正确地进 行区域提取, 而不受移动体的姿势或大小的影响。
用于解决课题的手段
为了解决该课题, 本发明的某个方面的移动体检测装置通过执行确定动态图像中 的移动体的全部或一部分区域的区域分割来检测动态图像中的移动体, 其中, 该移动体检 测装置具有 : 图像输入部, 受理构成动态图像的多张图片 ; 移动轨迹计算部, 按照构成所受 理的所述图片的由一个以上的像素构成的每个块, 检测构成所述动态图像的 2 张图片间的 该块的运动, 针对所述多张图片连接检测到的运动, 从而计算多个移动轨迹 ; 子类分类部, 将计算出的所述多个移动轨迹分类为彼此类似的移动轨迹的集合即多个子类 ; 子类间近似 测地距离计算部, 按照每个子类, 使用包含属于该子类的移动轨迹与属于其他子类的移动 轨迹之间的线性距离的最小值的距离即子类间距离, 计算表示该子类与所述其他子类之间 的类似性的子类间近似测地距离 ; 以及区域分割部, 根据计算出的所述子类间近似测地距 离, 确定由类似的移动轨迹构成的子类的集合作为一个类, 从而执行区域分割。 根据该结构, 根据针对全部移动轨迹的对计算出的线性距离, 计算子类间距离, 使 用子类间距离计算子类间近似测地距离。并且, 子类间距离包含属于分别不同的子类的移 动轨迹间的线性距离的最小值作为距离, 所以, 在产生多关节物体的运动的情况下, 也难以 变化。进而, 本发明的类与图像中的移动体区域对应, 所以, 其结果, 能够检测移动体。因 此, 确保能够高效表现连续且非线性分布的数据的测地距离的性质, 并且, 针对包含在形状 变化的同时进行移动的人物等移动体的图像, 也能够以较少的计算量、 高速且正确地进行 区域提取, 而不受移动体的姿势或大小的影响。
另外, 本发明不仅能够作为上述移动体检测装置实现, 还能够作为将移动体检测 装置中包含的特征处理部作为步骤的移动体检测方法、 使计算机执行上述各步骤的程序、 存储了该程序的 CD-ROM 等计算机可读取的记录介质等实现。另外, 这种程序当然能够经由 因特网等通信网络流通。
发明效果
根据本发明, 确保能够高效表现连续且非线性分布的数据的测地距离的性质, 并 且, 针对包含在形状变化的同时进行移动的人物等移动体的图像, 也能够以较少的计算量、 高速且正确地进行区域提取, 而不受移动体的姿势或大小的影响。
附图说明图 1 是示出本发明的实施方式 1 的移动体检测装置的基本结构的图。
图 2 是通过软件实现本发明的实施方式 1 的移动体检测装置时的硬件结构图。
图 3 是示出本发明的实施方式 1 的移动体检测装置的基本动作的流程图。
图 4 是示出本发明的实施方式 1 的移动轨迹计算部的处理例的图。
图 5 是示出本发明的实施方式 1 的子类分类部的处理例的图。
图 6 是示出本发明的实施方式 1 的测地距离的效果的一例的图。
图 7 是示出本发明的实施方式 1 的子类间近似测地距离的效果的一例的图。
图 8 是示出本发明的实施方式 1 的子类间近似测地距离的计算方法的一例的图。
图 9 是示出本发明的实施方式 1 的区域分割部的处理例的图。
图 10 是示出本发明的实施方式 2 的移动体检测装置的基本结构的图。
图 11 是示出本发明的实施方式 2 的移动体检测装置的基本动作的流程图。
图 12 是示出本发明的实施方式 2 的子类分类部的处理例的图。
图 13 是示出本发明的实施方式 3 的移动体检测装置的基本动作的流程图。
图 14 是示出本发明的实施方式 3 的子类间近似测地距离的性质的概念图。
图 15 是示出本发明的实施方式 3 的图像输入部的处理例的图。
图 16 是示出本发明的实施方式 1 ~ 3 的第 1 变形例的移动体检测装置的基本结 构的图。
图 17 是示出本发明的实施方式 1 ~ 3 的第 1 变形例的记录 / 发送数据的一例的 图。
图 18 是示出本发明的实施方式 1 ~ 3 的第 2 变形例的移动体检测装置的结构例 的图。
图 19 是示出本发明的实施方式 1 ~ 3 的第 2 变形例的移动体检测装置的基本动 作的流程图。
图 20 是示出本发明的实施方式 2 的运动预测的一例的图。
图 21 是示出本发明的第 3 变形例的移动体检测用数据生成装置的功能结构的框 图。
图 22 是示出记录在记录介质中的信息的数据结构的图。
图 23 是用于说明图片的尺寸 (X, Y) 和图片张数 (T) 的图。
图 24 是用于说明移动轨迹数 (N) 的图。
图 25 是用于说明子类数 (S) 的图。
图 26 是用于说明带子类标记的移动轨迹矢量的图。
图 27 是示出记录在记录介质中的信息的具体例的图。
图 28 是示出移动体检测装置的功能结构的框图。 具体实施方式
本发明的一个实施方式的移动体检测装置通过执行确定动态图像中的移动体的 全部或一部分区域的区域分割来检测动态图像中的移动体, 其中, 该移动体检测装置具有 : 图像输入部, 受理构成动态图像的多张图片 ; 移动轨迹计算部, 按照构成所受理的所述图片 的由一个以上的像素构成的每个块, 检测构成所述动态图像的 2 张图片间的该块的运动,针对所述多张图片连接检测到的运动, 从而计算多个移动轨迹 ; 子类分类部, 将计算出的所 述多个移动轨迹分类为彼此类似的移动轨迹的集合即多个子类 ; 子类间近似测地距离计算 部, 按照每个子类, 使用包含属于该子类的移动轨迹与属于其他子类的移动轨迹之间的线 性距离的最小值的距离即子类间距离, 计算表示该子类与所述其他子类之间的类似性的子 类间近似测地距离 ; 以及区域分割部, 根据计算出的所述子类间近似测地距离, 确定由类似 的移动轨迹构成的子类的集合作为一个类, 从而执行区域分割。
由此, 根据类似性汇集连续且非线性分布的移动轨迹并进行类分类, 所以, 在将由 运动不同的多个部位构成的人物等多关节物体检测为移动体的情况下, 也被判定为一个区 域。其结果, 能够进行准确的区域提取, 正确检测移动体。即, 针对在形状变化的同时进行 移动的人物等移动体, 也能够正确进行区域提取, 由此, 能够高速且可靠地检测图像中的移 动体。
并且, 将移动轨迹分类为子类, 进而, 代替表示移动轨迹的类似性的测地距离, 计 算子类间近似测地距离, 由此, 特别地, 针对具有关节的物体的运动, 能够以更少的计算量 计算具有与计算测地距离的情况相同的性质的距离, 所以, 能够进行高速的移动体检测。 进 而, 不需要预先保持或学习与应该提取的移动体有关的形状信息等事前信息。 优选所述子类间近似测地距离计算部按照每个子类, 计算对表示属于该子类的移 动轨迹的类似性的子类内距离、 所述其他子类的所述子类内距离、 该子类与所述其他子类 之间的所述子类间距离进行相加后的距离, 作为该子类与其他子类之间的所述子类间近似 测地距离。
使用子类间距离和子类内距离作为子类间近似测地距离, 从而能够更高精度地近 似测地距离。 由此, 针对在形状变化的同时进行移动的人物等移动体, 也能够以较少的计算 量正确地进行区域提取, 由此, 能够高速且可靠地检测图像中的移动体。
这里, 也可以构成为, 所述子类间近似测地距离计算部按照每个子类, 计算属于该 子类的移动轨迹间的线性距离的平均值、 最频值或中值, 作为该子类的所述子类内距离。
进而, 特别地, 在移动体的大小变化的情况下, 所述区域分割部还计算通过所述子 类内距离对 2 个子类间的所述子类间近似测地距离进行归一化后的距离, 作为所述子类间 近似测地距离。 通过包含子类的空间大小的信息的子类内距离对子类间近似测地距离进行 归一化, 由此, 能够更准确地检测图像上的尺寸变化的移动体。
并且, 也可以构成为, 所述子类间近似测地距离计算部在所述最小值大于规定阈 值的情况下, 进行将所述子类间近似测地距离变更为无限大的非线性化, 从而计算所述子 类间近似测地距离。
并且, 也可以构成为, 所述子类间近似测地距离计算部对第 1 子类与第 2 子类之间 的子类间近似测地距离、 所述第 1 子类与第 3 子类之间的子类间近似测地距离、 以及所述第 3 子类与所述第 2 子类之间的子类间近似测地距离之和进行比较, 计算较小的值作为所述 第 1 子类与所述第 2 子类之间的子类间近似测地距离。
并且, 也可以构成为, 所述区域分割部根据所述子类间近似测地距离的时间变化, 确定由类似的移动轨迹构成的子类的集合作为表示一个区域的类, 从而执行区域分割。这 样, 根据子类间近似测地距离的时间变化来判定子类标记的统合 / 非统合, 由此, 针对关节 物体等的运动, 也能够检测为一个移动体。
另外, 为了根据时间变化对子类标记进行统合, 优选所述区域分割部在表示 2 个 子类间的所述子类间近似测地距离的时间变化的值为规定的时间变化阈值以下的情况下, 判定为所述 2 个子类属于同一类, 从而执行区域分割。由此, 在子类间近似测地距离的时间 变化较小的情况下, 如关节运动或刚体那样能够判定为同一移动体。
进而, 为了根据时间变化而不对子类标记进行统合, 优选所述区域分割部在表示 2 个子类间的所述子类间近似测地距离的时间变化的值大于规定的时间变化阈值的情况下, 判定为所述 2 个子类属于不同的类, 从而执行区域分割。由此, 在子类间近似测地距离的时 间变化较大的情况下, 能够判定为不同的移动体。
并且, 也可以是, 所述子类间近似测地距离计算部按照每个子类, 将属于该子类的 移动轨迹与属于其他子类的移动轨迹之间的距离中的、 从最小距离起的规定个数的距离的 平均值, 作为该子类与所述其他子类之间的所述子类间距离。并且, 也可以是, 所述子类间 近似测地距离计算部按照每个子类, 将属于该子类的移动轨迹与属于其他子类的移动轨迹 之间的距离中的、 规定阈值以下的距离的平均值, 作为该子类与所述其他子类之间的所述 子类间距离。根据该结构, 能够计算更难受噪声影响的子类间近似测地距离。
并且, 关于子类的生成方法, 本发明的更加优选的方式构成为, 所述子类分类部通 过将计算出的所述多个移动轨迹中的类似的移动轨迹分类为同一子类, 将所述多个移动轨 迹分类为多个子类。更加优选构成为, 所述子类分类部以规定次数或者直到将所述多个移 动轨迹分类为规定子类数为止, 反复执行将计算出的所述多个移动轨迹中的最类似的移动 轨迹的组合分类为同一子类的处理, 从而将所述多个移动轨迹分类为多个子类。 这样, 通过 将类似的移动轨迹分类为同一子类, 与不分类为子类的情况相比, 能够削减子类间近似测 地距离的计算量。 进而, 关于子类的生成方法, 其他优选方式构成为, 所述子类分类部根据在所述图 像输入部中受理的所述多张图片中的至少一张图片, 使用该图片的边缘信息、 颜色信息和 亮度信息中的至少一方, 将该图片分割为多个区域, 将通过分割后的各区域的移动轨迹分 类为同一子类, 从而将所述多个移动轨迹分类为多个子类, 还能够使用边缘、 亮度、 颜色等 的图像的空间信息将移动轨迹分类为子类。
优选上述移动体检测装置还具有输出部, 该输出部针对在所述图像输入部中受理 的所述多张图片中的至少一张图片, 按照通过由所述区域分割部执行区域分割而确定的每 个区域, 实施图像处理以使其成为与其他确定的区域不同的显示方式, 输出包含实施了图 像处理后的区域的图片。
根据该结构, 在图像上显示提取出的移动体, 从而在 AV、 图像监视装置等中分别在 图像上显示移动体, 由此, 具有用户容易识别各个被摄体的效果。
更加优选上述移动体检测装置还具有记录 / 发送部, 该记录 / 发送部针对在所述 图像输入部中受理的所述多张图片中的至少一张图片, 将赋予了由所述区域分割部执行的 区域分割的结果后的图片写入记录装置, 或者经由传送路径发送到外部。
根据该结构, 根据提取出的区域分别保持检测到的移动体图像, 由此, 仅从各移动 体图像中选择必要部分的图像进行保存或输出到外部, 由此, 作为图形要素, 能够进行高效 的保存和输出。 因此, 在便携电话等处理能力有限的设备中进行保存和发送的情况下, 有效 发挥作用。
并且, 也可以是, 上述移动体检测装置还具有运动预测部, 该运动预测部计算构成 由所述区域分割部确定的类的移动轨迹中的代表该类的代表移动轨迹, 根据计算出的所述 代表移动轨迹, 预测为与该类对应的区域在图片间移动, 从而预测所述移动体的运动。
通过使用代表多个块的移动轨迹的轨迹对移动体的运动进行预测, 能够进行噪声 耐性高的运动预测。
本发明的其他实施方式的计算机可读取的记录介质记录了具有包含头信息和体 信息的数据构造的数据, 其中, 所述头信息包含 : 构成动态图像的图片的尺寸 ; 构成所述动 态图像的所述图片的张数即图片张数 ; 从所述动态图像得到的移动轨迹的数量即移动轨迹 数; 以及作为类似的移动轨迹的集合的子类的数量即子类数, 所述体信息包含 : 构成所述 动态图像的所述图片张数的图片 ; 表示从所述动态图像得到的所述移动轨迹数的移动轨迹 的数据 ; 表示各所述移动轨迹所属的子类的数据 ; 以及按照每个子类表示该子类与其他子 类之间的类似性的子类间近似测地距离。
这样, 通过保持与图片的尺寸、 图片张数、 移动轨迹数、 子类数有关的信息作为头, 接受这些数据进行区域分割的装置能够确保区域分割所需要的信息的存储。并且, 作为区 域分割所需要的信息, 包含子类间近似测地距离, 所以, 与包含移动轨迹间的测地距离的情 况相比, 在装置侧, 具有能够以较少的存储量进行区域分割的效果。 本发明的另一实施方式的移动体检测用数据生成装置具有 : 图像输入部, 受理构 成动态图像的多张图片 ; 移动轨迹计算部, 按照构成所受理的所述图片的由一个以上的像 素构成的每个块, 检测构成所述动态图像的 2 张图片间的该块的运动, 针对所述多张图片 连接检测到的运动, 从而计算多个移动轨迹 ; 子类分类部, 将计算出的所述多个移动轨迹 分类为彼此类似的移动轨迹的集合即多个子类 ; 子类间近似测地距离计算部, 按照每个子 类, 使用包含属于该子类的移动轨迹与属于其他子类的移动轨迹之间的线性距离的最小值 的距离即子类间距离, 计算表示该子类与所述其他子类之间的类似性的子类间近似测地距 离; 以及数据输出部, 输出至少包含所述子类间近似测地距离计算部计算出的所述子类间 近似测地距离的数据。
数据输出部输出包含子类间近似测地距离的数据。因此, 在接受该数据的其他装 置中, 能够以较少的存储量进行区域分割。
本发明的另一实施方式的移动体检测装置通过执行确定动态图像中的移动体的 全部或一部分区域的区域分割来检测动态图像中的移动体, 其中, 该移动体检测装置具有 : 数据输入部, 至少受理包含子类间近似测地距离的数据的输入, 该子类间近似测地距离表 示属于动态图像中的类似的移动轨迹的集合即子类的移动轨迹、 与属于不同于该子类的所 述动态图像中的类似的移动轨迹的集合即子类的移动轨迹之间的类似性 ; 以及区域分割 部, 根据由所述数据输入部受理的所述子类间近似测地距离, 确定由类似的移动轨迹构成 的子类的集合作为一个类, 从而执行区域分割。
受理包含子类间近似测地距离的数据的输入, 执行区域分割。 因此, 与根据移动轨 迹间的测地距离进行区域分割的情况相比, 能够以较少的存储量进行区域分割。
下面, 使用附图详细说明本发明的实施方式。
( 实施方式 1)
下面, 使用附图说明本发明的实施方式。
图 1 是示出实施方式的移动体检测装置 100 的结构的图。 如图 1 所示, 该移动体检 测装置 100 具有图像输入部 101、 移动轨迹计算部 102、 子类分类部 103、 子类间近似测地距 离计算部 104、 区域分割部 105 以及输出部 106。移动体检测装置 100 是通过执行确定动态 图像中的移动体的全部或一部分区域的区域分割来检测动态图像中的移动体的装置。即, 移动体检测装置 100 是通过使用 2 张以上的图片间的对应点的轨迹即移动轨迹执行确定动 态图像中的移动体的全部或一部分区域的类分类 ( 聚类 ) 来检测动态图像中的移动体的装 置。以下, 将图片称为图像。
图像输入部 101 是如下的处理部 : 受理构成动态图像且摄影时刻在时间上不同的 多张图片的输入, 例如是摄像机或者与摄像机连接的通信接口等。并且, 图像输入部 101 也 可以从蓄积了动态图像的存储器中取得动态图像。
移动轨迹计算部 102 是如下的处理部 : 按照构成由图像输入部 101 受理的图片的 由一个以上的像素构成的每个块, 检测构成动态图像的 2 张图片间的图像的运动, 针对多 张图片连接检测到的运动, 从而计算多个移动轨迹。这里, 块是计算移动轨迹的单位, 是一 个以上的像素的集合。
子类分类部 103 是如下的处理部 : 将由移动轨迹计算部 102 计算出的多个移动轨 迹分类为彼此类似的移动轨迹的集合即多个子类。即, 子类分类部 103 关于由移动轨迹计 算部 102 计算出的多个移动轨迹, 以使类似的移动轨迹属于相同子类的方式进行分类, 针 对各移动轨迹赋予分类结果即子类的标记。
子类间近似测地距离计算部 104 是如下的处理部 : 使用由子类分类部 103 赋予标 记的移动轨迹, 计算表示子类间的类似度的距离。 在本实施方式中, 为了捕捉移动物体的形 状变化并缩短距离的计算时间, 子类分类部 103 使用子类内距离和子类间距离, 计算子类 间的近似的测地距离即子类间近似测地距离。即, 子类间近似测地距离计算部 104 按照每 个子类, 使用包含属于该子类的移动轨迹与属于其他子类的移动轨迹之间的线性距离的最 小值的距离即子类间距离, 计算表示该子类与其他子类之间的类似性的子类间近似测地距 离。这里, 测地距离是追寻作为中继点的移动轨迹而从一个移动轨迹到达另一个移动轨迹 的路径的距离。 并且, 子类内距离是使用对同一子类赋予标记的移动轨迹而计算出的距离, 是表示属于同一子类的移动轨迹间的类似性的距离。子类间距离是包含属于 2 个不同子类 的移动轨迹间的线性距离的最小值的距离。另外, 在希望进一步削减距离计算的计算量的 情况下, 也可以不使用子类内距离, 而将子类间距离代用作子类间近似测地距离。另外, 距 离表示类似性, 例如, 在距离大的情况下类似性低, 在距离小的情况下类似性高。
这里, 在使用 S 个子类的情况下, 计算出的子类间近似测地距离为 S 行 S 列 (S×S) 的距离矩阵。这样, 通过计算对属于 2 个不同子类间的移动轨迹的类似性进行评价的距离, 能够将块间的线性距离由于运动而变化的移动体、 特别是如关节物体那样在形状变化的同 时进行移动的人物等物体的运动表现为近似测地距离矩阵。由此, 能够针对关节物体的运 动进行健壮的被摄体提取。这里, 本说明书中的 “距离” 不仅包含二维空间中的两点间的距 离, 如后所述, 还包含多维数据间的算术距离, 是一个值或者多个值的集合 ( 距离矩阵 )。
区域分割部 105 是如下的处理部 : 根据由子类间近似测地距离计算部 104 计算出 的子类间近似测地距离, 确定由类似的移动轨迹构成的子类的集合作为一个类, 从而执行 区域分割。即, 区域分割部 105 根据由子类间近似测地距离计算部 104 计算出的子类间近似测地距离, 针对由类似的移动轨迹构成的子类的集合进行统合 / 非统合的判断。然后, 通 过将子类分类为类, 检测动态图像中的移动体。 这里, 一个类对应于一个被摄体或者被摄体 的部位, 所以, 如果能够分类为类, 则能够确定移动体的区域, 并检测移动体。另外, 类是子 类的集合。
输出部 106 输出由区域分割部 105 进行的动态图像中的移动体的检测结果。具体 而言, 输出部 106 针对由图像输入部 101 受理的多张图片中的至少一张图片实施图像处理, 以使其成为例如按照由区域分割部 105 检测到的移动体的每个区域而不同的显示方式, 向 显示装置等输出包含实施了图像处理后的区域的图片。
另外, 在本说明书中, “区域” 包含提取某个特定的对象物所在的图像区域的检测 技术、 以及不区分对象物而按照每个物体对图像区域 ( 移动轨迹 ) 进行分类的类分类技术 这两者。另外, 检测技术和类分类技术的相同部分很多, 所以, 在本申请说明书中不对两者 进行区分。
另外, 构成上述移动体检测装置 100 的各结构要素 ( 图像输入部 101、 移动轨迹计 算部 102、 子类分类部 103、 子类间近似测地距离计算部 104、 区域分割部 105、 输出部 106) 可以利用在计算机上执行的程序等软件实现, 也可以利用电子电路或集成电路等硬件实 现。 图 2 是示出通过软件实现的本实施方式的移动体检测装置的硬件结构的图。 在图 2 中, 照相机 201 拍摄图像并输出。计算机 202 从照相机 201 取得图像并进行移动体检测处理, 生成显示移动体检测结果的图像。显示器 203 取得由计算机 202 生成的图像并进行显示。 计算机 202 包含 I/F 204、 CPU 205、 ROM 206、 RAM 207、 HDD 208 以及视频卡 209。使计算 机 202 工作的程序预先保持在 ROM 206 或 HDD 208 中。程序通过处理器即 CPU 205 从 ROM 206 或 HDD 208 读出到 RAM207 中进行展开。CPU 205 执行在 RAM 207 中展开的程序中的被 编码的各命令。I/F 204 根据程序的执行, 将由照相机 201 拍摄的图像取入到 RAM 207 中。 视频卡 209 输出根据程序的执行而生成的图像, 在显示器 203 上显示该图像。
另外, 计算机程序不限于存储在半导体即 ROM 206 或 HDD 208 中, 例如也可以存 储在光盘中。并且, 还可以经由有线或无线的网络、 放送等进行传送而取入到计算机的 RAM 207 中。
下面, 使用图 3 说明本实施方式的移动体检测装置 100 的动作。
图 3 是示出本实施方式的移动体检测装置 100 的动作的流程图。
在图 3 中, 7 个步骤 S301 ~ S306 分别对应于图 1 的各处理部。即, 在图像输入部 101 中执行图像输入步骤 S301 的动作, 在移动轨迹计算部 102 中执行移动轨迹计算步骤 S302 的动作, 在子类分类部 103 中执行子类分类步骤 S303 的动作, 在子类间近似测地距离 计算部 104 中执行子类间近似测地距离计算步骤 S304 的动作, 在区域分割部 105 中执行区 域分割步骤 S305 的动作, 在输出部 106 中执行图像输出步骤 S306 的动作。
在图像输入步骤 S301 中, 图像输入部 101 从照相机 201 取得构成动态图像的多个 图片。这里, 假设输入有 T 张图片。
接着, 在移动轨迹计算步骤 S302 中, 移动轨迹计算部 102 计算所输入的多个图片 间的运动信息, 生成移动轨迹并输出。作为计算多个 (T 张 ) 图片间的运动信息的手法, 这 里, 以多个图片中的某一个图片上的 I 点的像素为基准, 搜索其他 T-1 张图片中的对应像 素。另外, 代替 I 点的像素, 也可以以 I 个小矩形区域 ( 块 ) 为基准, 搜索对应的小矩形区域的位置。例如, 如图 4(a) 所示, 移动轨迹计算部 102 使用在时刻 t 和时刻 t+1 拍摄的图 片, 估计与时刻 t 的图片上的像素 i 的像素坐标 (xit, yit)(i = 1… I) 对应的、 时刻 t+1 的 图片上的像素坐标 (xit+1, yit+1)。此时, 移动轨迹计算部 102 在时刻 t+1 的图片上扫描 ( 虚 线 ) 时刻 t 中的小矩形区域 404( 块 ), 将时刻 t 中的小矩形区域内的像素值与时刻 t+1 中 的小矩形区域内的像素值之差的总和最小时的像素坐标 ( 实线箭头所指的坐标 ) 估计为对 应的像素坐标。像素坐标使用表示块的中心位置的像素坐标即可。这里, 也可以预先决定 扫描小矩形区域 404 的范围。并且, 作为评价块彼此的差异的尺度, 不限于像素值之差的总 和, 只要是表示要比较的块内的像素值的差异的尺度即可, 也可以是其他尺度。例如, 也可 以使用时刻 t 中的小矩形区域内的像素值和时刻 t+1 中的小矩形区域内的像素值的平均二 乘误差, 还可以使用中值等的很难受极值 ( 异常值 ) 影响的值。在图片存在 3 张以上的情 况下, 如图 4(b) 所示, 移动轨迹计算部 102 在相邻的 2 张图片间依次求出对应的坐标, 从而 针对所输入的 T 张图片计算 I 点的对应点。另外, 为了求出对应的坐标而使用的 2 张图片 不一定相邻。例如, 也可以在 2 张图片之间隔着另外的一张以上的图片。
作为上述的计算多个图片间的对应点的其他具体手法, 也可以使用非专利文献 4 或非专利文献 5 等所示的方法。 非专利文献 4 : P.Anandan“ ,A Computational Framework and an Algorithm for the Measurement of Visual Motion” , International Journal of Computer Vision, Vol.2, pp.283-310, 1989
非专利文献 5: Vladimir Kolmogorov and Ramin Zabih, “Computing Visual Correspondence with Occlusions via Graph Cuts” , International Conference on Computer Vision, 2001
然后, 在该移动轨迹计算步骤 S302 中, 移动轨迹计算部 102 根据 I 点的像素的 T 张 图片所涉及的运动信息即对应点的像素坐标的组, 生成 I 个与每个像素对应的移动轨迹。 i 使用第 1 帧的图片上的某个像素 i 的坐标值 (x1 , y1i) 与对应点的像素坐标 (xti, yti), 如下 i 述式 1 那样示出像素 i 的移动轨迹 x 。
[ 数式 1]
( 式 1) 这里, T 是用于计算移动轨迹的图片的张数。图 4(b) 是示出移动轨迹 xi 的一例的图。移动轨迹 xi 是在时刻 t 到时刻 t+(T-1) 的 T 张输入图像 401 中根据从第 1 帧的图片上的像素 i403 到其他图片上的与像素 i403 对 应的像素的运动信息 402 计算出的、 由像素坐标的集合构成的矢量。
接着, 在子类分类步骤 S303 中, 子类分类部 103 将式 1 所示的 I 个移动轨迹分类 为 S 个子类。使用图 5 说明针对子类的分类。例如, 如图 5(a) 所示, 假设第 1 帧的图片中包 含的被摄体 501A 和 501B 在第 N 帧中分别移动到被摄体 502B 和 502B 的位置。此时的被摄 体 501A 和 501B 的移动轨迹分别如多个移动轨迹 503A 和 503B 所示。但是, 在图 5(a) 中, 为了简化说明, 仅示出移动轨迹的一部分。
关于针对子类的分类, 只要能够将类似的移动轨迹分类为同一子类即可, 所以, 可 以使用各种方法。例如, 如果将式 1 所示的 I 个移动轨迹作为输入, 使用非专利文献 6 的pp.526-528 所示的 k-means 法, 将子类数设定为 S 个, 则如图 5(b) 那样, 能够在移动轨迹矢 量构成的多维空间上将移动轨迹矢量分类为子类。这里, 如虚线的箭头所示, 图 5(b) 的○ 表示与图 5(a) 的各移动轨迹对应的多维空间上的点。为了进行说明, 在三维空间图上示出 与移动轨迹对应的点, 但是, 移动轨迹矢量所在的空间实际上是式 1 所示的维数为 2×T 的 多维空间。因此, 如图 5(c) 所示, 在所述多维空间上, 将类似的移动轨迹作为同一子类, 能 够将 I 个移动轨迹分类为 S 个子类。
进而, 还可以将 I 个移动轨迹作为输入, 使用以非专利文献 6 的 pp.550-555 所示 的树状图为基准的聚类算法。这里, 直到子类数成为 S 个为止, 反复进行依次将类似度最高 ( 距离最小 ) 的移动轨迹的对作为同一子类的处理, 或者进行规定次数的该处理。其结果, 如图 5(c) 那样, 能够将类似的移动轨迹作为同一子类, 将 I 个移动轨迹分类为 S 个子类。 另 外, 这里, 移动轨迹的类似度可以使用移动轨迹矢量间的欧几里德距离, 也可以使用利用属 于子类的移动轨迹的数量对所述欧几里德距离进行归一化后的距离。
例如, 在计算移动轨迹对的类似度 ( 距离 ) 时, 如果执行使用属于同一子类的移动 轨迹的数量进行归一化的处理, 则如图 5(d) 那样, 容易使各子类的尺寸均匀。即, 属于各子 类的移动轨迹的数量的偏差减小。另外, 距离或类似度不限于通过上述计算方法计算出的 距离或类似度, 只要是能够判定移动轨迹矢量间的类似性的距离或类似度即可。 另外, 在这 些情况下, 距离越小, 类似度越大。 即, 这里, 进行将类似度最大或距离最小的移动轨迹对作 为同一子类的处理。这样将移动轨迹分类为子类的结果如图 5(d) 所示。即, 对各移动轨迹 赋予子类标记的结果为, 类似的移动轨迹被分类为同一子类。例如, 如果对象是人物, 则能 够得到如图 5(d) 那样细细分割人物身体的结果。 非专利文献 6 : Richard O.Duda, Peter E.Hart and David G Stork, “Pattern Classification” , John Wiley & Sons, Inc., 2001
通过使用上述聚类算法的处理, 如下述式 2 所示, 各移动轨迹 xi 分别属于子类 Dj 中的任意一方。即, 分别对各移动轨迹赋予子类 Dj 的标记。
[ 数式 2]
( 式 2)另外, 可以以如下方式分类为子类 : 使与子类对应的区域的尺寸为与希望检测的 移动体的最小尺寸相同或更小的尺寸, 也可以以使子类数比预先假设的被摄体数多的方式 分类为子类。
接着, 在子类间近似测地距离计算步骤 S304 中, 子类间近似测地距离计算部 104 使用由子类分类步骤 S303 赋予的子类标记和属于该子类的移动轨迹, 计算子类间近似测 地距离。这里, 使用图 6 说明计算测地距离的优点。这里, 为了以易于理解的方式说明线性 距离与测地距离的差异, 以时刻 t 中的移动轨迹间距离为例。例如, 属于子类 Da602 的头部 的像素与属于子类 Db603 的手指部的像素之间的线性距离 601 为图 6(a) 所示的距离。另 一方面, 在测地距离的情况下, 如图 6(b) 所示, 属于子类 Da602 的头部的像素与属于子类 Db603 的手指部的像素的测地距离为, 通过作为中继点的属于子类 Dc604 的像素到达属于 子类 Db603 的手指部的像素的箭头所示的距离之和。因此, 在图 6(a) 所示的线性距离 601 中, 无法将在人物这种关节处连续连接的形状连续表现为数据, 与此相对, 根据图 6(b) 所示的测地距离, 具有能够将在关节处连续连接的形状作为距离而表现连续性的效果。
另外, 在计算测地距离时, 如图 6(a) 所示, 不是计算属于子类 Da602 的头部的像素 与属于子类 Db603 的手指部的像素之间的直线距离, 而是如图 6(b) 所示, 需要进行搜索通 过中继点追寻两点间的最短路径的计算。关于最短路径搜索用的高效计算方法, 例如广泛 公知有非专利文献 7 所示的最短路径法, 但是, 在非专利文献 3 中报告了, 即使使用该手法, 当移动轨迹的数量特别多时, 计算量也变得庞大。
非专利文献 7 : E.W.Dijkstra, “A note on two problems in connexion with graphs” , Numerische Mathematik, pp.269-271, 1959
因此, 在子类间近似测地距离计算步骤 S304 中, 将以更少的计算量实现具有与测 地距离相同的性质的距离的计算作为目的, 子类间近似测地距离计算部 104 计算子类间近 似测地距离。这里, 说明对子类间的测地距离进行近似的方法。例如, 如图 7(a) 所示, 在寻 求像素 i 的移动轨迹与像素 j 的移动轨迹的测地距离的情况下, 即使使用非专利文献 7 所 示的最短路径法, 也需要计算连接像素 i 的移动轨迹与像素 j 的移动轨迹的距离的多个候 选 ( 实线和虚线 ), 并从中选择最小的距离 ( 实线 )。因此, 在计算作为候选的距离的过程 中需要较多的计算量。
但是, 通过子类分类步骤 S303 将类似的移动轨迹分类为同一子类, 所以, 能够假 设被分类为同一子类的移动轨迹是类似的。即, 图 5 示出将移动轨迹分类为子类的例子, 可 以认为属于同一子类内的移动轨迹是不引起大幅形状变化的刚体的移动轨迹。而且, 在刚 体的移动轨迹的情况下, 可以认为测地距离与线性距离之差较小。 因此, 关于子类内的移动 轨迹, 线性距离与测地距离之差较小, 利用图 7(b) 所示的线性距离的平均来近似测地距离 的平均。即, 子类内的线性距离的平均
[ 数式 3]
与子类内的测地距离的平均 [ 数式 4]的关系如下述式 3 表现。 [ 数式 5] ( 式 3)接着, 说明属于不同子类的移动轨迹间的距离即子类间距离。列举使用非专利文 献 7 所公开的方法计算子类间距离的情况的例子。例如, 在寻求属于图 7(a) 的子类 Da 的 像素 j 的移动轨迹与属于子类 Db 的像素 k 的移动轨迹的测地距离的情况下, 也需要计算连 接像素 j 的移动轨迹与像素 k 的移动轨迹的距离的多个候选 ( 实线和虚线 ), 并从中选择 最小的距离 ( 实线 )。但是, 如上所述, 关于子类内的移动轨迹, 能够利用线性距离来近似。 因此, 连接一个子类与另一个子类的距离很重要。这里, 如图 7(b) 所示, 将连接一个子类与 其他子类的最小距离定义为子类间距离。根据该方法, 不需要进行图 7(a) 所示的搜索通过中继点追寻两点间的最短路径的处理, 只要求出分别属于子类 Da 和子类 Db 的移动轨迹间 Inter 的线性距离的最小值 fmin 即可。进而, 为了使噪声更加健壮, 也可以按照分别属于子类 Da 和子类 Db 的移动轨迹间的距离从小到大的顺序选择多个距离, 将选择出的距离的平均 Inter Inter 值作为 fmin , 还可以将选择出的距离的中值作为 fmin 。
然后, 如图 7(b) 所示, 子类间近似测地距离 g’ 能够如下述式 4 表现。
[ 数式 6]
( 式 4)子类间近似测地距离 g’ 不限于上述式 4, 例如也可以将 fminInter 作为子类间近似测 地距离 g’ 。
如图 7(c) 所示, 通过使用子类内的距离和子类间的距离, 如上所述, 能够计算子 类间近似测地距离。
使用图 8 详细说明具体的计算例。在图 8(a) 中, 椭圆分别表示子类。即, 在各椭 圆中包含属于各个子类的移动轨迹。并且, 如图 8(a) 所示, 假设在多维空间中子类 Da 与子 类 Db 相邻、 子类 Db 与子类 Dc 相邻。因此, 子类间近似测地距离计算部 104 按照每个子类, 使用属于同一子类内的移动轨迹, 根据下述式 5 计算移动轨迹间的距离。
属于子类 Da 的像素 i 的移动轨迹与像素 j 的移动轨迹的距离 faa(i, j) 能够通过 下述式 5 计算。
[ 数式 7]
( 式 5) 这里, i, j ∈ Da另外, 作为计算属于子类 Da 的像素 i 的移动轨迹与像素 j 的移动轨迹的距离 faa(i, j) 的式子, 代替上述式 5, 也可以使用下述式 6。
[ 数式 8]
faa(i, j) = ptnij+w·mtnij i, j ∈ Da( 式 6)
其中,
这里, w 是权重系数, 是设计者设定的参数。上述式 6 的属于子类 Da 的像素 i 的移 动轨迹与像素 j 的移动轨迹的距离 faa(i, j) 是在移动轨迹间距离的时间平均值 ptnij 中加 上移动轨迹间距离的时间变动分量 mtnij 而得到的。 特别地, 移动轨迹间距离的时间变动分 量 mtnij 表示像素的运动的类似度, 由此, 不仅能够捕捉像素间形成的距离的关系不随时间 变化的刚体, 还能够捕捉形状变化的关节物体等。这样, 按照每个子类进行基于式 5 或式 6
的距离计算。如果是图 8 的例子, 则分别针对子类 Da ~ Dc, 使用属于同一子类的移动轨迹 来计算距离。另外, 属于同一子类的像素 i 的移动轨迹与像素 j 的移动轨迹的距离 faa(i, j) 不限于上述, 例如, 也可以使用移动轨迹矢量彼此的内积或 COS, 只要是表示移动轨迹间 的像素上的距离或运动的类似性的尺度即可。
接着, 根据下述式 7, 按照每个子类求出移动轨迹间的距离 faa(i, j) 的平均值即子 类内距离。
[ 数式 9]
i, j ∈ Da( 式 7)这里, N 是移动轨迹 i 和 j 的组合的数量。 另外, 也可以将移动轨迹间的距离 faa(i, j) 的最频值或中值作为子类内距离。 子类内距离能够根据同一子类中包含的移动轨迹或者 任意的移动轨迹间的距离 faa(i, j) 来计算, N 不一定是所有移动轨迹 i 和 j 的组合。并且, 代替式 7, 也可以计算多个 i 和 j 的组合中的 faa(i, j), 将其最大值作为子类内距离。
接着, 子类间近似测地距离计算部 104 根据以下的式 8 求出子类间距离。
[ 数式 10]
( 式 8)式 8 用于计算属于不同子类的移动轨迹 i、 j 的距离中的最小距离。进而, 子类间 距离的计算方法不限于此, 例如, 也可以在属于不同子类的移动轨迹 i、 j 的距离中, 按照从 小到大的顺序选择 N 个, 将其平均值作为子类间距离, 进而, 还可以对其进行加权。进而, 还 可以将上述 N 个中的中值作为子类间距离。
这里, 在使用式 8 计算出的子类间距离 fminInter 大于预先设定的阈值的情况下, 也 Inter 可以进行使子类间距离 fmin 无限大的处理。例如, 设输入图像的尺寸为 640×480, 将移 Inter 动轨迹划分为 4×4 的网格, 仅使用通过网格上的移动轨迹计算子类间距离 fmin 的情况 下, 设所述阈值为 10.0 左右时, 得到良好的结果。当然, 优选根据图像的尺寸或移动轨迹的 空间密度 ( 上述网格尺寸越大, 密度越小 ) 来调整上述参数。
如上所述, 使用根据式 7 和式 8 计算出的子类内距离和子类间距离, 能够根据式 4 计算子类间近似测地距离。
然后, 生成将下述式 9 所示的子类作为结构要素的 S×S 的子类内距离 / 子类间近 似测地距离矩阵 G’ 。这里, 如图 8(b) 所示, 子类内距离 / 子类间近似测地距离矩阵 G’ 的对 角要素为子类内距离, 除此之外为子类间近似测地距离。
[ 数式 11]
G′= {g′ (si, sj)} ( 式 9)
这里, si, sj 是子类的下标 (index)。
接着, 如上所述, 在 fminInter 大于预先设定的阈值的情况下, 也可以进行使 fminInter 无 限大的处理, 如下所述, 再次计算无限大的子类间近似测地距离。
[ 数式 12]
g′ (a, c) = min(g′ (a, c), g′ (a, b)+g′ (b, c)) ( 式 10)在上述式 10 中, min(x, y) 是使值 x 和值 y 中较小的一方返回的函数。
如图 8(a) 所示, 在计算子类 Da、 Dc 间的近似测地距离的情况下, 子类 Db 作为用于 从子类 Da 到达子类 Dc 的中继点发挥功能。这里, 中继点不限于一个点。
上述测地距离计算中的 2 点间的最短路径搜索例如可以使用非专利文献 4 的最短 路径法。 由此, 中继点的数量不限于一个点, 能够进行最短路径搜索。 当设数据点数为 N 时, 2 最短路径法的计算量的等级由 N logN 表现。 这里, 设不执行步骤 S303 和步骤 S304 的处理而 进行最短路径法时的移动轨迹数为 N, 设计算子类间近似测地距离时的子类数为 M。例如, 如果以将 100 个类似的移动轨迹分类为一个子类的方式进行处理, 则即使在这里使用最短 路径法, 也具有最短路径法的计算量削减为 1/20000 的效果。这样, 移动轨迹数越多, 最短 路径法的计算量非线性越大。另一方面, 步骤 S303 中的子类标记赋予所需要的计算量的增 加相对于移动轨迹数为线性的。因此, 在图像尺寸大的情况下或者在空间上高密度地计算 移动轨迹的情况下, 根据计算近似测地距离的本发明, 在移动轨迹数增加的条件下, 尤其具 有计算量削减的效果。
接着, 在区域分割步骤 S305 中, 区域分割部 105 使用子类间近似测地距离, 针对类 似的移动轨迹 ( 子类 ) 的集合进行统合 / 非统合的判断。这里, 只要是能够判断子类的统 合 / 非统合的手法, 则可以使用任意方法。例如, 可以使用非专利文献 1 所记载的方法。也 可以针对式 9 所示的子类内距离 / 子类间近似测地距离矩阵 G’ 进行维数压缩, 在压缩后的 空间上使用 K-means 法等的聚类手法, 判断子类的统合 / 非统合。当然, 聚类手法不限于 K-means 法。下面进行具体说明。
首先, 区域分割部 105 进行在步骤 S304 中计算出的子类内距离 / 子类间近似测地 距离矩阵 G’ 的维数压缩。通过在进行 Young-Householder 转换后求出 Eigen system, 从而 能够实现维数压缩。这是用于高效地向低维空间投射在多维空间中分布的数据的方法, 针 对输入数据的噪声 ( 这里, 相当于在计算上述式 2 的像素 i 的时间移动轨迹时在像素 i 的 运动信息中包含误差的情况 )、 上述式 4 中的子类间距离 fminInter 的噪声, 能够表现健壮的数 据。
即, 针对上述式 9 所示的子类内距离 / 子类间近似测地距离矩阵 G’ , 如下述式 11 所示, 针对中心化行列 H 进行从两侧施加的 Young-Householder 转换。距离矩阵是由点间 距离构成的距离行列, 对此, 将其转换为以重心为原点的距离矩阵。
[ 数式 13]
( 式 11) 其中, H 是中心化行列, [ 数式 14] Hab = (I-1/N) ( 式 12) I 是单位行列, N 是子类数。 并且, [ 数式 15] G′ (2) = {g′ (si, sj)2} ( 式 13) 这里, si, sj 是子类的下标。接着, 区域分割部 105 计算针对 τ(G) 的 P 个固有矢量 (eigen vector)ep 和与其 对应的固有值 (eigen value)λp, 以便进行维数压缩。
由此, 当设
[ 数式 16]
g′ a = (g′ (a, 0), g′ (a, 1), ..., g′ (a, S)) ( 式 14) a
时, 在维数压缩后的空间上投射 g’ 的结果, 能够如下表现为数据 zpa。
[ 数式 17]
( 式 15)另外, epa 是第 p 个固有矢量 ep 的第 a 个要素。可以根据要利用的场景而通过实验 决定固有矢量的数量 P, 也可以如下所述根据固有值 λp 计算作用率 αp, 根据该作用率 αp 来决定固有矢量的数量 P。
[ 数式 18]
( 式 16)这里, P 是要利用的固有矢量的数量、 即压缩后的空间的维数。N 是全部固有矢量 的数量。因此, 只要设作用率 αp 为一定值以上时的数量 P 为固有矢量的数量即可。
如上所述, 根据基于式 2 ~式 16 的处理, 能够将式 2 所示的像素 i 的时间移动轨 迹分类为子类, 使用分类后的子类和根据属于该子类的移动轨迹生成的子类内距离 / 子类 间近似测地距离矩阵 G’ , 得到利用固有矢量 ep 扩展的维数压缩后的空间上的数据 zpa。
使用图 9 说明区域分割部 105 的处理的具体例。
图 9(a) 示出将人物的步行图像作为输入时的移动轨迹 a ~ h, 图 9(b) 示出向维数 压缩后的空间投射对分别类似的移动轨迹进行分类后的多个子类的结果。纵轴、 横轴是固 a a a 有矢量 e1、 e2。二维上投射的点 (z1 , z2 ) 是对式 14 所示的 g’ 进行投射而得到的。这里, a 非线性空间上的数据 zp 与子类 Da 存在一对一的关系, 所以, 能够使属于子类 Da 的图像上 i Da a 的像素 i 的移动轨迹 x ∈ 与非线性空间上的数据 zp 对应, 另外, 这里, 为了使结果可视 化, 设非线性空间的维数为二维, 但是, 不一定必须是二维, 高维数的空间能够以更高精度 投射数据。优选维数设定为二维以上且式 1 所示的移动轨迹矢量的维数以下。
接着, 区域分割部 105 针对投射到压缩后的非线性空间上的数据判定子类的统合 / 非统合, 从而进行移动体的检测。
首先, 如下所述表现类。这里, 类数与移动体的数量对应。
[ 数式 19]
θ = {θ1, ...θm...θM} ( 式 17)
这里, M 是类数, 是根据要利用的场景而通过经验决定的。
各个类 θm 由参数
[ 数式 20]和参数 Zm 表现。这里, [ 数式 21]是压缩后的非线性空间中的属于类 θm 的被投射的数据的坐标值的平均值, Zm 是 与属于类 θm 的被投射的数据的坐标值有关的协方差行列。
[ 数式 22]
的初始值可以随机决定, 也可以通过利用网格对压缩后的非线性空间进行等间隔 分割等, 将其交点的坐标值作为初始值。
另外,
[ 数式 23]
和 Zm 能够如以下的式 18 和式 19 那样表示。 [ 数式 24]
( 式 18)
[ 数式 25]
( 式 19)这里, Cm 是在压缩后的非线性空间上属于类 θm 的数据数。
下面, 说明具体的计算方法。 首先, 使用下式的距离函数求出压缩后的非线性空间 上的数据 za 所属的类 θm。
[ 数式 26]
( 式 20) 这里, ψm(za) 表示与像素 i 的时间移动轨迹对应的非线性空间上的数据 zi 与各个 是马氏距离, 能够由类 θm 的距离。各数据属于 ψm(za) 取最小值的类 θm。另外, 下式 21 表示。
[ 数式 27]
22( 式 21)102396001 A CN 102396011
说明书18/29 页并且, 也可以使用来代替 ψm(za)。进而, p(ωm) 可以是一定值, 在提取人物等确定的移动体的情况下, 也可以预先根 据人物部位的形状或面积比等设定。ωm 是针对类 θm 的权重系数。
接着, 根据式 20 的计算结果, 使用属于类 θm 的数据 za, 如以下的式 22 和式 23 那 样更新类 θm 的参数
[ 数式 28]
和 Zm。 [ 数式 29]
( 式 22)
[ 数式 30]
( 式 23)这里, zcm 是属于类 θm 的压缩后的非线性空间上的数据。并且, 可以设 ω = 1, 也 可以根据与输入数据的平均值的偏差情况来调整 ω 的值。这样, 区域分割部 105 反复进行 规定次数的式 20 ~式 23 所示的距离计算和参数更新, 由此, 能够得到非线性空间上的各数 据所属的类 θm。另外, 代替上述方法, 也可以使用 k-means 法、 竞争学习等其他的聚类方 法。另外, 子类内距离 / 子类间近似测地距离矩阵 G’ 的维数压缩不是必须的处理, 也可以 根据子类内距离 / 子类间近似测地距离矩阵 G’ , 通过谱聚类进行聚类, 从而进行区域分割。 例如, 关于谱聚类, 可以使用非专利文献 8 的手法。
非专利文献 8 : Arik Azran and Zoubin Ghahramani, “Spectral Methods for Automatic Multiscale Data Clustering” , Proc.IEEE Computer Society Conference on Computer Vision and Pattern Recognition 2006(CVPR06)
这样, 进行了基于聚类的类判定后的结果, 如图 9(c) 所示, 属于子类 Da ~ Dd 的移 动轨迹被统合为一个类 θ1, 属于子类 De ~ Dh 的移动轨迹被统合为另一个类 θ2。对各移 动轨迹赋予类标记, 所以, 当按照每个类标记汇集移动轨迹时, 如图 9(d) 所示, 能够提取被 摄体。 另外, 与压缩后的非线性空间上的类对应的不仅是一张图像上的区域, 还是遍及在时 间上连续的多张图像追踪像素而得到的结果。即, 区域分割部 105 在压缩后的非线性空间 上进行分段, 由此, 在时间上追踪在图像中移动的物体的区域, 其结果, 能够进行图像中的 被摄体 ( 被摄体的部位 ) 的检测、 以及包含被摄体的图像的分段。并且, 作为预处理, 不需 要设定人物候选区域, 所以, 分段不会由于人物候选区域的检测错误而失败。
如上所述, 根据本实施方式, 不需要拟合庞大的参数, 通过在非线性空间中进行聚 类, 针对包含在形状变化的同时进行移动的人物等的图像, 能够稳定且高速地进行被摄体 的检测。
即, 通过计算近似测地距离, 与不进行近似而计算测地距离的情况相比, 能够高速 且高效表现连续且非线性分布的数据。并且, 确保了测地距离的性质, 同时, 针对包含在形 状变化的同时进行移动的人物等移动体的图像, 也能够正确地进行区域提取, 而不受移动 体的姿势或大小的影响。
并且, 针对包含在形状变化的同时进行移动的人物等移动体的图像, 也能够高速 且正确地检测移动体并对部位进行区域提取, 而不受移动体的姿势或大小的影响。 进而, 使 用进行检测和区域提取后的结果, 还能够进行移动体的移动预测等。
由此, 在数字摄像机等动态图像摄影装置普及的今天, 作为针对数字照相机的焦 点控制和画质改善处理、 汽车的安全运转辅助系统、 机器人中的与人的冲突避免控制或警 报等的应用技术, 本发明的实用价值极高。
( 实施方式 2)
接着, 说明本发明的实施方式 2 的移动体检测装置。
这里, 说明子类分类部 103 利用与实施方式 1 不同的方法进行子类分类处理的例 子。图 10 是示出实施方式 2 的移动体检测装置 100a 的结构的图。
实施方式 2 的移动体检测装置 100a 包含图像输入部 101、 移动轨迹计算部 102、 子 类分类部 103a、 子类间近似测地距离计算部 104、 区域分割部 105 以及输出部 106。
除了子类分类部 103a 的结构以外, 这种实施方式 2 的移动体检测装置 100a 与实 施方式 1 的移动体检测装置 100 的结构相同, 所以, 省略同一结构要素的说明。
子类分类部 103a 进行如下处理 : 根据在图像输入部 101 中受理的多张图像中的至 少一张图像, 使用亮度、 边缘信息、 颜色等, 将类似的图像区域分类为同一子类。接着, 子类 分类部 103a 针对由移动轨迹计算部 102 计算出的移动轨迹, 赋予移动轨迹所通过的图像区 域的子类标记。即, 子类分类部 103a 对通过同一图像区域的移动轨迹赋予同一子类标记, 由此分类为同一子类。与实施方式 1 的不同之处在于, 不是根据移动轨迹分类为子类, 而是 根据图像信息分类为子类, 并根据该信息对移动轨迹赋予子类标记。 另外, 也可以不使用与 移动轨迹有关的信息来进行子类分类部 103a 中的图像区域的子类分类处理。因此, 不一定 在移动轨迹计算部 102 的处理之后进行子类分类处理, 也可以并行地对两者进行处理, 还 可以在移动轨迹计算部 102 的处理之前进行图像区域的子类分类处理。
下面, 使用图 11 说明本实施方式 1 的第 1 变形例的移动体检测装置 100a 的动作。
步骤 S301、 S302 与实施方式 1 相同, 所以省略说明。接着, 在子类分类步骤 S303a 中, 子类分类部 103a 使用在图像输入步骤 S301 中输入的多个图像中的至少一张图像, 进行 图像的区域分割。这里, 只要是将像素 ( 亮度 ) 值、 颜色信息、 边缘信息等及其位置信息等 作为输入进行区域分割的手法即可, 可以是任意手法, 例如可以使用非专利文献 9 的方法。
非专利文献 9 : X.Ren and J.Malik, “Learning a Classification Model for Segmentation, International Conference on Computer Vision” , Vol.1, p.10-17, 2003
在非专利文献 9 的方法中, 使用边缘信息或空间附近的像素值的光滑度将图像区 域分割为多个小区域。例如在对象是人物的情况下, 如图 12(a) 那样, 成为细细分割人物的结果。这里, 例如在输入 T 张的帧的图像时, 也可以从中选择一张图像进行区域分割。这 里, 优选使用多个图像中的在时间上中间的图像进行区域分割, 但是, 并不对图像的选择进 行限制。
除此之外, 例如也可以排列像素值和像素位置作为三维矢量, 将其作为输入, 通过 k-means 法等聚类算法对图像区域进行分割, 当然, 也可以排列 RGB 等颜色信息和像素位置 信息作为五维矢量, 进而, 还可以排列作为边缘信息的像素值的空间微分矢量 ( 二维 ) 和像 素位置作为四维矢量, 只要是能够在空间上对图像进行区域分割的手法即可。
然后, 将分割后的区域作为子类, 根据为了进行区域分割而选择出的图像的时刻 和在移动轨迹计算步骤 S302 中计算出的移动轨迹的关系, 对移动轨迹赋予子类标记。
具体而言, 如图 12(b) 所示, 子类分类部 103a 将在空间上进行区域分割后的各区 域考虑为子类, 在为了进行区域分割而选择出的时刻 t’ 的图像中, 根据各移动轨迹通过哪 个子类来赋予子类标记。例如, 移动轨迹 1 ~ 4 分别在时刻 t’ 中分别通过子类 Da ~ Dd。因 此, 子类分类部 103a 对移动轨迹 1 ~ 4 分别赋予对应的子类标记 a ~ d。如果针对相应的 移动轨迹进行这种处理, 则如式 2 所示, 各移动轨迹 x 分别属于子类 Dj 中的任意一方。即, 与实施方式 1 的子类分类步骤 S303 的处理同样, 分别对各移动轨迹赋予子类 Dj 的标记。
子类间近似测地距离计算步骤 S304 以后的处理与实施方式 1 相同, 所以省略说 明。
如上所述, 根据实施方式 2, 能够根据移动轨迹进行图像中的被摄体 ( 被摄体的部 位 ) 的检测。 并且, 作为预处理, 不需要设定人物候选区域。 因此, 分段不会由于人物候选区 域的检测错误而失败。进而, 与实施方式 1 相比, 能够明示地使用颜色或亮度等信息, 所以, 例如在检测穿着单一颜色的衣服等的被摄体的情况下, 能够进行更高精度的移动体检测。 如上所述, 根据实施方式 2, 不需要拟合庞大的参数, 通过在非线性空间中进行聚类, 针对包 含在形状变化的同时进行移动的人物等的图像, 能够稳定且高速地进行被摄体的检测。
即, 通过计算近似测地距离, 与不进行近似而计算测地距离的情况相比, 能够高速 且高效表现连续且非线性分布的数据。并且, 确保了能够高效表现连续且非线性分布的数 据的测地距离的性质, 同时, 针对包含在形状变化的同时进行移动的人物等移动体的图像, 也能够正确地进行区域提取, 而不受移动体的姿势或大小的影响。
并且, 针对包含在形状变化的同时进行移动的人物等移动体的图像, 也能够高速 且正确地检测移动体并对部位进行区域提取, 而不受移动体的姿势或大小的影响。 进而, 使 用进行检测和区域提取后的结果, 还能够进行移动体的移动预测等。
由此, 在数字摄像机等动态图像摄影装置普及的今天, 作为针对数字照相机的焦 点控制和画质改善处理、 汽车的安全运转辅助系统、 机器人中的与人的冲突避免控制或警 报等的应用技术, 本发明的实用价值极高。
( 实施方式 3)
接着, 说明本发明的实施方式 3 的移动体检测装置。
在实施方式 3 中, 在实施方式 1 和 2 的基础上, 根据子类间近似测地距离的时间变 化来判定子类的统合 / 非统合。
这种实施方式 3 的移动体检测装置 100 与图 1 所示的实施方式 1 的移动体检测装 置 100 的结构相同, 所以, 省略各结构要素的说明。但是, 区域分割部 105 执行的处理的内容与实施方式 1 不同。下面, 以与实施方式 1 不同之处为中心说明实施方式 3。
下面, 使用图 13 说明本实施方式 3 的移动体检测装置 100 的动作。
首先, 图像输入步骤 S301 ~子类间近似测地距离计算步骤 S304 的处理与实施方 式 1 相同, 所以省略说明。另外, 关于本实施方式, 根据实施方式 1 的例子进行说明, 但是, 也能够应用于在实施方式 2 中说明的方法。
接着, 在区域分割步骤 S305a 中, 区域分割部 105 使用针对时刻 0 ~ T 的图像通过 步骤 S301 ~ S304 的处理而计算出的子类间近似测地距离、 以及针对时刻 T ~ 2T 的图像同 样计算出的子类间近似测地距离, 通过其时间变化, 判定子类的统合 / 非统合。
在图 14(a) 中, 以由关节状连接的 2 个子类 Da、 Db 构成的物体的运动为例, 示出 测地距离 ( ○、 实线 )、 子类间近似测地距离 ( □、 虚线 )、 欧几里德距离 ( △、 虚线 ) 的时间 变化。这里, 物体的运动是如人物的脚或手腕那样关节状连接的运动, 所以, 优选作为同一 移动体进行提取。 这里, 能够预想到, 测地距离的时间变化和子类间近似测地距离的时间变 化不大, 但是, 另一方面, 欧几里德距离的时间变化大幅变动。即, 测地距离的优点在于, 通 过计算追寻连续分布的数据的距离, 针对关节物体, 距离的时间变动也很小, 进而, 子类间 近似测地距离能够以较少的计算量实现与测地距离相同的性质。 测地距离是子类间的测地 距离的平均值, 子类间距离是包含子类间的线性距离的最小值而计算出的距离。 因此, 如图 14(a) 所示, 测地距离和子类间近似测地距离的绝对值距离不同。但是, 针对关节物体这种 运动, 关于距离的时间变动小、 即很难受关节物体的姿势变化影响的性质, 测地距离和子类 间距离均优于欧几里德距离。进而, 图 14(b) 示出实际的实验结果。图 14(b) 示出利用关 节连接椭圆状的 2 个物体而进行关节运动的例子。在图像输入步骤 S301 中按照每 6 帧集 中输入图像。图 14(b) 是使用 60 帧的图像计算出的各种距离的结果。例如, 根据 0 ~ 6 帧 的图像而得到的距离描绘在横轴的 0( 帧 ) 的位置。
这里, 利用 ( ○、 实线 ) 示出测地距离, 利用 ( □、 虚线 ) 示出子类间近似测地距 离, 利用 ( △、 虚线 ) 示出欧几里德距离。由图 14(b) 可知, 各距离示出与图 14(a) 相同的 性质。测地距离和子类间近似测地距离的时间变动比欧几里德距离的时间变动小。即, 针 对关节运动, 这些距离的时间变动少, 所以, 具有如下效果 : 针对在欧几里德距离中可能被 分类为不同被摄体的物体, 也容易判定为同一被摄体。
因此, 利用下式, 具体说明通过子类间近似测地距离的时间变动而实现的子类的 统合 / 非统合的判定方法。
首先, 区域分割部 105 根据以下的式 24, 使用根据时刻 0 ~ T 的图像和移动轨迹计 算出的子类间近似测地距离, 估计时刻 T ~ 2T 的子类间近似测地距离。
[ 数式 31]
( 式 24) 这里, E 是估计值。并且, [ 数式 32]是子类内距离, T 对应于根据时刻 0 ~ T 的图像计算出的子类内距离和子类间近似 测地距离, 2T 对应于根据时刻 T ~ 2T 的图像计算出的子类内距离和子类间近似测地距离。
另外, 式 24 中的子类内距离特别是为了得到针对移动体的尺寸变化的情况进行 归一化的效果而导入的, 在固定照相机中, 在应用于移动体的尺寸没有变动的场景的情况 下, 也可以简化为下式。
[ 数式 33]
E(g′ ab(2T)) = g′ ab(T) ( 式 25)
然后, 区域分割部 105 针对子类 Da 和 Db, 如下式那样计算估计出的子类间近似测 地距离与时刻 T ~ 2T 的实际的子类间近似测地距离之间的差分的绝对值, 如果子类间近似 测地距离的时间变化 K 为预先设定的阈值以下, 则进行子类的统合, 如果时间变化 K 大于阈 值, 则不进行统合。
[ 数式 34]
K = |E(g′ ab(2T))-g′ ab(2T)| ( 式 26)
区域分割部 105 针对全部子类的对进行该处理, 从而判断子类的统合 / 非统合, 生 成最终的类。在图 14 的例子中, 如果时间变动为阈值以下, 则对子类 Da 和 Db 进行统合, 能 够判定为是相同的移动体。例如, 设输入图像的尺寸为 640×480, 将移动轨迹划分为 4×4 的网格, 仅使用通过网格上的移动轨迹计算子类间近似测地距离的情况下, 设所述阈值为 5.0 左右时, 得到良好的结果。当然, 优选根据图像的尺寸或移动轨迹的空间密度 ( 上述网 格尺寸越大, 密度越小 ) 来调整上述参数。另外, 这里, 为了易于说明, 对输入时刻 0 ~ T、 T ~ 2T 的图像的情况进行了说明, 但是, 如时刻 0 ~ T、 T ~ 2T、 2T ~ 3T、…、 (N-1)T ~ NT 那样, 也可以根据更长时间的变化来判定子类的统合 / 非统合。 例如, 如图 15(a) 那样, 也可以针对时刻 0 ~ T、 T ~ 2T、…、 (N-1)T ~ NT 分别进 行式 26 的处理, 将对在式 26 中分别计算出的时间变化 K 进行平均而得到的值作为时间变 化 K, 还可以将通过对离当前时刻越近的时间平均 K 赋予越大的权重而求出的加权平均值 作为时间变化 K。
进而, 也可以通过图像输入步骤 S301, 如图 15(b) 那样, 预先将时刻 0 ~ NT 的图像 输入, 对其进行移动轨迹计算步骤 S302、 子类分类步骤 S303 的处理, 通过子类间近似测地 距离计算步骤 S304, 如时刻 0 ~ T、 T ~ 2T、…、 (N-1)T ~ NT 那样在时间上分割图像, 使用 分割后的图像分别计算子类间近似测地距离。然后, 通过区域分割步骤 S305a, 通过上述的 子类间近似测地距离的时间变化, 判定子类的统合 / 非统合。
如上所述, 根据实施方式 3, 根据子类间近似测地距离的时间变化进行类的统合 / 非统合判定, 由此, 对属于被判定为同一类的子类的移动轨迹赋予相同的类标记。因此, 当 按照同一类标记汇集移动轨迹时, 如图 9(d) 所示, 能够提取被摄体。其结果, 能够进行图像 中的移动体 ( 移动体的部位 ) 的检测、 以及包含移动体的图像的分段。并且, 作为预处理, 不需要设定人物候选区域, 所以, 分段不会由于人物候选区域的检测错误而失败。如上所 述, 不需要拟合庞大的参数, 通过在非线性空间中进行聚类, 针对包含在形状变化的同时进 行移动的人物等的图像, 能够稳定且高速地进行被摄体的检测。
即, 通过使用子类间近似测地距离的时间变化, 具有如下效果 : 针对包含关节的物 体的运动或放大、 缩小, 也能够作为同一被摄体进行区域分割。并且, 确保了能够高效表现
连续且非线性分布的数据的测地距离的性质, 同时, 针对包含在形状变化的同时进行移动 的人物等移动体的图像, 也能够以较少的计算量、 正确地进行区域提取, 而不受移动体的姿 势或大小的影响。
并且, 针对包含在形状变化的同时进行移动的人物等移动体的图像, 也能够正确 地检测移动体并对部位进行区域提取, 而不受移动体的姿势或大小的影响。 进而, 使用进行 检测和区域提取后的结果, 还能够进行移动体的移动预测等。
由此, 在数字摄像机等动态图像摄影装置普及的今天, 作为针对数字照相机的焦 点控制和画质改善处理、 汽车的安全运转辅助系统、 机器人中的与人的冲突避免控制或警 报等的应用技术, 本发明的实用价值极高。
( 实施方式 1 ~ 3 的第 1 变形例 )
接着, 说明本发明的实施方式 1 ~ 3 的第 1 变形例的移动体检测装置。这里, 说明 在实施方式 1 ~ 3 中附加如下功能的例子 : 进行类判定, 按照分别检测到的每个区域记录 / 发送检测到移动体的结果。另外, 叙述实施方式 1 中的变形例, 但是, 在实施方式 2、 3 中也 能够同样应用。
如图 16 所示, 这种第 1 变形例的移动体检测装置 100c 能够通过对图像输入部 101、 移动轨迹计算部 102、 子类分类部 103、 子类间近似测地距离计算部 104、 区域分割部 105 附加记录 / 发送部 1501 来实现。
记录 / 发送部 1501 是如下的处理部 : 根据区域分割部 105 进行被摄体检测的结 果, 确定由图像输入部 101 受理的图片中的被摄体区域, 按照所确定的每个被摄体区域, 将 用于表示该被摄体区域的信息记录在存储器或硬盘等记录介质中, 或者经由通信接口等发 送到外部。即, 该记录 / 发送部 1501 与图像显示的情况同样, 根据类标记 θm 分别记录 / 发 送表示检测到被摄体的结果的图像。并且, 如以下的式 27 和式 28 那样对属于各类的运动 信息进行平均, 由此, 还能够对运动信息进行压缩。通常需要按照每个像素保持运动信息, 但是, 如果进行运动信息的平均处理, 则针对一个被摄体保持一个运动信息即可。例如, 在 i i 使用像素 i 的运动矢量 (ut , vt ) 作为运动信息的情况下, 记录 / 发送部 1501 能够计算如 以下的式 27 和式 28 那样按照分割后的区域进行平均的运动信息。
[ 数式 35]
( 式 27) [ 数式 36] ( 式 28)这里, Cm 是属于类 θm 的像素数或移动轨迹数。utcm、 vtcm 分别是属于类 θm 的像素 的运动矢量。图 17 是用于表示从时刻 T 起将 t 张图像作为输入进行类分类并使用其结果 确定的被摄体区域的信息。记录 / 发送部 1501 记录并发送作为识别符的各类标记 θm、 属 于各类标记 θ1、 θ2 的时刻 T 中的图片的像素位置和像素值、 以及与各类标记对应的时刻 m m m m m m T ~时刻 T+t 的运动矢量 uT 、 vT 、 uT+1 、 vT+1 、…、 uT+t 、 vT+t 。当然, 代替使用图像的像素位置和像素值, 记录 / 发送部 1501 也可以针对时刻 T 中的一张图片, 按照每个像素赋予各类 标记进行发送。由此, 仅发送类数的量的运动信息即可, 所以, 与发送 t 张图片的情况相比, 具有能够高效地记录并发送用于表示被摄体区域的信息的效果。 特别地, 与像素数相比, 类 数越少, 越能够高效地记录并发送表示被摄体区域的信息。
( 实施方式 1 ~ 3 的第 2 变形例 )
接着, 作为本发明的实施方式 1 ~ 3 的第 2 变形例, 对附加了根据检测到移动体的 结果来预测移动体的运动的功能的移动体检测装置进行说明。这里, 沿着实施方式 1 进行 说明, 但是, 在实施方式 2、 3 中也能够同样应用。
如图 18 所示, 第 2 变形例的移动体检测装置 100d 通过对图像输入部 101、 移动轨 迹计算部 102、 子类分类部 103、 子类间近似测地距离计算部 104、 区域分割部 105 附加运动 预测部 1701 和输出部 1702, 从而具有预测移动体的运动的功能。
运动预测部 1701 根据检测到被摄体的结果, 根据各类中包含的像素的移动轨迹 计算代表移动轨迹, 根据代表移动轨迹预测移动体的运动, 预测移动体的位置和移动体部 位的位置。
输出部 1702 输出由运动预测部 1701 预测的移动体的位置和移动体部位的位置。
图 19 示出第 2 变形例的移动体检测装置 100d 执行的处理的流程图。 步骤 S301 ~ S305 与实施方式 1 相同, 所以省略说明。
接着, 在步骤 S1801 中, 运动预测部 1701 根据区域分割部 105 进行被摄体检测的 结果, 根据属于各类的移动轨迹, 求出各类的代表点及其代表移动轨迹。
这里, 假设属于类 θm 的像素的移动轨迹表现为 xcm。运动预测部 1701 根据下式 29, 按照每个类 θm 求出代表移动轨迹。这里, 对计算平均移动轨迹作为代表移动轨迹的例 子进行了说明, 但是, 也可以按照像素的移动轨迹 xcm 对下述计算进行加权等, 还可以将与 类在图像上的重心对应的像素的移动轨迹作为代表移动轨迹。
[ 数式 37]
( 式 29)这里, Cm 是属于类 θm 的像素数或像素的移动轨迹数。
图 20 示出根据式 29 按照每个类 θm 求出代表移动轨迹的例子。图 20 仅示出与 对应于某个移动体的类 θ1 和对应于其他移动体的类 θ2 分别相关的代表移动轨迹。图中 的 × 表示分别与时刻 t 对应的代表移动轨迹
[ 数式 38]
的要素即像素位置。根据该方法, 与单纯地求出接近像素的移动轨迹的时间平均 的方法相比, 仅使用运动类似的像素的移动轨迹, 就能够计算代表移动轨迹。因此, 能够以 更高精度求出代表移动轨迹。 这样, 通过按照每个类求出代表移动轨迹, 能够准确且简便地 表现每个被摄体或每个部位的运动。
接着, 在步骤 S1802 中, 运动预测部 1701 根据在步骤 S1801 中计算出的代表移动 轨迹, 预测时刻 T 之前的时刻中的移动体的位置。首先, 说明根据代表移动轨迹计算加速度
并预测时刻 T+1 以后的移动体的位置的例子。 在输入了 3 张以上的时间序列图像的情况下, 如下式 30 那样, 能够按照每个代表移动轨迹
[ 数式 39]
得到加速度矢量 sm。 [ 数式 40] ( 式 30) 这里, utm 是运动矢量, 能够如下式 31 那样表现。 [ 数式 41] ( 式 31)使用式 30 的加速度矢量, 如图 20 中的虚线的箭头和○所示, 运动预测部 1701 能 够按照每个移动体, 根据以下的式 32 预测时刻 T+t’ 中的移动体的位置 posm(T+t’ )。这里, 举出移动体的例子, 但是, 通过利用实施方式 1 的区域分割部 105 增加类数, 或者利用实施 方式 3 的区域分割部 105 减小阈值, 还能够预测移动体的各部位的位置。
[ 数式 42]
( 式 32)然后, 输出部 1702 输出在步骤 S1802 中预测的移动体的位置和移动体部位的位 置。由此, 能够进行考虑了加速度的运动预测。具有如下效果 : 在运动急剧变快或者急剧停 止的情况下, 能够反映该加速度来预测移动体的位置。并且, 代替运动矢量, 当然可以使用 仿射参数。仿射参数能够表现包含旋转运动的运动, 适于表现手腕或脚的回旋运动, 所以, 特别地, 能够更加准确地预测关节物体的位置。
进而, 代替上述运动矢量和加速度, 针对代表移动轨迹 xm, 还能够直接拟合 N 次函 数。在将 T 张以时间序列排列的图像作为输入的情况下, 能够针对代表移动轨迹
[ 数式 43]
中包含的 T 个图像上的位置信息, 拟合 N 次函数。由此, 能够沿着拟合后的函数的 值, 估计时刻 (T+t’ ) 中的图像上的位置 posm(T+t’ )。具体而言, 通过对函数进行拟合, 能 够表现更加平滑的运动, 所以, 能够进行更高精度的预测。特别地, 能够进行沿着拟合后的 函数的预测, 所以, 在拟合后的函数接近原本的运动的情况下, 运动预测的精度高。 当然, 这 些图像上的位置预测还能够用于时间上的内插。
如上所述, 根据本变形例, 能够将运动类似的像素的移动轨迹作为同一类进行计 算, 所以, 能够高精度地求出代表移动轨迹。特别地, 针对关节物体等, 能够表现每个被摄 体、 每个部位的运动, 作为预处理, 不需要设定人物候选区域, 具有能够高精度地预测移动 体的部位位置的效果。
( 实施方式 1 ~ 3 的第 3 变形例 )
接着, 说明本发明的实施方式 1 ~ 3 的第 3 变形例的移动体检测系统。这里, 说明 针对实施方式 1 ~ 3 的处理使用根据运算所需要的存储量而不同的 2 个设备的例子。具体
而言, 移动体检测系统包含移动体检测用数据生成装置和移动体检测装置。移动体检测用 数据生成装置进行所需要的存储量大的处理。 移动体检测用数据生成装置由以个人计算机 等为代表的、 存储容量大且处理速度快的设备实现。移动体检测装置进行所需要的存储量 比移动体检测用数据生成装置的处理的存储量小的处理。 移动体检测装置由以便携电话或 移动终端为代表的、 存储容量小且处理速度慢的设备实现。
下面, 沿着实施方式 1, 使用附图说明实施方式 1 ~ 3 的第 3 变形例, 但是, 在实施 方式 2、 3 中也能够同样应用。
图 21 是示出实施方式 1 的第 3 变形例的移动体检测用数据生成装置的功能结构 的框图。移动体检测用数据生成装置具有图像输入部 101、 移动轨迹计算部 102、 子类分类 部 103、 子类间近似测地距离计算部 104、 类判定用数据输出部 2101。图像输入部 101 ~子 类间近似测地距离计算部 104 执行的处理与实施方式 1 所示的处理相同。即, 图像输入部 101、 移动轨迹计算部 102、 子类分类部 103、 子类间近似测地距离计算部 104 分别执行图 3 所示的图像输入步骤 S301、 移动轨迹计算步骤 S302、 子类分类步骤 S303、 子类间近似测地 距离计算步骤 S304 的动作。下面, 在本变形例中补充重要的部分。
在子类分类部 103 中, 通过子类分类步骤 S303 将 I 个移动轨迹分类为 S 个子类。 另外, I > S。这里, 如上所述, 在使用非专利文献 7 的最短路径法计算测地距离的情况下, 当设数据点数 ( 移动轨迹数 ) 为 N 时, 计算量的等级为 N2logN。此时, 需要在存储器中存储 2 任意数据点间的距离, 所以, 需要移动轨迹数的 2 次方即 N 的存储量。
与此相对, 在子类间近似测地距离计算部 104 中, 通过步骤 S304 计算具有与测地 距离相同的性质的子类间近似测地距离。 这里, 子类间近似测地距离具有如下优点 : 不仅能 2 够削减所述计算量, 还能够由用于存储 S 的数据的存储量实现。另外, N > S, 所以, 能够大 幅削减存储量。例如, 如果以将 100 个类似的移动轨迹分类为一个子类的方式进行处理, 则 能够将与测地距离有关的存储量削减为 1/10000。
接着, 说明类判定用数据输出部 2101。 类判定用数据输出部 2101 在记录介质中记 录以下说明的信息。记录介质使用 SD 卡、 USB 存储器、 便携型硬盘、 CD、 DVD 等即可。
如图 22 所示, 记录在记录介质中的信息包含头信息和体信息。
头信息包含 : 构成动态图像的图片的尺寸 (X, Y)、 构成动态图像的图片的张数即 图片张数 (T)、 从动态图像得到的移动轨迹的数量即移动轨迹数 (N)、 以及作为类似的移动 轨迹的集合的子类的数量即子类数 (S)。
图 23 是用于说明图片的尺寸 (X, Y) 和图片张数 (T) 的图。如图 23 所示, 动态图 像由 T 张图片构成, 各图片的尺寸为 X×Y 像素。
图 24 是用于说明移动轨迹数 (N) 的图。如图 24 所示, 假设从动态图像得到由直 线或曲线所示的 N 个移动轨迹。在图 24 的例子中, N = 12。
图 25 是用于说明子类数 (S) 的图。9 个较大的圆圈记号分别表示子类, 各个较大 圆圈中包含的较小圆圈表示同一子类内的移动轨迹。在图 25 的例子中, S = 9。
体信息包含 : 构成动态图像的上述图片张数的图片、 带子类标记的移动轨迹矢量、 以及子类间近似测地距离矩阵。
带子类标记的移动轨迹矢量包含表示从动态图像得到的移动轨迹数的移动轨迹 的数据、 以及表示各移动轨迹所属的子类的数据。图 26 是用于说明带子类标记的移动轨迹矢量的图。图 26 示出 5 个带子类标记的移动轨迹矢量。例如, 说明最上面的带子类标 记的移动轨迹矢量。该带子类标记的移动轨迹矢量是如下的矢量 : 表示移动轨迹所属的子 类是子类 a, 该移动轨迹的 4 张图片 (t = 1 ~ 4) 中的坐标为 (a1x1, a1y1)、 (a1x2, a1y2)、 (a1x3, a1y3)、 (a1x4, a1y4)。
子类间近似测地距离矩阵是关于各子类包含表示该子类与其他子类之间的类似 性的子类间近似测地距离的矩阵, 是图 8(b) 所示的矩阵。
图 27 是示出记录在记录介质中的信息的具体例的图。如该图所示, 在头信息中, 作为图片尺寸 (X)、 图片尺寸 (Y)、 图片张数 (T)、 移动轨迹数 (N)、 子类数 (S), 分别存储有 640、 480、 4、 5、 3。另外, 这里, 作为图片尺寸 (X)、 图片尺寸 (Y)、 图片张数 (T)、 移动轨迹数 (N)、 子类数 (S), 使用具体的数值进行说明, 但是, 不限于各个数值。
并且, 在体信息中包含 4 张图片的图像数据、 针对 5 个移动轨迹的带子类标记的移 动轨迹矢量、 以及子类间近似测地距离矩阵。 例如, 第 1 个带子类标记的移动轨迹矢量为 (a a1x1 a1y1 a1x2 a1y2 a1x3a1y3 a1x4 a1y4), 表示上述图 26 的最上面的带子类标记的移动 轨迹矢量的信息。 子类间近似测地距离矩阵关于全部子类的组合存储子类内距离或子类间 近似测地距离。例如, 在 (a, a) 的列中存储有子类 a 与子类 a 的子类内距离 faaIntra, 在 (a, b) 的列中存储有子类 a 与子类 b 的子类间近似测地距离 gab’ 。 另外, 通过类判定用数据输出部 2101 中包含的类判定用数据生成部 2101A 生成记 录在该记录介质中的信息。例如, 类判定用数据生成部 2101A 从图像输入部 101 取得图片 尺寸 (X, Y)、 图片尺寸 (Y)、 图片张数 (T) 以及图像数据。类判定用数据生成部 2101A 从移 动轨迹计算部 102 取得移动轨迹数。类判定用数据生成部 2101A 从子类分类部 103 取得子 类数 (S)。类判定用数据生成部 2101A 从移动轨迹计算部 102 取得带子类标记的移动轨迹 矢量中的表示移动轨迹的数据, 从子类分类部 103 取得表示子类的数据。类判定用数据生 成部 2101A 从子类间近似测地距离计算部 104 取得子类间近似测地距离矩阵。类判定用数 据生成部 2101A 汇集所取得的这些信息, 生成记录在记录介质中的信息。
通过在记录介质中记录子类间近似测地距离矩阵, 与关于全部移动轨迹的组合存 2 储测地距离的情况相比, 能够将存储量从 N 个数据的存储容量削减为 S2(N > S) 个数据的 存储容量。 因此, 使用上述记录介质, 能够使用搭载存储量小于移动体检测用数据生成装置 的移动体检测装置进行处理。
接着, 说明移动体检测装置。图 28 是示出移动体检测装置的功能结构的框图。移 动体检测装置是通过执行确定动态图像中的移动体的全部或一部分区域的区域分割来检 测动态图像中的移动体的装置, 其包含 : 类判定用数据输入部 2102、 区域分割部 105、 输出 部 106。类判定用数据输入部 2102 从上述记录介质中读入记录在该记录介质中的信息。区 域分割部 105 根据类判定用数据输入部 2102 读入的数据来执行区域分割。 区域分割部 105 和输出部 106 执行的处理与实施方式 1 所示的处理相同。即, 区域分割部 105 和输出部 106 分别执行图 3 所示的区域分割步骤 S305 和图像输出步骤 S306 的动作。
类判定用数据输入部 2102 从记录介质中读入头信息, 确保与 T 张输入图像尺寸 (X×Y×T) 一致的存储器 ( 存储区域 )。接着, 类判定用数据输入部 2102 根据移动轨迹数 N 和图片张数 T, 确保用于存储 (2T+1)×N 的数据的存储器。这里, 如式 1 所示, 各移动轨迹 矢量是由二维像素坐标构成的矢量, 所以, 需要用于存储 2T 的像素坐标的存储器, 进而, 由
于对各移动轨迹矢量赋予子类标记, 所以, 需要用于存储子类标记的存储器。然后, 类判定 用数据输入部 2102 根据头信息中的子类数 S, 确保用于存储保持子类间近似测地距离矩阵 2 所需要的 S 个数据的存储器。类判定用数据输入部 2102 在确保了上述存储器之后, 读入 各个信息。 另外, 子类间近似测地距离矩阵是对称行列, 所以, 实际上, 只要确保用于存储用 于保持子类间近似测地距离的 SC2 个数据的存储器即可。
接着, 在区域分割步骤 S305 中, 区域分割部 105 使用子类间近似测地距离, 对类似 的移动轨迹 ( 子类 ) 的集合进行统合 / 非统合的判断。具体方法与实施方式 1 相同, 所以 省略说明。
并且, 在图像输出步骤 S306 中, 输出部 106 输出由区域分割部 105 进行的动态图 像中的移动体的检测结果。具体方法与实施方式 1 相同, 所以省略说明。
如上所述, 使用移动体检测用数据生成装置计算移动轨迹和子类间近似测地距 离, 并保存在记录介质中。然后, 经由记录介质, 使用移动体检测装置进行区域分割, 由此, 能够提取被摄体。
这样, 通过保持与图片尺寸、 图片张数、 移动轨迹数、 子类数有关的信息作为头, 移 动体检测装置能够确保区域分割所需要的信息的存储。并且, 使用子类间近似测地距离矩 阵作为区域分割所需要的信息, 所以, 与使用移动轨迹间的测地距离的矩阵即测地距离矩 阵进行区域分割的情况相比, 具有能够以较少的存储量进行区域分割的效果。 由此, 具有能够使用存储容量受限的设备作为移动体检测装置的优点。 例如, 在便 携电话等移动设备中, 通过使用本变形例中的区域提取的结果, 能够着眼于特定的被摄体 进行变焦显示或者进行追踪。
另外, 移动体检测用数据生成装置也可以向记录介质输出至少包含子类间近似测 地距离的数据, 作为用于在移动体检测装置中进行区域分割的最低限度的数据。 并且, 移动 体检测装置也可以从记录介质受理至少包含子类间近似测地距离的数据, 进行区域分割。 该情况下, 也可以不具有输出部 106。
以上, 根据实施方式及其变形例对本发明的移动体检测方法和移动体检测装置进 行了说明, 但是, 本发明不限于这些实施方式和变形例。 在不脱离本发明主旨的范围内对各 实施方式实施本领域技术人想到的各种变形而实现的方式也包含在本发明中。
并且, 任意组合各实施方式中的特征结构要素而实现的方式也包含在本发明中。
并且, 上述实施方式的移动体检测装置具有图像输入部 101 和移动轨迹计算部 102, 但是, 本发明不将这些结构要素作为必须的要素。 即, 在预先计算出构成动态图像的多 个块中的每个块的图像的移动轨迹的情况下, 移动体检测装置 100 也可以从外部取得这种 移动轨迹, 并对所取得的移动轨迹执行步骤 S303 ~ S306 的处理。
并且, 本发明作为移动体检测装置来实现, 但是, 当然能够作为对在动态图像中具 有运动的目标区域进行提取或分割的图像处理装置来实现。
产业上的可利用性
本发明作为根据多张图片中的运动对包含在形状变化的同时进行移动的人物等 移动体的图像进行区域提取从而检测图像中的移动体的移动体检测装置, 例如能够用作在 运动分析装置、 监视装置、 摄像机或 TV 等 AV 设备中内置的移动体检测装置等。
符号说明100、 100a、 100c、 100d : 移动体检测装置 ; 101 : 图像输入部 ; 102 : 移动轨迹计算部 ; 103、 103a : 子类分类部 ; 104 : 子类间近似测地距离计算部 ; 105 : 区域分割部 ; 106、 1702 : 输出部 ; 201 : 照相机 ; 202 : 计算机 ; 203 : 显示器 ; 204 : I/F ; 205 : CPU ; 206 : ROM ; 207 : RAM ; 208 : HDD ; 209 : 视频卡 ; 1501 : 记录 / 发送部 ; 1701 : 运动预测部 ; 2101 : 类判定用数据输出 部; 2101A : 类判定用数据生成部 ; 2102 : 类判定用数据输入部。