《多特征联合哈希信息检索方法.pdf》由会员分享,可在线阅读,更多相关《多特征联合哈希信息检索方法.pdf(28页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 (43)申请公布日 (21)申请号 201410598595.5 (22)申请日 2014.10.30 G06F 17/30(2006.01) (71)申请人 南京信息工程大学 地址 215101 江苏省苏州市吴中区木渎镇中 山东路 70 号吴中科技创业园 2 号楼 2310 室 (72)发明人 邵岭 蔡子贇 刘力 余孟洋 (74)专利代理机构 南京经纬专利商标代理有限 公司 32200 代理人 吴树山 (54) 发明名称 多特征联合哈希信息检索方法 (57) 摘要 本发明涉及一种多特征联合哈希信息检索方 法, 其特征在于包括如下基本步骤 : 一是建立目 标函数 : 保护目。
2、标空间的数据分布, 同时得到 NMF 中的紧凑矩阵基并且减少冗余 ; 二是交替优化 : 通过一个迭代的过程, 优化 U 和 V, 得到基算子 U 和低维数据V的更新规则 ; 三是整体收敛 : 通过原 始的目标函数, 然后进行交替迭代 ; 四是哈希函 数的生成 : 通过计算训练数据和测试样本之间的 汉明距即 XOR 运算, 得出最终的结果 ; 五是复杂度 分析 : 对上述步骤1-4的方法进行复杂度分析。 本 发明能够有效地保护数据的概率分布, 减少低维 数据的冗余, 使得学习到一个可融合从多个源中 得到的多种表示, 同时通过 RKNMF 来保护高维联 合分布和获得正交基的哈希嵌入函数。 (51)。
3、Int.Cl. (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书6页 说明书11页 附图10页 (10)申请公布号 CN 104462196 A (43)申请公布日 2015.03.25 CN 104462196 A 1/6 页 2 1. 一种多特征联合哈希信息检索方法, 其特征在于包括如下基本步骤 : 步骤 1 建立目标函数 : 保护目标空间的数据分布, 用热核公式构建相关的 NN 的核矩 阵, 同时得到 NMF 中的紧凑矩阵基并且减少冗余 ; 步骤 2 交替优化 : 通过一个迭代的过程, 优化 U 和 V, 得到基算子 U 和低维数据 V 的更 新规则 ; 步骤 3 。
4、整体收敛 : 通过原始的目标函数, 然后进行交替迭代 ; 步骤 4 哈希函数的生成 : 将得出的低维实数根据门限值的划分转换为二进制码, 使用 多变量的回归方法来准确地找到相关的哈希函数, 计算训练数据和测试样本之间的汉明距 即 XOR 运算, 得出最终的结果 ; 步骤5复杂度分析 : 对上述步骤1-4的多特征联合哈希信息检索方法进行复杂度分析。 2. 根据权利要求 1 所述的一种多特征联合哈希信息检索方法, 其特征在于所述步骤 1 建立目标函数包括如下具体步骤 : 步骤 1.1 : 给出第 i 个特征训练数据用热核公式构建相关的 NN 的核矩阵 :其中 是相关的可变参 数, 从每一个特征数据。
5、 K1, Kn 可以计算出多核矩阵, 步骤 1.2 : 定义融合矩阵为其中为得到一个更加有 意义的低维矩阵分解, 为二进制码 V v1, vN 设定一个约束作为相似概率正则化, 可 利用它保护目标空间的数据分布, 其优化可表示如下 : 其中,是在第 i 个特征空间中和之间的对称联合概率 ; 采用高斯函数去衡量它 : 其中, 是高斯平滑参数,可以估量欧几里德距离 ; 步骤 1.3 : 第 i 个特征的相似概率正则化可以被降低成 : 其 中, Li D(i)-W(i),是 对 称 相 似 矩 阵, D(i)是 输 入 为 的对角矩阵 ; 为同时得到 NMF 中的紧凑矩阵基和减少冗余, 希望 NMF。
6、 的基矩 阵尽可能的正交, 如 UTU-I 0, 同时最小化 |UTU-I|2并且让 U 近似正交 ; 步骤 1.4 : 结合以上的两个约束条件进行优化如下 : 权 利 要 求 书 CN 104462196 A 2 2/6 页 3 其中, 和 是两个可以平衡 NMF 的近似误差和附加约束的正系数。 3. 根据权利要求 1 所述的一种多特征联合哈希信息检索方法, 其特征在于所述步骤 2 交替优化包括如下具体步骤 : 步骤 2.1 : 首先把公式 (6) 中不连续的 V 0, 1dN放到域 V RdN上, 为保持 NMF 去 获得一个更优化的解, 通过一个迭代的过程, 优化 (U,V) 分为两步,。
7、 其 在区间 (1, n)之间, 每一步的U、 V和都被不停的优化, 并且下一步再次迭代, 直到收敛迭代过程才 停止 ; 步骤 2.2 : 优化 U 和 V 首先确定 , 替换和运用拉格朗日乘数函 数 : 公式 (7) 中的 和 是两个矩阵, 为使 U 和 V 都大于等于 0, 其中所有的元素均为拉 格朗日乘数, 然后让的偏导数相对于 U 和 V 为 0, 如即可得 : 步骤 2.3 : 运用 KKT 条件, 有互补松弛性条件 ijUij 0 和在公式 (8) 和 (9) 的相关元素乘上 Uij和 Vij, 对 Uij和 Vij有以下的公式 : (-KVT+UVVT+2UUTU-2U)ijUi。
8、j 0 (10), (-UTK+UTUV+VL)ijVij 0 (11), 于是, 和标准的 NMF 过程类似, 可得到更新规则如下 : 其中和为确保 U 和 V 中的所有元素均为正值, U 需要进 行归一化, U 和 V 都具有收敛性, 已经证明了 U 和 V 的每一次更新, 目标函数都单调不增加 ; 步骤 2.4 : 为确定 U 和 V, 忽略不相干的范数, 定义拉格朗日函数如下 : 权 利 要 求 书 CN 104462196 A 3 3/6 页 4 其中, 和 (1, n) 是拉格朗日乘数, 相对于 , 和 的的偏导数, 如和需要 : 同时有互补松弛条件 : jj 0, j 1, n 。
9、(18), 步骤 2.5 : 对一些 j 而言, j 0, 尤其 J j|j 0, 优化的结果会包含一些 0 ; 在 这种情况下, 与最小化的优化过程不同 ; 不失一般性, 设然后, 0 ; 从公式 (15), 可得 : 如果将以上的公式转化到矩阵中并且定义 Tj tr(UVKj)-tr(VLjVT)/2, 可得 : 可用 AT B 表示公式 (20), 矩阵 A 实际上是 Ki基于 F 内积的格拉姆矩阵 tr(KiKjT) tr(KiKj) ; 步骤 2.6 : 让 M (vec(K1), vec(Kn), 其中 vec(Ki) 是 Ki的向量化, 然后 A MTM, 从 n 个不同的特征得。
10、出的核矩阵 K1, Kn是线性不相关的 ; 结合公式 (17) 且消除 , 可 得到以下线性公式 : 权 利 要 求 书 CN 104462196 A 4 4/6 页 5 可用表示公式 (21) ; 根据不同特征的变化, 1 (1,, 1) 和 A 中所有行都是线 性不相关的 ; 然后有于是, 的逆存在并且 4. 根据权利要求 1 所述的一种多特征联合哈希信息检索方法, 其特征在于所述步骤 3 整体收敛为如下具体步骤 : 步骤 3.1 : 通过 L(U,V,) 在公式 (6) 定义原始的目标函数, 然后交替迭代过程可以表 示为 : 于是, 有下面的不等式 : L(U(m-1), V(m-1),。
11、 (m-1) L(U(m), V(m), (m-1) L(U(m), V(m), (m) L(U(m+1), V(m+1), (m) L(U(m+1), V(m+1), (m+1) . 即 : m 时, L(U(m), V(m), (m) 是单调不增加的, 有 L(U,V,) 0, 然后交替迭代收 敛。 5. 根据权利要求 1 所述的一种多特征联合哈希信息检索方法, 其特征在于所述步骤 4 哈希函数的生成包括如下具体步骤 : 步骤 4.1 : 计算出权向量 (1, n), 融合核矩阵 K 和联合概率拉普拉斯矩阵 L。于是, 从公式(12)和公式(13)得到多特征 RKNMF基URNd和低维表示。
12、VRdN, 其中 d Di, i 1,, n, 将以上的低维实数 V v1, vN 表示且根据门限值的划分转换 为二进制码, 如果 vp中的第 l 个元素比门限值大, 那么 否则为 0, 其中 p 1,, N 和 l 1,, d ; 步骤 4.2 : 为确保语义哈希的效率, 一个好的语义哈希算法应该是熵最大化的 ; 同时, 从信息量的原则可知, 通过一个均匀的概率分布, 信源可以到达一个 最大的熵 ; 如果在数 据上的码的熵很小, 整个文件会被映射到一小部分的码上 ; 为满足熵最大化原则, vp中元素 的门限值采用 Vp的中值 ; 因此, 一半数值会被设为 1, 另外一半设为 0, 以将实数码。
13、计算成二 进制码 ; 步骤 4.3 : 使用多变量的回归方法来准确地找到相关的哈希函数 ; 在分布中 Yi|Xi Bernoulli(pi), i 1,, n, 对参数为 的函数 Pr(Yi 1|Xi x) h(x), 似然函数为 根据最大对数似然函数准则, 定义逻辑回 归函数为 : 其中,是 vp中的每一个部分的回归函数 ; 公式 ; log(x) (log(x1), log(xn)T对 x (x1, xn)T Rn;表示了内积 ; 是 大小为 dd 的相关的回归矩阵 ; 1 表示了 N1 矩阵, 采用 |2作为逻辑回归中避免 过拟合的正则化项 ; 权 利 要 求 书 CN 10446219。
14、6 A 5 5/6 页 6 步骤 4.4 : 为了最小化 J(), 提供一个标准的梯度下降算法 ; 学习率为 的更新公式 为 : 更新公式会当 j+1和 j之间的差异, |j+1-j|2, 到达收敛, 然后可得到回归矩阵 , 再通过公式 (24) 的嵌入, 如最近整数函数 ; 步骤 4.5 : 上述方法给出一个样本, 可通过热核函数, 先计算出每一个特征的相关 核矩阵其中是 N1 矩阵,然后通过优化权重 融 合这些核 : 和通过线性映射矩阵P(UTU)-1UT获得低维实数表示, 由于h是sigmoid 函数, 最终新的样本的哈希码被计算得出 : 其中, 函数是对 h每一个值取最近整数。事实上,。
15、 门限值为 0.5, 它有属性 h (0,1) 去二进制化如果 h(PKnew) 的输出比特比 0.5 大, 标这个比特为 1, 否则 为 0, 这种情况下, 可得到对任意数据点的最终多特征联合哈希码 ; 步骤 4.6 : 上述是一种嵌入方法, 所有的训练样本和测试样本都是经过多特征 RKNMF 优 化和逻辑回归去确保它们在同一个子空间, 不需要再训练, 相关的 MAH 在下面的过程中描 述 : 多特征联合哈希检索方法 (MAH), 输入 : 通过热核计算从 n 个不同的特征得到的一组训练核矩阵 : K1, Kn ; 哈希码的目标维度 d ; 逻辑回归的学习率 r 和正则化参数 , , ; 输。
16、出 : 核权重 (1, n) 基矩阵 U 和回归矩阵 ; 具体表达如下 : 一是通过公式 (4) 对每一个特征计算相似矩阵 W(i); 二是初始化 (1/n,1/n,1/n) ; 三是重复 ; 四是通过公式 (12) 和公式 (13) 计算基矩阵 U 和低维矩阵表示 V ; 五是通过公式 (21) 获取核权重 六是直到收敛 ; 七是通过公式 (23) 计算回归矩阵 , 最终的对一个样本的 MAH 编码在公式 (24) 中定 义。 6. 根据权利要求 1 所述的一种多特征联合哈希信息检索方法, 其特征在于所述步骤 5 复杂度分析为如下具体步骤 : MAH 学习的复杂度主要包含两个部分 : 第一部。
17、分是热核的构建和对不同特征的相似概 率的正则化, 如Ki和Li; 从3.1可得, 该部分的时间复杂度为第二部分是 交替优化, 在更新 (U,V) 的步骤, 矩阵分解的时间复杂度为 O(N2d), 的更新在 MAH 中的复 权 利 要 求 书 CN 104462196 A 6 6/6 页 7 杂度为 O(n2N2) ; 所以, MAH 的时间复杂度为其中 T 为 交替优化的迭代次数 ; 从经验分析得出, T 会比 10 小, 也就是 MAH 会在 10 个循环内收敛。 权 利 要 求 书 CN 104462196 A 7 1/11 页 8 多特征联合哈希信息检索方法 技术领域 0001 本发明属。
18、于计算机信息数据处理技术领域, 特别是涉及一种用于计算机视觉、 数 据挖掘、 机器学习或相似搜索的多特征联合哈希信息检索方法。 背景技术 0002 哈希码的学习在信息处理及分析等领域中起着关键的作用, 如物体识别、 图像检 索和文档理解等。随着计算机技术的进步和万维网的发展, 大量的数字数据需要相似信息 的可拓展检索。相似性搜索的最基本也即最本质的方法是最近邻搜索 : 给一个查询图像, 在一个巨大的数据库中寻找出和其最相似的一张图片并且对这个查询图像贴上与最近邻 域相同的标签。由于实际应用中数据库较大, 最近邻域搜索是不可扩展的线性搜索方法 (O(N)。 为了克服计算的复杂度问题, 近来一些基。
19、于树的搜索方法被提出去分割数据空间, 其中, KD- 树和 R- 树被成功地应用在了快速响应检索数据中。然而, 这些方法并不适合于 高维数据并且相对于线性而言不能保证快速搜索。实际上, 由于视觉算子经常会有成百甚 至上千的维度, 大部分的基于视觉的任务都会遭受维度灾难。 于是, 又有一些哈希方法提出 了有效地从高维特征空间到保形的低维汉明空间的数据嵌入, 其中在低维空间的中, 可以 找到给出的测试样本的最近邻的估计和次线性的时间复杂度。 0003 最著名的哈希方法之一是基于保形的局部敏感哈希 (LSH)。LSH 简单的使用随机 线性投影 ( 随机门限值 ) 使欧几里德空间中的数据点靠近。谱哈希。
20、是典型的非监督哈希方 法 , 用多样本的拉普拉斯 - 贝尔特拉米特征函数去确定二进制码。此外, PCA 哈希 (PCAH) 这样的原则线形投影比随机投影哈希有着更好的量化。另外一种比较出名的哈希方法, 锚 图哈希 (AGH) 可以通过易处理的低阶邻接矩阵学习紧凑的二进制码。AGH 可以把图拉普拉 斯特征向量推到特征函数上。 0004 然而, 以前的哈希方法都是主要集中于单个特征。 在它们的构架中, 只有一种特征 算子被用作学习哈希函数。 事实上, 为了获得一个更综合的描述, 图片或者物体经常通过不 同种类的特征表示, 同时每一个特征有它自己的特点。只有融合这些不同的特征算子到哈 希函数中, 才。
21、会得到多特征的哈希方法。最近, 为了有效的相似性搜索, 一些多特征的哈希 方法被提出, 如多特征的锚图哈希 (MVAGH), 连续更新的多特征谱哈希 (SU-MVSH), 多特征 哈希 (MVHCS), 多信息源的复合哈希 (CHMIS) 和深度多特征哈希 (DMVH)。这些方法主要依 靠谱, 图和深度学习的方法去完成数据结构的保形。 然而, 单纯的只结合以上方法的哈希对 噪声敏感, 并且有着很高的计算复杂度。 0005 在数据挖掘中, NMF 方法不同于其它的含有正负值的嵌入方法, 适合子空间的学 习, 它提供了包含物体局部部分的基, 可用于聚类, 协同过滤, 孤立点监测等。如 NMF 可以。
22、 学习物体的非负部分, 给出一个非负数据的矩阵 :X 的每一列都是一 个样本数据, NMF 的目标是找到可以近似的表达原始矩阵的两个满秩的非负矩阵和 如 X UV ; 实际上总是有 d min(D,N), 于是得到以下最小化的目标函数 : 说 明 书 CN 104462196 A 8 2/11 页 9 0006 0007 此处 | 是弗洛宾尼斯范数, 为了优化上面的目标函数, 迭代更新过程 : 0008 0009 现有文献已经证明以上的更新过程可以找到的局部最小, 从 NMF 得到的矩阵 V 为低维表示, 矩阵 U 为基矩阵。尽管 NMF 方法优于现有其它方法, 但是现有的 NMF 算法因 无。
23、法解决保护原始高维数据的局部及总体结构的问题, 所以存在获得的低维数据无法最大 程度的继承高维数据的问题。 0010 综上所述, 现有技术所存在的不足可以归纳为 : 一是由于视觉算子经常会有成百 甚至上千的维度, 大部分的基于视觉的任务都会遭受维度灾难 ; 二是以前的哈希方法都是 主要集中于单个特征, 在它们的构架中, 只有一种特征算子被用作学习哈希函数 ; 三是为了 有效的相似性搜索, 虽然一些多特征的哈希方法被提出, 但是这些方法的哈希对噪声敏感, 并且有着很高的计算复杂度。 发明内容 0011 本发明的目的是为克服现有技术存在的不足而提供一种多特征联合哈希信息检 索方法 (MAH), 本。
24、发明运用正则化核非负矩阵分解 (RKNMF) 方法, 能够有效地保护数据的概 率分布, 减少低维数据的冗余, 使得学习到一个可融合从多个源中得到的多种表示, 同时通 过 RKNMF 来保护高维联合分布和获得正交基的哈希嵌入函数。 0012 根据本发明提出的一种多特征联合哈希信息检索方法, 其特征在于包括如下基本 步骤 : 0013 步骤 1 建立目标函数 : 保护目标空间的数据分布, 用热核公式构建相关的 NN 的 核矩阵, 同时得到 NMF 中的紧凑矩阵基并且减少冗余 ; 其具体步骤如下 : 0014 步骤 1.1 : 给出第 i 个特征训练数据用热核公式构建相关 的 NN 的核矩阵 :其中。
25、 是相关的可变 参数, 从每一个特征数据 K1, Kn) 可以计算出多核矩阵, 0015 步骤 1.2 : 定义融合矩阵为为得到一个更加有 意义的低维矩阵分解, 为二进制码Vv1,vN设定一个约束作为相似概率正则化, 可利 用它保护目标空间的数据分布, 其优化可表示如下 : 0016 0017 其中,是在第 i 个特征空间中和之间的对称联合概率 ; 采用高斯函数去衡量它 : 说 明 书 CN 104462196 A 9 3/11 页 10 0018 0019 其中, 是高斯平滑参数,可以估量欧几里德距离 ; 0020 步骤 1.3 : 第 i 个特征的相似概率正则化可以被降低成 : 0021 。
26、0022 其中,是对称相似矩阵, D(i)是输入为 的对角矩阵 ; 为同时得到 NMF 中的紧凑矩阵基和减少冗余, 希望 NMF 的基矩 阵尽可能的正交, 如 UTU-I 0, 同时最小化 |UTU-I|2并且让 U 近似正交 ; 0023 步骤 1.4 : 结合以上的两个约束条件进行优化如下 : 0024 0025 其中, 和 是两个可以平衡 NMF 的近似误差和附加约束的正系数 ; 0026 步骤2交替优化 : 通过一个迭代的过程, 优化U和V, 得到基算子U和低维数据V的 更新规则 ; 其具体步骤如下 : 0027 步骤2.1 : 首先把公式(6)中不连续的V0, 1dN放到域VRdN上。
27、, 为保持NMF 去获得一个更优化的解, 通过一个迭代的过程, 优化(U,V)分为两步, 其在区间(1, , n)之间, 每一步的U、 V和都被不停的优化, 并且下一步再次迭代, 直到收敛迭代过程才 停止 ; 0028 步骤 2.2 : 优化 U 和 V 首先确定 , 替换和运用拉格朗日乘 数函数 : 0029 0030 公式 (7) 中的 和 是两个矩阵, 为使 U 和 V 都大于等于 0, 其中所有的元素均 为拉格朗日乘数, 然后让的偏导数相对于 U 和 V 为 0, 如即可得 : 0031 0032 0033 步骤 2.3 : 运用 KKT 条件, 有互补松弛性条件 ijUij 0 和 。
28、ijVij 0,在 说 明 书 CN 104462196 A 10 4/11 页 11 公式 (8) 和 (9) 的相关元素乘上 Uij和 Vij, 对 Uij和 Vij有以下的公式 : 0034 (-KVT+UVVT+2UUTU-2U)ijUij 0 (10), 0035 (-UTK+UTUV+VL)ijVij 0 (11), 0036 于是, 和标准的 NMF 过程类似, 可得到更新规则如下 : 0037 0038 0039 其中和为确保 U 和 V 中的所有元素均为正值, U 需 要进行归一化, U 和 V 都具有收敛性, 已经证明了 U 和 V 的每一次更新, 目标函数都单调不 增加 。
29、; 0040 步骤 2.4 : 为确定 U 和 V, 忽略不相干的范数, 定义拉格朗日函数如下 : 0041 0042 其中, 和 (1, n) 是拉格朗日乘数, 相对于 , 和 的的偏导 数, 如和需要 : 0043 0044 0045 0046 同时有互补松弛条件 : 0047 jj 0, j , n (18), 0048 步骤 2.5 : 对一些 j 而言, j 0, 尤其 J j|j 0, 优化的结果会包含一些 0 ; 在这种情况下, 与最小化 |j JjKj-UV|2的优化过程不同 ; 不失一般性, 设 j 0, 然后, 0 ; 从公式 (15), 可得 : 0049 0050 如果。
30、将以上的公式转化到矩阵中并且定义 Tj tr(UVKj)-tr(VLjVT)/2, 可得 : 说 明 书 CN 104462196 A 11 5/11 页 12 0051 0052 可用 AT B 表示公式 (20), 矩阵 A 实际上是 Ki基于 F 内积的格拉姆矩阵 0053 步骤 2.6 : 让 M (vec(ki),, vec(Kn), 其中 vec(Ki) 是 Ki的向量化, 然后 A MTM, 从 n 个不同的特征得出的核矩阵 K1,, Kn是线性不相关的 ; 结合公式 (17) 且消除 , 可得到以下线性公式 : 0054 0055 可用表示公式 (21) ; 根据不同特征的变化。
31、, 1 (1,, 1) 和 A 中所有行都 是线性不相关的 ; 然后有于是, 的逆存在并且 0056 步骤 3 整体收敛 : 通过原始的目标函数, 然后进行交替迭代 ; 其具体步骤如下 : 0057 步骤 3.1 : 通过 L(U,V,) 在公式 (6) 定义原始的目标函数, 然后交替迭代过程可 以表示为 : 0058 0059 于是, 有下面的不等式 : 0060 0061 即 : m 时, L(U(m), V(m), (m) 是单调不增加的, 有 L(U,V,) 0, 然后交替迭 代收敛 ; 0062 步骤 4 哈希函数的生成 : 将得出的低维实数根据门限值的划分转换为二进制码, 使用多变。
32、量的回归方法来准确地找到相关的哈希函数, 计算训练数据和测试样本之间的汉 明距即 XOR 运算, 得出最终的结果 ; 其具体步骤如下 : 0063 步骤4.1 : 计算出权向量(1,, n), 融合核矩阵K和联合概率拉普拉斯矩 阵 L。于是, 从公式 (12) 和公式 (13) 得到多特征 RKNMF 基 U RNd和低维表示 V RdN, 其中 d Di, i 1,, n, 将以上的低维实数 V v1, vN 表示且根据门限值的划分 转换为二进制码, 如果 vp中的第 个元素比门限值大, 那么否则为 0, 其中 p 1, , N 和 l 1, d ; 说 明 书 CN 104462196 A。
33、 12 6/11 页 13 0064 步骤 4.2 : 为确保语义哈希的效率, 一个好的语义哈希算法应该是熵最大化的 ; 同 时, 从信息量的原则可知, 通过一个均匀的概率分布, 信源可以到达一个最大的熵 ; 如果在 数据上的码的熵很小, 整个文件会被映射到一小部分的码上 ; 为满足熵最大化原则, vp中元 素的门限值采用 vp的中值 ; 因此, 一半数值会被设为 1, 另外一半设为 0, 以将实数码计算成 二进制码 ; 0065 步骤 4.3 : 使用多变量的回归方法来准确地找到相关的哈希函数 ; 在分布中 Yi|Xi Bernoulli(pi), i 1,, n, 对参数为 的函数 Pr(。
34、Yi 1|Xi x) h(x), 似 然函数为根据最大对数似然函数准则, 定 义逻辑回归函数为 : 0066 0067 其中,是 vp中的每一个部分的回归函数 ; 公式 : 0068 log(x) (log(x1), log(xn)T对 x (x1,xn)T Rn; 表示了内 积 ; 是大小为 dd 的相关的回归矩阵 ; 1 表示了 N1 矩阵, 采用 |2作为逻辑回归 中避免过拟合的正则化项 ; 0069 步骤 4.4 : 为了最小化 J(), 提供一个标准的梯度下降算法 ; 学习率为 的更新 公式为 : 0070 0071 更新公式会当 j+1和 j之间的差异, |j+1-j|2, 到达收。
35、敛, 然后可得到回归 矩阵 , 再通过公式 (24) 的嵌入, 如最近整数函数 ; 0072 步骤 4.5 : 上述方法给出一个样本, 可通过热核函数, 先计算出每一个特征的相 关核矩阵其中是 N1 矩阵,然后通过优化权重 融合这些核 : 和通过线性映射矩阵P(UTU)-1UT获得低维实数表示, 由于h是sigmoid 函数, 最终新的样本的哈希码被计算得出 : 0073 0074 其中, 函数是对 h每一个值取最近整数。事实上, 门限值为 0.5, 它有属性 h (0,1) 去二进制化如果 h(PKnew) 的输出比特比 0.5 大, 标这个比特为 1, 否则 为 0, 这种情况下, 可得到。
36、对任意数据点的最终多特征联合哈希码 ; 0075 步骤 4.6 : 上述是一种嵌入方法, 所有的训练样本和测试样本都是经过多特征 RKNMF 优化和逻辑回归去确保它们在同一个子空间, 不需要再训练, 相关的 MAH 在下面的过 程中描述 : 说 明 书 CN 104462196 A 13 7/11 页 14 0076 多特征联合哈希检索方法 (MAH), 输入 : 0077 通过热核计算从 n 个不同的特征得到的一组训练核矩阵 : K1,, Kn ; 0078 哈希码的目标维度 d ; 0079 逻辑回归的学习率 r 和正则化参数 , ; 0080 输出 : 核权重 (1, n) 基矩阵 U 。
37、和回归矩阵 ; 0081 一是通过公式 (4) 对每一个特征计算相似矩阵 W(i); 0082 二是初始化 (1/n,1/n,1/n) ; 0083 三是重复 ; 0084 四是通过公式 (12) 和公式 (13) 计算基矩阵 U 和低维矩阵表示 V ; 0085 五是通过公式 (21) 获取核权重 0086 六是直到收敛 ; 0087 七是通过公式 (23) 计算回归矩阵 , 最终的对一个样本的 MAH 编码在公式 (24) 中定义 ; 0088 步骤 5 复杂度分析 : 对上述步骤 1-4 的多特征联合哈希信息检索方法进行复杂度 分析 ; 其具体步骤如下 : 0089 MAH 学习的复杂度。
38、主要包含两个部分 : 第一部分是热核的构建和对不同特征的相 似概率的正则化, 如Ki和Li; 从3.1可得, 该部分的时间复杂度为第二部 分是交替优化, 在更新 (U,V) 的步骤, 矩阵分解的时间复杂度为 O(N2d), 的更新在 MAH 中 的复杂度为 O(n2N2) ; 所以, MAH 的时间复杂度为其 中 T 为交替优化的迭代次数 ; 从经验分析得出, T 会比 10 小, 也就是 MAH 会在 10 个循环内 收敛。 0090 本发明与现有技术相比其显著优点在于 : 一是本发明建立的目标函数能够高效地 解决由非负矩阵分解和逻辑回归的问题, 首创了 NMF 和 MAH 成功地应用于大比。
39、例的相似性 信息搜索特征值的嵌入, 在标准测试集 CALTECH256, cifi er10, 和 cifi er20 应用中取得了优 异的结果 ; 二是本发明的 MAH 中运用了正则化核非负矩阵分解 (RKNMF), 能够有效地保护数 据的概率分布, 同时减少低维数据的冗余, 相对于基于局部的图正则化, 通过高斯方程去衡 量一对数据的联合概率, 已证明可有效地抵制数据噪声, 很好的获得高维数据的局部结构, 并且揭露其整体结构 ; 三是本发明的 MAH 能够使得学习到一个可融合从多个信息源中得到 的多种表示, 同时通过 RKNMF 来保护高维联合分布和获得正交基的哈希嵌入函数。本发明 能够在计。
40、算机视觉、 数据挖掘、 机器学习或相似搜索等领域中取得显著的应用效果。 附图说明 0091 图 1 为本发明的多特征联合哈希信息检索方法 (MAH) 的演示流程方框示意图。 0092 图 2 为本发明的多特征联合哈希信息检索方法 (MAH) 的实施步骤方框示意图。 0093 图 3 为测试样本转变为哈希码嵌入过程的示意图。 0094 图 4 包括图 4a、 图 4b 和图 4c, 为当有 GIST、 HOG、 LBP 和 ColorHist4 个算子结合 在一起时, MAH 检索表现的示意图 ; 其中 : 图 4a 表示在数据库 Caltech-256 中, MAH 检索表 现的示意图 ; 图。
41、 4b 表示在数据库 CIFAR-10 中, MAH 检索表现的示意图 ; 图 4c 表示在数据库 说 明 书 CN 104462196 A 14 8/11 页 15 CIFAR-20 中, MAH 检索表现的示意图。 0095 图 5 包括图 5a、 图 5b 和图 5c, 为在 CIFAR-10、 CIFAR-20 和 Caltech-256 三个 数据库中, 所有经过比较的算法的平均准确率曲线的示意图 ; 其中 : 图 5a 表示在数据 库 Caltech-256 中, 所有经过比较的算法的平均准确率曲线的示意图 ; 图 5b 表示在数据 库 CIFAR-10 中, 所有经过比较的算法的。
42、平均准确率曲线的示意图 ; 图 5c 表示在数据库 CIFAR-20 中, 所有经过比较的算法的平均准确率曲线的示意图。 0096 图 6 包括图 6a、 图 6b 和图 6c, 为在 CIFAR-10、 CIFAR-20 和 Caltech-256 三个数据 库中, 所有算法在码长为 96bits 情况下的查准和召回曲线的示意图 ; 其中 : 图 6a 表示在数 据库 Caltech-256 中, 所有算法在码长为 96bits 情况下的查准和召回曲线的示意图 ; 图 6b 表示在数据库CIFAR-10中, 所有算法在码长为96bits情况下的查准和召回曲线的示意图 ; 图 6c 表示在数据。
43、库 CIFAR-20 中, 所有算法在码长为 96bits 情况下的查准和召回曲线的示 意图。 0097 图 7 为数据库 Caltech-256 的检索结果的示意图。 具体实施方式 0098 下面结合附图和实施例对本发明的具体实施方式作进一步的详细说明。 0099 本发明提出的一种多特征联合哈希信息检索方法的演示流程详见图 1 所示, 从训 练样本中提取多种特征算子, 用热核公式构建相关的 NN 的核矩阵融合, 通过一个迭代的 过程, 将所得低维数据根据门限值的划分转换为二进制码 ; 在测试样本中, 同样提取多种特 征算子, 通过计算热核, 使用多变量的回归方法来准确地找到相关的哈希函数, 。
44、得到测试样 本的哈希码 ; 最后计算训练数据和测试样本之间的汉明距即 XOR 运算, 得出最终的结果。 0100 结合图 2, 本发明提出的一种多特征联合哈希信息检索方法, 其特征在于包括如下 基本步骤 : 0101 步骤 1 建立目标函数 : 保护目标空间的数据分布, 用热核公式构建相关的 NN 的 核矩阵, 同时得到 NMF 中的紧凑矩阵基并且减少冗余 ; 0102 步骤2交替优化 : 通过一个迭代的过程, 优化U和V, 得到基算子U和低维数据V的 更新规则 ; 0103 步骤 3 整体收敛 : 通过原始的目标函数, 然后进行交替迭代 ; 0104 步骤 4 哈希函数的生成 : 将得出的低。
45、维实数根据门限值的划分转换为二进制码, 使用多变量的回归方法来准确地找到相关的哈希函数, 计算训练数据和测试样本之间的汉 明距即 XOR 运算, 得出最终的结果 ; 0105 步骤 5 复杂度分析 : 对上述步骤 1-4 的多特征联合哈希信息检索方法进行复杂度 分析。 0106 下面进一步说明本发明的多特征联合哈希信息检索方法的应用实施例。 0107 实施例 1, 本发明提出的多特征联合哈希信息检索方法 (MAH) 和当今六个比较流 行的非监督多特征哈希算法 MVAGH、 SU-MVSH、 MVH-CS、 CHMIS、 DMVH 和 MVH-CCA 做了比较 ; 此 外, 还用本发明与两个先进。
46、的单特征的哈希方法 SpH 和 AGH 做了比较 ; 对单特征的哈希方 法, 从多特征来的数据在哈希学习中连接在一起 ; 以上所有的方法会在 16、 32、 48、 64、 80 和 96 的六个不同长度的码间做比较。 说 明 书 CN 104462196 A 15 9/11 页 16 0108 多特征联合哈希信息检索方法 (MAH), 提供热核为去构建 原始的核矩阵, 其中设定 为成对数据点距离的中值。对每一个数据库的优化学习率 的选取从 0.01,0.02,0.10 中选择。三个正则化参数 , 同样在训练集中经 过交叉验证后选取, 最终定义为 0.15, 0.325 和 0.05。 010。
47、9 为二进制码 V v1,vN 设定一个约束作为相似概率正则化, 可以利用它保护 目标空间的数据分布, 优化可以表示如下 : 0110 0111 结合约束条件进行优化如下 : 0112 0113 其中, 和 是两个可以平衡 NMF 的近似误差和附加约束的正系数 ; 0114 通过一个迭代的过程, 优化 (U,V) 分为两步, 其 在区间 (1, n) 之间, 每 一步的 U、 V 和 都被不停的优化, 并且下一步再次迭代, 直到收敛迭代过程才停止 ; 0115 和标准的 NMF 过程类似, 可得到更新规则如下 : 0116 0117 0118 计算出权向量 (1, , n), 融合核矩阵 K 和联合概率拉普拉斯矩阵 L。将 以上的低维实数 V V1, vN 根据门限值的划分转换为二进制码, 如果 vp中的第 个元 素比门限值大, 那么否则为 0, 其中 p 1,, N 和 l 1,, d ; 0119 使用多。