《一种基于局部正交对齐的特征降维方法.pdf》由会员分享,可在线阅读,更多相关《一种基于局部正交对齐的特征降维方法.pdf(14页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 104050483 A (43)申请公布日 2014.09.17 CN 104050483 A (21)申请号 201410290957.4 (22)申请日 2014.06.25 G06K 9/62(2006.01) (71)申请人 北京大学 地址 100871 北京市海淀区颐和园路 5 号 (72)发明人 林通 王勃 查红彬 (74)专利代理机构 北京万象新悦知识产权代理 事务所 ( 普通合伙 ) 11360 代理人 朱红涛 (54) 发明名称 一种基于局部正交对齐的特征降维方法 (57) 摘要 一种基于局部正交对齐的降维方法, 包括 : 输 入初始高维数据矩阵, 。
2、根据高维数据点之间的欧 式距离, 获取数据点的局部近邻关系 ; 将局部高 维数据进行低维表示 ; 将低维坐标全局对齐 ; 获 取降维目标函数 ; 将降维目标函数分解为半正定 松弛部分和正交约束部分, 并分别通过半正定松 弛方法和强制正交化方法进行求解, 最终得到降 维后的结果。 本发明所述的降维方法, 能较好地保 持原始数据的诸如数据点间距离, 角度等几何信 息, 能对原数据做到极高的几何保真效果。 (51)Int.Cl. 权利要求书 2 页 说明书 8 页 附图 3 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书8页 附图3页 (10)申请公布号 CN。
3、 104050483 A CN 104050483 A 1/2 页 2 1. 一种基于局部正交对齐的降维方法, 其特征是, 采用如下步骤进行数据降维 : 步骤 1 : 输入 N 个高维数据点 xi Rm组成的数据矩阵 X RmN, 根据高维数据点之 间的欧式距离, 获取数据点 xi的局部近邻关系 : xi的局部 k 近邻 Xi Rmk, 近邻选择矩阵 Si RNk, Si是 0-1 选择矩阵, 使得 Xi XSi; 步骤 2 : 局部的低维表示 : 若数据的分布满足流形假设, 对于流形结构, 其局部通过 欧式空间的性质进行逼近 ; 利用主成分分析将局部 k 近邻 Xi降到 d 维, 得到局部坐。
4、标 i Rdk; 步骤 3 : 低维坐标的全局对齐 : 将得到的所有低维坐标 i,i 1,N 通过正交对齐 得到最优的全局低维坐标 Y RdN, 并使得重构误差最小 : ( 公式 I) 其中 Li Rdd为正交变换, Id为 d 维的单位矩阵, Hk Rkk为中心化矩阵 ; 步骤4 : 在给定全局低维坐标Y的情况下, Li通过最小二乘进行求解其中 为 i的 Moore-Penrose 伪逆 ; 将 Li代入到公式 I 中, 并通过迹与 F- 范数的关系可以 将公式 I 等价转化为 : minYtr(YBYT) ( 公式 II) 其中对公式 II 进行条件松弛, 并 将多个正交约束进行叠加, 得。
5、到单个正交约束 : minYtr(YBYT) s.t.tr(YCiYT) Id,i 1,N ( 公式 III) YCYT Id 其中公式 III 就是本方法最终的目标函数 ; 步骤 5 : 将目标函数公式 III 分解为两个子问题 : 半正定松弛部分和正交约束部分 ; 并 分别通过半正定松弛方法和强制正交化方法进行求解, 最终得到降维后的结果。 2.如权利要求1所述的降维方法, 其特征是, 步骤4中所述的对公式II进行条件松弛, 其实现方法为 : 每个局部正交约束利用迹运算, 将局部正交约束简化为对角和为 d 的迹约 束。 3.如权利要求1所述的降维方法, 其特征是, 步骤5中, 去掉公式II。
6、I中的正交约束, 得 到的半正定规划部分为 : minYtr(YBYT) ( 公式 IV) s.t.tr(YCiYT) Id,i 1,N 这是一个 QMP 问题, 通过半正定松弛方法可转化为一个标准的半正定规划问题, 然后 通过凸优化工具包进行求解 : 权 利 要 求 书 CN 104050483 A 2 2/2 页 3 s.t tr(CiK) d,i 1,N K 0 其中, K YYT 0 为对称半正定矩阵。 4. 如权利要求 3 所述的降维方法, 其特征是, 步骤 5 中, 通过半正定规划得到的 Ysdp往 往不满足正交约束 YCYT Id, 因此要进行强制正交化 : 使用一个线性变换 P。
7、, 得到最终的 降维结果 Y PYsdp, 其中 P 通过的特征值分解得到,那么 就满足了正交约束 : 通过正交修正的结果 Y 就是最终的降维结果。 5. 如权利要求 3 所述的降维方法, 其特征是, 步骤 5 中, 所述的凸优化工具包包括 SDPT3、 Sedumi、 CSDP。 6. 如权利要求 1 所述的降维方法, 其特征是, 步骤 5 中, 在半正定规划部分给目标函数 加上均值为 0 的约束 : Y1N 0 RdN, 其中 1N 1,1T RN1; 那么可以得到约束 : 再加入 MVU 的目标函数 tr(K), 最大化方差, 使得非近邻点近邻远离, 这得 到 PCA 降维的目标 : m。
8、inK tr(BK)-tr(K) s.t.tr(CiK) d,i 1,N tr(1NNK) 0 K 0 其中, K YYT 0 为对称半正定矩阵, 的 是一个惩罚参数, 表示对全局方差的惩罚 程度。 权 利 要 求 书 CN 104050483 A 3 1/8 页 4 一种基于局部正交对齐的特征降维方法 技术领域 0001 本发明属于模式识别领域, 具体涉及一种保持局部正交对齐的非线性降维方法 ( 简称 LOPA)。 背景技术 0002 随着计算机、 互联网等科学技术的飞速发展, 人们获取、 存储数据的能力不断增 强。现在的数据已经开始呈现出规模大、 维度高的特性, 如高清照片视频数据、 基因。
9、染色体 数据、 社交网络的用户数据等。 这些海量的高维数据在为人们的生活、 研究工作带来便利的 同时也带来了存储、 传输、 处理上的困难。首先是 “维度灾难” 问题, 在机器学习中, 很多在 低维空间中有效的算法在高维空间中并不能得以直接地推广 ; 其次, 高维数据往往带有很 多的冗余信息, 这些冗余信息为我们认清数据的本质特征带来了困难。 数据降维, 作为机器 学习、 模式识别、 数据挖掘必要的预处理步骤, 就是有效的解决办法。 0003 数据降维, 又称为维度约简, 在特定的优化目标下, 通过线性或非线性映射将高维 数据映射到低维空间。降维的目标一般是要保持原有高维空间中某些特性, 如距离。
10、、 方差 等。这样在减少数据规模的情况下, 仍然能保持数据的主要信息。数据降维的意义主要表 现在 : 0004 特征提取 : 高维特征数据通常带有很多不相关的信息, 通过数据降维, 可以实现 特征空间的维度缩减, 去除冗余信息, 得到最本质的数据特征。使用降维后的特征进行分 类、 聚类等算法就显得更加高效。 0005 数据可视化 : 对于高维数据, 很难直观的理解数据的分布形式、 近邻、 距离等信 息。数据降维是数据可视化的重要环节, 通过将数据降到 2、 3 维, 我们就可以直接观察到数 据的分布, 为后续的数据分析、 处理建立合适的模型、 选择合理参数与方法。 0006 数据的存储与传输 。
11、: 在 “信息爆炸” 的今天, 每天有数以亿计的图片、 视频被上传 到视频分享网站, 如 youtube、 facebook、 instagram 等。这些海量的高维数据给存储和传输 带来不便。通过降维, 在保持数据主要特征的情况下, 对数据进行压缩, 大大降低数据的规 模。 0007 降维的数学定义 : 对于高维空间中 N 个 m 维的数据点 xi组成的矩阵 X x1, ,xN RmN, 其本征维度 d 通常远远小于 m。寻找映射 F(X):X RmN Y RdN, 在尽量保 持高维数据信息的同时, 将数据从 m 维映射到 d 维其中 Y y1,yN RdN为高维数据 X 对应的低维坐标。 。
12、0008 降维算法可以根据映射是否为线性分为线性降维算法和非线性降维算法。 经典的 线性降维算法有 : 主成分分析 (PCA)、 线性判别分析 (LDA)、 多维尺度变换 (MDS) 等。线性降 维算法通常计算简单、 速度快, 有简单的线性变换函数, 通过特征之间的线性组合得到降维 后的结果。 若高维数据有很强的线性结构, 那么这类线性降维算法有令人满意的效果。 但是 对于流形数据如瑞士卷数据等, 线性降维算法往往无法捕捉到流形的结构信息。 为此, 人们 开始非线性降维算法方面的研究, 特别是流形学习, 用来处理数据中的流形结构。 非线性降 说 明 书 CN 104050483 A 4 2/8。
13、 页 5 维 ( 这里主要指流形学习算法 ) 有 : 等距映射方法 (Isomap)、 局部线性嵌入 (LLE)、 拉普拉 斯特征映射(LE)、 局部切空间对齐(LTSA)、 最大方差展开(MVU)、 局部正交流形嵌入(PSA)、 正交近邻保持投影 (ONPP) 等。 发明内容 0009 本发明的目的在于针对仿射变换进行全局对齐时不能保持距离、 尺度、 角度等几 何性质的缺点, 提出一种局部正交对齐的降维方法, 通过正交约束来保持数据的几何性质。 0010 本发明的技术方案如下 : 0011 一种基于局部正交对齐的降维方法, 采用如下步骤进行数据降维 ( 流程参见图 4) : 0012 步骤 。
14、1 : 输入 N 个高维数据点 xi Rm组成的数据矩阵 X RmN, 根据高维数据点 之间的欧式距离, 获取数据点xi的局部近邻关系 : xi的局部k近邻XiRmk, 近邻选择矩阵 Si RNk, Si是 0-1 选择矩阵, 使得 Xi XSi; 0013 步骤 2 : 局部的低维表示 : 若数据的分布满足流形假设, 对于流形结构, 其局部通 过欧式空间的性质进行逼近 ; 利用主成分分析 (PCA) 将局部 k 近邻 Xi降到 d 维, 得到局部 坐标 i Rdk; 0014 步骤 3 : 低维坐标的全局对齐 : 将得到的所有低维坐标 i,i 1,N 通过正交 对齐得到最优的全局低维坐标 Y。
15、 RdN, 并使得重构误差最小 : 0015 ( 公式 I) 0016 0017 其中 Li Rdd为正交变换, Id为 d 维的单位矩阵, Hk Rkk为中心化矩阵 ; 0018 步骤4 : 在给定全局低维坐标Y的情况下, Li通过最小二乘进行求解 其中为 i的 Moore-Penrose 伪逆 ; 将 Li代入到公式 I 中, 并通过迹 (trace) 与 F- 范 数的关系可以将公式 I 等价转化为 : 0019 minYtr(YBYT) ( 公式 II) 0020 0021 其中对公式 II 进行条件松 弛, 并将多个正交约束进行叠加, 得到单个正交约束 : 0022 minYtr(Y。
16、BYT) 0023 s.t.tr(YCiYT) Id,i 1,N ( 公式 III) 0024 YCYT Id 0025 其中公式 III 就是本方法最终的目标函数 ; 0026 步骤 5 : 将目标函数公式 III 分解为两个子问题 : 半正定松弛部分和正交约束部 分 ; 并分别通过半正定松弛方法和强制正交化方法进行求解, 最终得到降维后的结果。 说 明 书 CN 104050483 A 5 3/8 页 6 0027 优选的 : 0028 所述的降维方法, 其特征是, 步骤4中所述的对公式II进行条件松弛, 其实现方法 为 : 每个局部正交约束利用迹运算, 将局部正交约束简化为对角和为 d 。
17、的迹约束。 0029 所述的降维方法, 其特征是, 步骤5中, 去掉公式III中的正交约束, 得到的半正定 规划部分为 : 0030 minYtr(YBYT) ( 公式 IV) 0031 s.t.tr(YCiYT) Id,i 1,N 0032 这是一个QMP(二次矩阵规划)问题, 通过半正定松弛方法可转化为一个标准的半 正定规划问题, 然后通过凸优化工具包进行求解 : 0033 0034 s.t tr(CiK) d,i 1,N 0035 K 0 0036 其中, K YYT 0 为对称半正定矩阵。 0037 所述的降维方法, 其特征是, 步骤 5 中, 通过半正定规划得到的 Ysdp往往不满足。
18、正 交约束 YCYT Id, 因此要进行强制正交化 : 使用一个线性变换 P, 得到最终的降维结果 Y PYsdp, 其中 P 通过的特征值分解得到,那么就满 足了正交约束 : 0038 0039 通过正交修正的结果 Y 就是最终的降维结果。 0040 所述的降维方法, 其特征是, 步骤 5 中, 所述的凸优化工具包包括 SDPT3、 Sedumi、 CSDP 等。 0041 所述的降维方法, 其特征是, 步骤 5 中, 在半正定规划部分给目标函数加上均值为 0的约束 : Y1N0RdN, 其中1N1,1TRN1; 那么可以得到约束 : 再加入 MVU 的目标函数 tr(K), 最大化方差, 。
19、使得非近邻点近邻远离, 这得到 PCA 降维的目 标 : 0042 minK tr(BK)-tr(K) 0043 s.t.tr(CiK) d,i 1,N 0044 tr(1NNK) 0 0045 K 0 0046 其中, K YYT 0 为对称半正定矩阵, 的 是一个惩罚参数, 表示对全局方差的 惩罚程度。 0047 本发明的有益效果 : 本发明所述的降维方法, 能较好地保持原始数据的诸如数据 点间距离, 角度等几何信息, 能对原数据做到极高的几何保真效果。 附图说明 0048 图 1 是瑞士卷模拟数据降维结果对比图 ; 0049 图 2 是人脸石膏模型降维可视化效果图 ; 说 明 书 CN 。
20、104050483 A 6 4/8 页 7 0050 图 3 是 USPS 手写体数字可视化效果图。 0051 图 4 是本发明的流程图。 具体实施方式 0052 本发明实施方式如下 : 0053 实施例一 : 0054 步骤 1 : 对于 800 个样本点的 3 维瑞士卷数据, 目标是保持局部几何性质的情况下 降到 2 维。首先计算数据点之间的欧式距离, 然后选取包含自身在内的 k 个距离最短的点, 作为点 xi的局部 k 邻域其中根据 k 邻域的选取, 同时可以得到邻域 选择矩阵 Si, Si是 0-1 选择矩阵, 使得 Xi XSi。这里的邻域参数 k 取值为 8。 0055 步骤 2 。
21、: 局部的低维表示 : 对于流形结构, 其局部可以通过欧式空间的性质进行逼 近。具体操作是利用高维点的局部切空间来近似流形的局部几何性质, 构造最优的 d 维仿 射子空间来逼近局部 k 邻域 Xi, 其本质上等价于利用主成分分析 (PCA) 将局部 k 近邻 Xi降 到 d 维, 得到局部坐标 i Rdk。 0056 步骤 3 : 低维坐标的全局对齐 : 全局对齐的过程就是将得到的所有低维坐标 i,i 1,N 通过正交对齐得到最优的全局低维坐标 Y RdN, 并使得重构误差最小 : 0057 ( 公式 I) 0058 0059 其中 Li Rdd为正交变换, Id为 d 维的单位矩阵,e 1,。
22、1 Rk1为减去均值的中心化矩阵。这个目标函数可以解释为 : 局部 k 邻域 Xi最 终的降维结果 Yi YSi与其局部的 PCA 降维结果 i只相差一个旋转与平移变换。 0060 步骤 4 : 由于公式 II 中含有多个变量 Y 与 Li, 难以直接求解。通常的办法是分步 优化 : 在给定全局坐标 Y 的情况下, 公式 II 中的线性变换 Li可以通过最小二乘进行求解 其中为 i的 Moore-Penrose 伪逆 ; 将 Li代入到 ( 公式 I) 中, 并通过迹 与 F- 范数的关系可以将 ( 公式 I) 等价转化, 对 Y 进行求解 : 0061 minYtr(YBYT) ( 公式 I。
23、I) 0062 0063 其中 0064 公式 II 就是局部正交对齐问题的目标函数, 是一个多正交约束的优化问题, 难 以直接求解。我们对正交约束进行条件松弛并有效求解 : 每个局部正交约束利用迹运算 tr(YCiYT) tr(Id) d, 将局部正交约束简化为对角和为 d 的迹约束 ; 并将多个正交约束 进行叠加, 得到单个正交约束 : 0065 说 明 书 CN 104050483 A 7 5/8 页 8 0066 本方法最终的目标函数 : 0067 minYtr(YBYT) 0068 s.t.tr(YCiYT) Id,i 1,N ( 公式 III) 0069 YCYT Id 0070 。
24、其中 0071 步骤 5 : 将目标函数 ( 公式 III) 分解为两个子问题 : 半正定松弛部分和正交约束 部分。并分别通过半正定松弛方法和强制正交化方法进行求解, 最终得到降维后的结果。 0072 半正定规划部分为 : 0073 minYtr(YBYT) 0074 s.t.tr(YCiYT) Id,i 1,N 0075 这是一个 QMP( 二次矩阵规划 ) 问题, 可以通过半正定松弛方法, 转化为一个标准 的半正定规划问题 : 0076 minKtr(BK) 0077 s.t.tr(CiK) Id,i 1,N 0078 K 0 0079 其中 K YYT 0 为对称半正定矩阵。利用半正定规。
25、划的工具包如 SDPT3、 Sedumi、 CSDP 等可以求解出 K, 并利用特征值分解的方法得到前 d 维的主成分 Ysdp。但是 这里得到的 Ysdp往往是不满足正交约束条件的, 需要进行正交化修正。这里使用一个线 性变换 P, 得到最终的降维结果 Y PYsdp。其中 P 可以通过的特征值分解得到, 那么就满足了正交约束 : 0080 0081 通过正交修正的结果 Y 就是最终的降维结果。事实上, 还可以根据 MVU 算法的一 些性质, 对我们的算法做出进一步的扩展。由于 Y 是旋转与平移不变的, 在半正定规划部分 可以给目标函数加上均值为 0 的约束 : Y1N 0 RdN, 其中 。
26、1N 1,1T RN1; 那么 可以得到约束 :还可以加入MVU的目标函数tr(K), 最大化方差, 使得非近 邻点可以近邻远离, 这也是 PCA 降维的目标 : 0082 minK tr(BK)-tr(K) 0083 s.t.tr(CiK) d,i 1,N 0084 tr(1NNK) 0 0085 K 0 0086 这里的 是一个惩罚参数, 表示对全局方差的惩罚程度。在加入全局方差的惩罚 tr(K)后, 能够使得原来不是近邻的数据点在降维后尽量远离。 该问题仍然是一个标准的 半正定规划问题, 求解方式与上面的一致。 0087 我们在 Mani Demo 生成的模拟数据上做了降维实验, 并与一。
27、些经典的降维算法进 行了对比, 主要是数据的可视化和定量的几何信息保持度。 如图1所示, 我们的方法(LOPA) 说 明 书 CN 104050483 A 8 6/8 页 9 能够恢复出瑞士卷数据的流形结构 : 二维空间中的矩形平面。 0088 我们还对算法保持局部几何性质的能力进行了度量 : 0089 1. 降维前后数据的 k 近邻保持误差 Rknn。若定义 (xi) 为 xi点的局部 k 邻域, 则 可以定义近邻保持误差 : 0090 0091 2. 降维前后高维数据 xi对应的 k 近邻点距离变化 Rkdist: 0092 0093 3. 降维前后局部角度的变化量 Rkangl: 对于 。
28、k 邻域, 以为一条边,为另 一条边, 计算其夹角 0094 0095 下表给出了近邻保持误差、 局部距离误差和角度误差三个指标上, 本方法与其他 方法的效果比较 ( 分别在五个模拟数据上进行实验, 并与其他方法进行比较 ) : 0096 说 明 书 CN 104050483 A 9 7/8 页 10 0097 实施例二 : 0098 石膏人脸数据集最先是在 Isomap 算法中用来做数据的可视化, 后来被很多的 流形降维方法使用, 如 LTSA 等。数据集中共有 698 张灰度头像图片, 每张图片的大小为 6464, 可以用一个 4096 维的向量来表示。可以通过头部的姿态 ( 朝向、 俯仰。
29、 )、 光照条件 来刻画数据集, 因此这些数据分布在一个低维的空间中。数据集的本质特征就是头像的姿 态和光照条件, 因此可以将数据降到 2 维, 观察降维结果是否能够反映这两个主要特征。 0099 图 2 是对石膏人脸数据的降维结果, 图上的人脸头像是沿着降维后数据的边缘均 匀提取的。 从四周的头像来看, 算法能够反映石膏头像数据的本质特征 : 从左到右是头像的 朝向变换, 从上到下是头像的俯仰变换 ; 上面的头像光照较强, 底部的头像光照较弱。 0100 实施例三 : 说 明 书 CN 104050483 A 10 8/8 页 11 0101 MNIST 手写数字数据库中共有 60000 个。
30、训练样本, 10000 个测试样本。样本为手写 数字, 从 0-9 一共分为 10 类。每张数字图片都是大小为 2828 的灰度图片, 这些图片已 经经过归一化、 中心化处理, 可以直接使用。若同时对这 10 类数字进行降维, 这些数字会重 叠在一起, 难以分辨。 为了便于演示与说明, 将数据分为两组, 每组中有3类数字 : 一组是数 字 0,1,4、 另一组是 5,6,7。对于每个数字, 在数据集中随机选取 200 副图片, 因此每组数据 的大小为 X R600784。用本方法进行降维的可视化结果如图 3。 0102 实施例四 : 0103 USPS 美国邮政服务手写数字识别库中共有 929。
31、8 个样本, 其中 7291 个样本是训练 数据, 2007 个样本用于测试。手写体 0-9 共 10 类, 每个数字是大小为 1616 的灰度图像, 可以用 256 维的向量表示。在本例中, 我们将 USPS 和 MNIST 手写体数据降到低维, 然后分 别使用分类器 SVM 和 KNN 对降维结果进行分类实验。 0104 下表给出了各自经过 10 折交叉实验的对手写体数字分类正确率, 并与经典的降 维算法进行了对比。 0105 表 1, 将手写体数字降到 5 维, 并进行分类的对比 0106 USPSPCALTSAIsomap MVULOPA KNN68.7 65.2 74.5 73.4 。
32、72.7 SVM76.6 26.3 70.3 74.4 75.3 0107 MNISTPCALTSAIsomap MVULOPA KNN59.8 58.7 67.2 68.3 69.6 SVM67.9 18.7 48.3 64.8 67.0 0108 参考文献 0109 1) 一种基于因子分析模型的高光谱数据降维方法 -CN200910078443.1 ; 0110 2) 中文文本自动分类用的特征降维方法 -CN200410000721.9 ; 0111 3) 一种基于规则邻域的数据降维方法 -CN200810063304.7 ; 0112 4) 基于局部关联保持的人脸图像降维方法 -CN201210248646.2。 说 明 书 CN 104050483 A 11 1/3 页 12 图 1 图 2 说 明 书 附 图 CN 104050483 A 12 2/3 页 13 图 3 说 明 书 附 图 CN 104050483 A 13 3/3 页 14 图 4 说 明 书 附 图 CN 104050483 A 14 。