时空数据渐进式多维模式提取与异常检测可视分析方法.pdf
《时空数据渐进式多维模式提取与异常检测可视分析方法.pdf》由会员分享,可在线阅读,更多相关《时空数据渐进式多维模式提取与异常检测可视分析方法.pdf(25页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202010501600.1 (22)申请日 2020.06.04 (71)申请人 东北师范大学 地址 130000 吉林省长春市人民大街5268 号 (72)发明人 张慧杰蔺依铭吕程曲德展 徐劭斌 (74)专利代理机构 成都时誉知识产权代理事务 所(普通合伙) 51250 代理人 田高洁 (51)Int.Cl. G06F 16/904(2019.01) (54)发明名称 时空数据渐进式多维模式提取与异常检测 可视分析方法 (57)摘要 本发明公开了时空数据渐进式多维模式提 取与。
2、异常检测可视分析方法, 涉及时空数据可视 化领域, 首先将多维时空数据建模成连续的张量 时间序列, 将最新时间段的张量作为当前张量, 临近多个时间段的数据张量加权平均得到历史 张量。 然后, 使用张量分解方法分别对历史张量 和当前张量进行多维模式提取, 得到两组rank- one分量用来描述历史数据和当前数据中的潜在 模式。 最后基于两组模式的差异计算当前时间段 的区域和时间异常分数, 并结合可视化技术直观 地展示模式的差异, 为异常模式的解释提供支 撑。 权利要求书3页 说明书15页 附图6页 CN 111639243 A 2020.09.08 CN 111639243 A 1.时空数据渐进。
3、式多维模式提取与异常检测可视分析方法, 其特征在于, 包括以下步 骤: 步骤1: 根据城市的热线数据构建一个三阶张量其中T表示时间段数量, I表示行业数量, D表示区域数量, 元素Xi,j,k代表在第i个时间段、 第k个区域、 第j个行业 的热线投诉数量,按照这种数据构建方式, 连续多周的数据转化为一个张量时间序列; 步骤2: 根据步骤1中的连续多周的数据转化成的张量时间序列, 选择第m周的张量作为 当前张量xcurrent, 即xcurrentxm, 将前p周数据张量加权平均得到同规模的历史张量xhistory, 计算公式为: 其中, t反映了第t周数据张量的重要程度, 具体计算方法如下公式。
4、所示: 根据公式计算每周张量的权重t, 以确保与当前周时间间隔更近的数据张量具有更大 的权重, 从而增加历史张量和当前张量分解结果的可比较性; 步骤3: 将三阶张量利用NCP方法进行张量分解, 得到多个非负rank-one 张量, 每个rank-one张量代表一个多维模式: 其中ai, bi和ci分别表示其在时间、 行业和空间维度上的分布情况, R表示模式数量, 通 过上述公式得到一个逼近原始张量的 “恢复张量” , 表示为对相同维度的向 量整合得到3个因子矩阵A、 B和C, 向量 RR反映模式的重要程度, 称为模式的权重向量, 符号表示向量的外积, 表示NCP模型; 步骤4: 张量计算, 对。
5、于通过NCP张量分解得出R个模式近似表示算 法的最小化目标函数公式如下所示: 其中, A0, B0, C0; 提取历史模式集合, 将历史张量xhistory进行一次NCP张量分解, 分解得到时间因子矩阵 AR、 行业因子矩阵B*R、 区域因子矩阵CR和历史模式的权重向量 RRR, 因子矩阵的每一列 分别代表了一个多维模式在时间、 行业和空间上的分布, 每一行都是一个R维向量, 分别代 表了在某一时间、 某一行业和某一区域模式发生的可能性, 作为对应时间、 行业和空间的特 权利要求书 1/3 页 2 CN 111639243 A 2 征向量; 当R分别为不同数值时, 多次运行NCP分解得到三个因。
6、子矩阵集合, 记为Aset、和 Cset, 以及模式的权重向量集合 set; 步骤5: 提取当前模式集合,是历史张量和当前张量的公共因子矩阵, 并将其作为对 当前张量NCP分解迭代过程的已知参数, 最小化目标函数的过程只对时间因子矩阵AR和区 域因子矩阵CR迭代更新, 直到满足停止条件, 如公式所示; 对于每一个R的取值, 通过公式的求解, 因子矩阵AR和CR能够捕获到当前周的模式在时 间和空间维度上的分布; 通过多次运行NCP张量分解, 则得到当前周的时间因子矩阵集合 Aset和空间矩阵集合Cset; 步骤6: 异常检测, 将历史时间因子矩阵AR和空间因子矩阵CR作为基准, 当前时间因子 矩。
7、阵AR和当前空间因子矩阵CR与基准的差异作为衡量当前周时间和空间异常程度的依据, 当前区域因子矩阵CR的一行CRd, : 表示第d个区域模式的活动水平, 当该区域存在异常, 它 的不同模式的活动水平和历史的模式活动水平CRd, : 相比会有明显的差异; 向量SR表示一次的空间异常结果, 其中每个区域的异常分数通过计算该区域历史和当 前特征向量的欧式距离得出, 如公式所示, 多次运行得到空间异常检测集合Sset: 步骤7: 渐进式划分, 根据当前张量进行渐进划分, 当前张量和历史张量共享划分结果, 从而保证每个分区的历史模式和当前模式的可对比性; 步骤8: 可视化当前模式和历史模式的差异, 为异。
8、常分数的解释提供支撑。 2.根据权利要求1所述的时空数据渐进式多维模式提取与异常检测可视分析方法, 其 特征在于, 所述步骤7包括以下子步骤: 首先选取一个时间划分维度, 然后对时间数据切片 聚类, 最后根据聚类结果对张量进行划分, 聚类中每个子张量的时间切片在空间和行业的 分布相似。 3.根据权利要求1所述的时空数据渐进式多维模式提取与异常检测可视分析方法, 其 特征在于, 所述NCP分解是采用CP分解提取多维数据的潜在模式, 并对其加上非负约束。 4.根据权利要求1所述的时空数据渐进式多维模式提取与异常检测可视分析方法, 其 特征在于, 所述步骤4中模式数量R的确定采用集合模拟的方法, 分。
9、别将R的数值从小到大分 别作为分解模式数量参数多次运行NCP张量分解。 5.根据权利要求1所述的时空数据渐进式多维模式提取与异常检测可视分析方法, 其 特征在于, 所述步骤8包括建立时空模式可视分析系统, 所述时空模式可视分析系统包括数 据预处理模块与可视化模块; 所述数据预处理模块根据热线数据投诉内容使用自然语言处理方法提取事件发生的 地址, 然后使用地址解析工具将地址转化为经纬度, 从而获得事件发生的精确的地理坐标, 再将流式多维数据以周为时间区间构建张量, 从而将多维时空数据转化成连续的张量时间 序列; 最后, 选择某一周的张量作为当前张量, 并将与其临近的多周张量加权平均得到历史 张量。
10、, 用来模拟实时监测的场景; 所述可视化模块通过集成多种交互方式, 支持用户通过丰富的视图从多角度、 多层次 权利要求书 2/3 页 3 CN 111639243 A 3 和多粒度探索模式和异常, 并对异常进行有效地解释, 所述可视化模块包括模式探索模块、 异常分析模块和渐进式划分模块。 6.根据权利要求5所述的时空数据渐进式多维模式提取与异常检测可视分析方法, 其 特征在于: 所述模式探索模块包括模式投影视图单元、 模式细节视图单元与模式查询面板 单元, 所述模式投影视图单元用于根据投影空间位置观察模式的亲疏关系, 确定是否出现 分簇现象, 感知每个团簇的模式主要反映的行业类别投诉行为, 发。
11、现历史模式和当前模式 的共性和差异; 所述模式细节视图单元用于将时间、 空间和行业三个维度在一个视图中同时编码, 并 采用多层可视化的设计; 所述模式查询面板单元用于高效地定位用户感兴趣的模式。 7.根据权利要求5所述的时空数据渐进式多维模式提取与异常检测可视分析方法, 其 特征在于: 所述异常分析模块包括区域异常视图单元和异常解释视图单元, 所述区域异常 视图单元用于显示区域异常检测结果的共性和区别, 所述异常解释视图单元用于帮助用户 快速找到异常的原因并及时做出反应。 8.根据权利要求5所述的时空数据渐进式多维模式提取与异常检测可视分析方法, 其 特征在于: 所述渐进式划分模块包括可视化划。
12、分单元、 数据分区单元与数据编码单元, 所述 可视化划分单元通过树形图可视化渐进式划分的过程, 所述数据分区单元允许树节点直接 交互以执行数据分区, 所述数据编码单元用于将每个树节点对应一个图标, 展示张量在各 个维度统计信息和模式分布。 权利要求书 3/3 页 4 CN 111639243 A 4 时空数据渐进式多维模式提取与异常检测可视分析方法 技术领域 0001 本发明涉及时空数据可视化领域, 具体为时空数据渐进式多维模式提取与异常检 测可视分析方法。 背景技术 0002 随着城市信息化的不断完善与传感器设备的日益丰富, 大量的城市时空数据被持 续、 科学地收集, 使得人类的活动过程能够。
13、被更加全面地记录。 这些城市数据包含大量的人 类行为信息, 具有时间、 空间和属性等多维特征。 为了有效挖掘复杂大数据内隐含的有价值 信息, 帮助分析人员理解社会运行, 对城市时空数据进行模式提取与异常检测至关重要。 在 诸如社交网络、 智慧医疗、 智能交通、 智慧城市社会管理等领域, 发现其中隐藏的常规模式 和时空异常具有特殊意义。 以智慧城市管理为例: 政府工作人员希望提取热线投诉数据的 基本模式帮助城市规划, 并且希望能够确定异常事件发生的准确时间和精确的空间位置, 从而为突发事件的处理提供及时的决策支持。 值得一提的是, 城市分析人员对异常的解释 十分关注, 这能够帮助他们快速发现异常。
14、的原因。 0003 然而, 多维时空数据的维度之间相互依赖, 并且各维度上的分布通常极不均匀, 如 何有效发现数据内潜在的模式与异常是一个巨大的挑战。 随着数据量的增大, 对于市长热 线数据等多维时空数据, 计算效率问题使这项任务变得更加艰巨。 大部分的统计学和机器 学习方法通常基于矩阵对时空数据进行建模, 缺乏处理多维数据的能力。 并且在异常检测 方面也仅仅给出区域或时间的异常分数, 缺乏有效的解释, 导致分析人员无法快速找到异 常发生的原因。 0004 信息可视化旨在通过图形图像的方式揭示数据的内在规律, 帮助用户感知、 理解 和分析数据, 从而增强分析人员对数据的认知能力。 可视分析结合。
15、可视化、 人机交互和自动 分析技术, 为分析庞杂的多元异构数据提供了一个有效手段。 分析过程以人为中心, 充分发 挥人的智慧, 使整个分析过程透明化。 近年来, 结合可视化技术和自动分析技术探索城市多 维数据是一个热门的研究方向。 但目前尚缺乏全面支持常规模式提取、 异常检测以及异常 解释功能的集成可视分析框架, 从而限制了分析人员得出更全面、 准确的结论。 此外, 在大 多数可视化系统中探索数据中多维模式是个繁冗的过程, 没有提供有效的手段帮助用户快 速和全面理解其中的模式, 并且缺乏将常规模式与空间和时间上的异常现象进行交互式分 析的手段, 从而难以对这些异常进行解释。 发明内容 0005。
16、 本发明的目的在于克服现有技术的不足, 提供时空数据渐进式多维模式提取与异 常检测可视分析方法, 将多维时空数据建模为张量, 采用基于张量分解的方法提取多维模 式, 并根据历史张量和当前张量模式的差异, 对当前数据张量进行区域异常检测, 集成可视 化隐喻与丰富的交互方式, 设计STPVis可视分析系统帮助分析人员挖掘城市时空数据中有 价值的模式和异常事件, 有效解决传统方法对于潜在模式提取和异常解释的局限性。 说明书 1/15 页 5 CN 111639243 A 5 0006 为了实现上述目的, 本发明提供如下技术方案: 0007 时空数据渐进式多维模式提取与异常检测可视分析方法, 包括以下。
17、步骤: 0008步骤1: 根据城市的热线数据构建一个三阶张量其中T表示时间段 数量, I表示行业数量, D表示区域数量, 元素Xi,j,k代表在第i个时间段、 第k个区域、 第j 个行业的热线投诉数量,按照这种数据构建方式, 连续多周的数据便可转化为一个张量时 间序列; 0009 步骤2: 根据步骤1中的连续多周的数据转化成的张量时间序列, 选择第m周的张量 作为当前张量xcurrent, 即xcurrentxm, 将前p周数据张量加权平均得到同规模的历史张量 xhistory, 计算公式为: 0010 0011 其中, t反映了第t周数据张量的重要程度, 具体计算方法如下公式所示: 0012。
18、 0013 根据公式计算每周张量的权重t, 以确保与当前周相近的数据张量的权重更大, 从而增加历史张量和当前张量分解结果的可比较性; 0014步骤3: 将三阶张量利用NCP方法进行张量分解, 得到多个非负 rank-one张量, 每个rank-one张量代表一个多维模式: 0015 0016 其中ai, bi和ci分别表示它在时间、 行业和空间维度上的分布情况, R表示模式数 量, 通过上述公式, 张量的每个元素被近似表示, 得到一个逼近原始张量的 “恢复张量” , 表 示为:对相同维度的向量整合得到3个因子矩阵A、 B和C, 对因子矩阵A、 B和C 的列向量进行L2标准化: 0017 001。
19、8向量 RR反映模式的重要程度, 称为模式的权重向量, 符号表示向量的外积, 表示NCP模型; 0019步骤4: 张量计算, 对于通过NCP张量分解得出R个模式近似表示 算法的最小化目标函数公式如下所示: 0020 0021 其中, A0, B0, C0; 0022 提取历史模式集合, 将历史张量xhistory进行一次NCP张量分解, 分解得到时间因子 矩阵AR、 行业因子矩阵区域因子矩阵CR和历史模式的权重向量 RRR, 因子矩阵的每 说明书 2/15 页 6 CN 111639243 A 6 一列分别代表了一个多维模式在时间、 行业和空间上的分布, 每一行都是一个R维向量, 分 别代表了。
20、在某一时间、 某一行业和某一区域模式发生的可能性, 作为对应时间、 行业和空间 的特征向量; 0023当R分别为不同数值时, 多次运行NCP分解得到三个因子矩阵集合, 记为A set、 和Cset, 以及模式的权重向量集合 set; 0024步骤5: 提取当前模式集合, 是历史张量和当前张量的公共因子矩阵, 并将其作 为对当前张量NCP分解迭代过程的已知参数, 最小化目标函数的过程只对时间因子矩阵AR 和区域因子矩阵CR迭代更新, 直到满足停止条件, 如公式所示; 0025 0026 对于每一个R的取值, 通过公式的求解, 因子矩阵AR和CR能够捕获到当前周的模式 在时间和空间维度上的分布; 。
21、通过多次运行NCP张量分解, 则得到当前周的时间因子矩阵集 合Aset和空间矩阵集合Cset; 0027 步骤6: 异常检测, 将历史时间因子矩阵AR和空间因子矩阵CR作为基准, 当前时间 因子矩阵AR和当前空间因子矩阵CR与基准的差异作为衡量当前周时间和空间异常程度的依 据, 当前区域因子矩阵CR的一行CRd, : 表示第d个区域模式的活动水平, 当该区域存在异 常, 它的不同模式的活动水平和历史的模式活动水平CRd, : 相比会有明显的差异; 0028 向量SR表示一次的空间异常结果, 其中每个区域的异常分数通过计算该区域历史 和当前特征向量的欧式距离得出, 如公式所示, 多次运行得到空间。
22、异常检测集合Sset: 0029 0030 步骤7: 渐进式划分, 根据当前张量进行渐进划分, 当前张量和历史张量共享划分 结果, 从而保证每个分区的历史模式和当前模式的可对比性; 0031 步骤8: 可视化当前模式和历史模式的差异, 为异常分数的解释提供支撑。 0032 通过采用上述技术方案, 步骤2中由于历史张量xhistory是由长时间的数据加权得 到的, 其中个别周的异常事件引起的数量变化会被有效消除, 所以历史张量可作为城市热 线数据的常规张量, 步骤3中很多指标可以被用于根据两个张量的差异衡量模型质量, 例 如: 损失、 拟合度、 稳定度和错误率; 步骤4中因为模型具有非负约束, 。
23、从而保证所有的因子 矩阵都是非负的, 使得模式更易于被解释和理解; 对于历史张量xhistory, 一次NCP张量分解 分解得到时间因子矩阵AR、 行业因子矩阵区域因子矩阵CR和历史模式的权重向量 R RR。 因子矩阵的每一列分别代表了一个多维模式在时间、 行业和空间上的分布。 每一行都 是一个R维向量, 分别代表了在某一时间、 某一行业和某一区域模式发生的可能性, 可以作 为对应时间、 行业和空间的特征向量, 例如, Ai, k捕获第i个时间片上的第k个模式发生的 可能性; 步骤5中因为短期异常事件导致的投诉数量增加会被权重稀释, 所以历史张量 xhistory可以近似看作无异常事件的常规数。
24、据张量, 对它分解可以得到一些基础模式, 城市 时空数据中的基础模式的行业分布是稳定的, 短期不会发生显著变化, 只是空间和时间上 有较大差异; 步骤7中采用渐进式的策略。 从粗粒度的初始张量开始, 每次选取一个维度进 行划分, 得到多个内部模式相似的子张量。 然后对小规模的子张量从细粒度层级进行细节 探索。 这不仅能够解决因为分布不均匀导致的模式提取丢失现象, 而且能够有效解决算力 问题; 步骤8中集成多个协同的可视化视图与直观的可视化隐喻, 通过可交互的渐进式工作 说明书 3/15 页 7 CN 111639243 A 7 流, 能够有效解决传统方法对于潜在模式提取和异常解释的局限性。 0。
25、033 优选的, 所述步骤7包括以下子步骤: 首先选取一个时间划分维度, 然后选择适当 的聚类算法对时间数据切片聚类, 最后根据聚类结果对张量进行划分, 聚类中每个子张量 的时间切片在空间和行业的分布相似。 0034 通过采用上述技术方案, 能够显著提升模型的拟合度, 这有助于从数据子集中获 取更清晰的模式和更准确的异常分数。 0035 优选的, 所述NCP分解是采用CP分解提取多维数据的潜在模式, 并对其加上非负约 束。 0036 优选的, 所述步骤4中模式数量R的确定采用集合模拟的方法, 分别将R的数值从小 到大作为分解模式数量参数多次运行NCP张量分解。 0037 通过采用上述技术方案,。
26、 不仅规避最优模式数量选择的问题, 而且显著模式和潜 在模式都能够有效捕获, 并加以分析。 因为当模式数量R较小时, 显著模式很容易被提取, 而 潜在模式很难被捕获。 随着R的增大, 显著模式逐渐被细化, 潜在模式开始出现, R的选择直 接影响模式的质量, 集合模拟的方法有效覆盖了显著模式和潜在模式, 避免因模式数量R选 择不当而影响所提取模式的质量。 0038 优选的, 所述步骤8包括建立时空模式可视分析系统, 所述时空模式可视分析系统 包括数据预处理模块与可视化模块; 0039 所述数据预处理模块根据热线数据投诉内容使用自然语言处理方法提取事件发 生的地址, 然后使用地址解析工具将地址转化。
27、为经纬度, 从而获得事件发生的精确的地理 坐标, 再将流式多维数据以周为时间区间构建张量, 从而将多维时空数据转化成连续的张 量时间序列; 最后, 选择某一周的张量作为当前张量, 并将与其临近的多周张量加权平均得 到历史张量, 用来模拟实时监测的场景; 0040 所述可视化模块通过集成了多种交互方式, 支持用户通过丰富的视图从多角度、 多层次和多粒度探索模式和异常, 并对异常进行有效地解释, 所述可视化模块包括模式探 索模块、 异常分析模块和渐进式划分模块。 0041 优选的, 所述模式探索模块包括模式投影视图单元、 模式细节视图单元与模式查 询面板单元, 所述模式投影视图单元用于根据投影空间。
28、位置观察模式的亲疏关系, 确定是 否出现分簇现象, 感知每个团簇的模式主要反映的行业类别投诉行为, 发现历史模式和当 前模式的共性和差异; 0042 所述模式细节视图单元用于将时间、 空间和行业三个维度在一个视图中同时编 码, 并采用多层可视化的设计; 0043 所述模式查询面板单元用于高效地定位用户感兴趣的模式。 0044 优选的, 所述异常分析模块包括区域异常视图单元和异常解释视图单元, 所述区 域异常视图单元用于显示区域异常检测结果的共性和区别, 所述异常解释视图单元用于帮 助用户快速找到异常的原因并及时做出反应。 0045 优选的, 所述渐进式划分模块包括可视化划分单元、 数据分区单元。
29、与数据编码单 元, 所述可视化划分单元通过树形图可视化渐进式划分的过程, 所述数据分区单元允许树 节点直接交互以执行数据分区, 所述数据编码单元用于将每个树节点对应一个图标, 展示 张量在各个维度统计信息和模式分布。 说明书 4/15 页 8 CN 111639243 A 8 0046 本发明的有益效果是: 本发明提出一个新颖的渐进式张量分解方法用于探索多维 时空数据, 该方法通过引导用户逐步对模式繁杂的数据张量进行最优划分, 生成一组内部 模式相对单一的子张量, 解决传统方法在探索数据子集潜在信息的局限性。 同时将模式提 取、 异常检测和异常解释联合分析, 三者相互支撑, 互为促进帮助分析人。
30、员获得更全面的见 解, 并设计实现一个可视分析系统STPVis, 该系统整合一系列可视化视图和交互设计 方案, 支持在两种粒度下对城市时空数据的模式和异常进行快速、 准确、 全面地探索, 并对 区域异常进行有效解释。 附图说明 0047 图1为本发明多维模式提取算法的核心步骤示意图; 0048 图2为本发明的rank-one三阶张量示意图; 0049 图3为本发明的三阶张量的NCP分解示意图; 0050 图4为本发明按时间维度进行张量划分的示意图; 0051 图5为本发明STPVis的用户界面示意图; 0052 图6为本发明STPVis的用户界面示意图中(a1)的放大示意图; 0053 图7为。
31、本发明STPVis的用户界面示意图中(b)的放大示意图; 0054 图8为本发明STPVis的用户界面示意图中(c)的放大示意图; 0055 图9为本发明两种粒度的区域异常视图; 0056 图10为本发明的划分树节点的多层图标示意图; 0057 图11为本发明的实施例的渐进式划分过程示意图; 0058 图12为本发明的实施例中不同树节点的模式概览和典型模式示意图; 0059 图13为本发明的方法框架图。 具体实施方式 0060 下面结合附图进一步详细描述本发明的技术方案, 但本发明的保护范围不局限于 以下所述。 0061 张量表示是一种对多维时空数据建模的有效方式, 能够反映数据中多个维度之间。
32、 的复杂关联。 一个张量(用x表示)是一个多维数组, 可以看作标量、 向量以及矩阵向更高维 度的扩展。 例如, 一周的长春市市长热线数据可以构建为一个三阶张量其 中T表示时间段数量(7天/84个2小时), I表示行业数量(44个行业), D表示区域数量(长春市 10个行政区/185个等面积网格)。 元素xi, j, k代表在第i个时间段、 第k个区域、 第j个行业 的热线投诉数量。 按照这种数据构建方式, 连续多周的数据便可转化为一个张量时间序列。 0062 本发明使用2016年长春市市长热线转化得到的张量时间序列来模拟实时检测的 场景。 例如, 选择第m周的张量作为当前张量xcurrent(。
33、即xcurrentxm, 对应图1步骤)。 根据公 式1, 将前p周数据张量加权平均得到同规模的历史张量xhistory(对应图1步骤), 其中p默 认为10, 也可在系统中调整。 公式1中的t反映了第t周数据张量的重要程度。 根据公式2计 算每周张量的权重, 以确保与当前周相近的数据张量的权重更大, 从而增加历史张量和当 前张量分解结果的可比较性。 说明书 5/15 页 9 CN 111639243 A 9 0063 0064 0065 由于历史张量xhistory是由长时间的数据加权得到的, 其中个别周的异常事件引起 的数量变化会被有效消除, 所以历史张量可作为长春市市长热线数据的常规张量。
34、。 系统支 持用户对空间和时间维度进行多粒度地探索, 其中数据张量在时间维度上可以将7天细化 为84个2小时的区间, 在区域维度上10个行政区可被细化为185个等面积网格。 因此, 每周的 数据可以构建成74410和8444185两种尺寸的数据张量。 0066 多维模式提取: 高阶张量的分解在信号处理、 计算机视觉、 数据挖掘、 神经科学、 图 分析等领域都有广泛的应用, 在实际应用中最常用的两种分解技术为CP分解(CANDECOMP/ PARAFAC(CP)decomposes)和Tucker分解, 这两种特殊的张量分解可以看作是矩阵奇异值分 解(SVD)的高阶扩展。 CP分解将张量分解为r。
35、ank-one张量(rank-one tensors)的和。 为了提 高模式的可解释性, 这里采用CP分解提取多维数据的潜在模式, 并对其加上非负约束, 即为 NCP(nonnegative CP)分解。 0067 这里简要介绍算法涉及的关键概念。 一个能够写成N个向量的外积的多路张量被 称作rank-one张量, 例如:本发明中的张量均为三阶张量, 如图2 所示,为一个秩为1的三阶张量表示。 0068其中符号表示向量的外积。 张量的每个元素都是对应向量元素的乘积, 如公 式3所示。 0069 0070对于长春市市长热线数据的三阶张量通过NCP张量分解后, 则可 以由多个非负rank-one张。
36、量近似表示, 如图3所示。 每个rank-one张量代表一个多维模式, 其中ai, bi和ci分别表示它在时间、 行业和空间维度上的分布情况, R表示模式数量。 0071 张量x中的元素可近似表示为: 0072 0073通过上述公式, 可以得到一个逼近原始张量的 “恢复张量” (用表 示)。 很多指标可以被用于根据两个张量的差异衡量模型质量, 例如: 损失、 拟合度、 稳定度 和错误率。 0074 对相同维度的向量整合得到3个因子矩阵A、 B和C。 例如, Aa1; a2; .; aR, B和C 同理。 NCP张量分解模型可以由公式5表示。 通常, 需要对因子矩阵A、 B和C的列向量进行L2标。
37、 准化。 向量 RR反映模式的重要程度, 称为模式的权重向量。 所以公式5又可以进一步写成 公式6的形式, 其中表示NCP模型: 0075 0076 说明书 6/15 页 10 CN 111639243 A 10 0077张量计算: NCP张量分解是个优化问题, 对于分解目标是得出R个 模式近似表示算法的最小化目标函数公式如下所示: 0078 0079 其中, A0, B0, C0。 因为模型具有非负约束, 从而保证所有的因子矩阵都是非 负的, 使得模式更易于被解释和理解。 0080 在计算张量分解时首先遇到的问题是如何确定模式数量R, 但目前为止没有一个 特定的算法能够有效确定最优的模式数量。
38、。 随着组件数量的不断增加, 模型的匹配度也将 不断提高, 但是这并不意味着模式数量越多越好。 模式数量过多会导致结构从欠拟合转变 为过拟合, 可能会捕获噪声, 并且使许多模式变得无法解释。 在本发明中, 使用集合模拟的 思想, 分别将R3, 4, ., 15作为分解模式数量参数多次运行NCP张量分解。 这不仅规避最 优模式数量选择的问题, 而且显著模式和潜在模式都能够有效捕获, 并加以分析。 因为当模 式数量R较小时, 显著模式很容易被提取, 而潜在模式很难被捕获。 随着R的增大, 显著模式 逐渐被细化, 潜在模式开始出现。 R的选择直接影响模式的质量, 分别对R3, 4, ., 15进行 。
39、分解运算, 有效覆盖了显著模式和潜在模式, 避免因模式数量R选择不当而影响所提取模式 的质量。 0081 当模式数量被确定后, 很多方法可用于计算NCP分解过程, 本发明利用块坐标下降 法求解上述优化问题。 该方法首先随机初始化非负因子矩阵A、 B和C, 然后依次固定其中两 个因子矩阵更新另一个因子矩阵(例如, 固定矩阵B和C, 更新矩阵A), 重复整个过程直到达 到迭代次数或满足收敛条件为止。 0082 提取历史模式集合: 具体来讲, 对于历史张量xhistory, 一次NCP张量分解(公式6)可 得到时间因子矩阵AR、 行业因子矩阵区域因子矩阵CR和历史模式的权重向量 RRR。 因子矩阵的。
40、每一列分别代表了一个多维模式在时间、 行业和空间上的分布。 每一行都是一 个R维向量, 分别代表了在某一时间、 某一行业和某一区域模式发生的可能性, 可以作为对 应时间、 行业和空间的特征向量。 例如, Ai, k捕获第i个时间片上的第k个模式发生的可能 性。 0083 当R分别为3,4,15时, 多次运行NCP分解可以得到三个因子矩阵集合, 记为A set、和Cset(每个维度集合包含13个因子矩阵集合成员, 共计117个模式), 以及模式的 权重向量集合 set。 0084 提取当前模式集合: 因为短期异常事件导致的投诉数量增加会被权重稀释, 所以 历史张量xhistory可以近似看作无异。
41、常事件的常规数据张量, 对它分解可以得到一些基础模 式。 城市时空数据中基础模式的行业分布是稳定的, 短期不会发生显著变化, 只是空间和时 间上有较大差异, 所以假设是历史张量和当前张量的公共因子矩阵, 并将其作为对当前 张量NCP分解迭代过程的已知参数(对应图1步骤)。 最小化目标函数的过程只对时间因子 矩阵AR和区域因子矩阵CR迭代更新, 直到满足停止条件, 如公式8所示。 0085 0086 对于每一个R的取值, 通过公式8的求解, 因子矩阵AR和CR能够捕获到当前周的模式 在时间和空间维度上的分布。 通过多次运行NCP张量分解, 则得到当前周时间因子矩阵集合 说明书 7/15 页 11。
42、 CN 111639243 A 11 Aset和空间矩阵集合Cset。 0087 异常检测: 张量分解是一种典型的降维方法, 该方法试图将高维数据投影到一个 低维的子空间中, 在这个子空间中异常更容易被识别。 因子矩阵可以看作对应维度的降维 结果, 因子矩阵的一行表示对应元素的子空间特征向量。 由于历史张量可以作为没有异常 事件的基准张量, 因此所提取的R个模式可作为常规模式。 将历史时间因子矩阵AR和空间 因子矩阵CR作为基准, 当前时间因子矩阵AR和当前空间因子矩阵CR与基准的差异作为衡量 当前周时间和空间异常程度的依据。 具体来说, 当前区域因子矩阵CR的一行CRd, : 表示第 d个区。
43、域模式的活动水平。 如果该区域存在异常, 它的不同模式的活动水平和历史的模式活 动水平CRd, : 相比会有明显的差异。 0088 设向量SR表示一次的空间异常结果, 其中每个区域的异常分数通过计算该区域历 史和当前特征向量的欧式距离得出, 如公式9所示。 多次运行可以得到空间异常检测集合 Sset。 0089 0090 渐进式划分: 由于城市时空数据的分布与空间行政规划和时段的特异性密切相 关, 所构建的张量各维度分布极不均匀, 如果直接对其进行整体探索, 很难捕获数据中的潜 在模式。 例如, 乡镇的投诉模式和市区有很大的不同, 但是由于城市的投诉数量远远多于乡 镇的投诉数量, 提取到的模式。
44、和异常很难完整体现乡镇投诉数据的特性。 而且对于细粒度 的张量直接分解也存在很大的算力问题。 0091 为了克服上述两个局限性, 采用渐进式的策略。 从粗粒度的初始张量开始, 每次选 取一个维度进行划分, 得到多个内部模式相似的子张量。 然后对小规模的子张量从细粒度 层级进行细节探索。 这不仅能够解决因为分布不均匀导致的模式提取丢失现象, 而且能够 有效解决算力问题。 0092 系统根据当前张量进行渐进划分, 当前张量和历史张量共享划分结果, 从而保证 每个分区的历史模式和当前模式的可对比性。 具体而言, 首先选取一个划分维度, 假设选取 时间维度进行划分, ARi, : 是第i个时间区间的特。
45、征向量。 在已知每个时间区间特征向量 的情况下, 可以应用多种聚类算法(包括k-means、 hierarchical clustering和OPTICS)对 时间数据切片聚类, 然后根据聚类结果对张量进行划分。 如图4所示, 张量被分为工作日数 据张量和周末的数据张量。 其中每个子张量的时间切片在空间和行业的分布相似, 能够显 著提升模型的拟合度, 这有助于从数据子集中获取更清晰的模式和更准确的异常分数。 0093 综上所述, 首先将多维时空数据构建为历史张量和当前张量。 然后, 使用NCP张量 分解的集合化分析方法对当前张量和历史张量以不同参数多次分解, 从而对得到的当前模 式集合和历史模。
46、式集合进行全面分析, 规避了最优模式数量选择和模式偶然性的问题。 最 后, 根据历史和当前模式集合的差异检测区域异常。 为了解决因为海量数据和各维度分布 不均引起的计算效率和模式丢失问题, 采用了渐进式策略, 每次对一个维度进行最优划分, 从而有选择地对子张量进行细粒度地探索, 有效解决潜在模式易被隐藏和细粒度分析时算 法复杂度过高的问题。 0094 为了帮助分析人员有效发现城市时空数据中有价值的模式和异常事件, 基于提出 的时空模式提取与异常检测方法, 设计STPVis可视分析系统, 集成多个协同的可视化视图 与直观的可视化隐喻, 通过可交互的渐进式工作流, 有效解决传统方法对于潜在模式提取。
47、 说明书 8/15 页 12 CN 111639243 A 12 和异常解释的局限性。 系统得到长春市市长办公室数据和人员支持, 和从事市长热线数据 分析的领域专家共同制定了详细的设计需求, 具体如下: 0095 R1实时监测和分析。 随着城市时空数据持续地被收集, 该系统应该包含在线数据 处理管道。 该管道将不断产生的流数据连接到系统进行自适应计算、 可视化和交互, 从而用 户可以对当前的数据进行接近实时地探索和分析, 并及时做出合理的决策。 0096 R2展示模式的概览与详情。 由于城市时空数据的海量、 复杂的特性, 数据中存在着 大量待挖掘和分析的数据模式。 探索大量模式往往是一个迭代和。
48、耗时的过程, 需要选择、 遍 历和观察所有模式, 直到发现有意义的模式。 因此, 系统需要帮助用户更高效地探索大量模 式。 具体地, 系统应该提供高层次的模式概览, 并允许用户立即定位他们感兴趣的模式。 同 时, 系统也应该帮助分析者更好地理解模式, 而单纯通过查看多个协同视图来解释模式通 常也是一项耗时的任务, 因此该系统应该提供一种节省空间且合理的视觉表示来展现模式 的多维信息。 0097 R3展示空间异常。 根据区域的异常分数进行可视化展示, 以帮助用户对可疑信息 进行搜索和过滤, 从而将信息搜索工作转向可疑区域。 系统应该提供粗、 细两种粒度定位异 常区域, 以满足实际工作中异常的行政。
49、区定位和具体地理定位两种需求。 0098 R4解释时空异常。 系统应该提供有效机制用于提取和探索模式的差异, 从而帮助 用户快速发现异常发生的原因, 为分辨可疑区域发生异常是否值得细致探索提供依据。 其 中, 区域异常在行业维度的解释至关重要。 通过可视化技术辅助异常解释, 可以有效避免分 析人员在复杂的实验结果中人为寻找异常产生原因, 从而为分析人员节省大量的分析时 间。 0099 R5支持可交互的渐进分区。 为了支持可迭代的、 渐进的、 自顶向下的分析工作流, 系统应该使分析者能够跟踪他们为获得数据内在信息所采取的分析行为, 并保持他们能够 感知数据子集的上下文信息, 并在必要时撤销数据分。
50、区操作。 为每个子集以可视化方式提 供信息概览从而增强用户对数据的感知是至关重要的, 这有助于用户实现张量的最优化 分。 另外, 提供一个功能完善的划分面板帮助用户根据已有知识选择和调整划分参数是必 要的。 STPVis系统设计了3个主要功能模块, 包括模式探索模块、 异常分析模块和渐进划分 模块, 支持用户自顶向下、 渐进式、 多粒度探索城市多维时空数据。 0100 通过先后对历史张量和当前张量的多次分解, 得到117个历史模式和117个当前模 式。 为了便于用户快速、 全面、 有选择地探索这些模式, 在模式探索模块, 设计了模式投影视 图单元、 模式细节视图单元和模式查询面板单元完成分析任。
- 内容关键字: 时空 数据 渐进 多维 模式 提取 异常 检测 可视 分析 方法
农机动力飞轮喷涂用漆雾废气处理装置.pdf
旁路引流线绝缘防护夹持支架结构.pdf
建筑施工围挡.pdf
推进剂气体浓度监测传感器.pdf
防刺伤采血针.pdf
铸造件快速冷却装置.pdf
工业硅粉制备用研磨装置.pdf
电池盖帽包边用防偏移模具.pdf
拉杆式储能电源箱.pdf
多穴五轴自动光学检测装置.pdf
活塞钻铣床.pdf
混凝土结构表面裂缝检测装置.pdf
羊粪粉碎机的清扫装置.pdf
铁碳微电解填料球.pdf
电感电流过零检测方法及电路.pdf
陶瓷加工的练泥机.pdf
建筑工程用支护装置.pdf
压滤机拉板装置及压滤机.pdf
含油污泥处理水洗装置.pdf
半导体结构及其制备方法.pdf
双环高密度标测消融导管.pdf
洁净手术室用的排风系统.pdf
用于预测转动设备的故障概率的方法、设备和存储介质.pdf
视觉辅助的三极管封装质量检测方法.pdf
可调式肢体活动康复训练装置.pdf
基于分布式光纤声波传感的异常事件识别方法及相关装置.pdf
服装布料用卷绕装置.pdf
鸽子脂肪前体细胞的分离并体外培养方法及培养物和应用.pdf
配置肘式黏滞阻尼器的自复位摇摆结构.pdf
采硐充填方法.pdf
积分球数字仿体系统及成像测评方法.pdf
氯代碳酸乙烯酯的制备方法.pdf
一种含复合晶须的高耐磨颗粒料及其制备方法.pdf
一种有机土壤重金属修复剂.pdf
一种改性聚氨酯防水涂料及其制备方法与施工方法.pdf
一种西他沙星制备方法.pdf
一对用于选育高千粒重小麦品种的功能标记.pdf
一种水性丙烯酸闪光漆及其制备方法.pdf
一种水溶性胶带及其制备方法.pdf
一种乙丙橡胶改性PVC防水卷材及其制作工艺.pdf
一种硝酰胺的合成方法.pdf
一种LED封装材料及其制备方法和应用.pdf
钢结构防火涂料.pdf
一种谷朊粉肽的提取设备.pdf
一种乳腺癌21基因建库试剂盒.pdf
一种二甲戊灵半抗原与抗原的制备方法及应用.pdf
一种建筑内墙工程乳胶漆的制备方法.pdf
一种弹性密封胶的制备方法.pdf
人博卡病毒检测试剂盒.pdf
一种聚酰胺木塑复合材料及其制备方法.pdf
成膜材料、有机硅树脂乳液、及用于消声器的防护涂料.pdf