《数据过滤装置和方法,以及数据处理装置和方法.pdf》由会员分享,可在线阅读,更多相关《数据过滤装置和方法,以及数据处理装置和方法.pdf(29页完整版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103514195 A (43)申请公布日 2014.01.15 CN 103514195 A (21)申请号 201210212664.5 (22)申请日 2012.06.21 G06F 17/30(2006.01) (71)申请人 富士通株式会社 地址 日本神奈川县 (72)发明人 张明明 陆应亮 夏迎炬 (74)专利代理机构 北京集佳知识产权代理有限 公司 11227 代理人 王萍 李春晖 (54) 发明名称 数据过滤装置和方法, 以及数据处理装置和 方法 (57) 摘要 本发明提供了数据过滤装置和方法、 数据处 理装置和方法、 无线定位设备和方法以及信息处 理。
2、设备, 以至少克服现有的数据过滤技术的处理 精度和/或准确度低的问题。 数据过滤装置包括 : 近邻集确定单元, 其被配置用于确定待处理数据 集中满足预定条件的数据子集中的每个数据的近 邻集 ; 计算单元, 其被配置用于分别计算上述数 据子集中的每个数据的近邻集中包含的数据量 ; 以及过滤单元, 其被配置用于基于上述数据子集 中的每个数据的近邻集中包含的数据量, 对上述 数据子集中的数据进行过滤, 以获得过滤后的数 据集。数据过滤方法用于执行能够实现上述数据 过滤装置的功能的处理。本发明的上述技术能够 提高数据过滤的精度和 / 或准确度, 可以用于数 据处理领域。 (51)Int.Cl. 权利要。
3、求书 2 页 说明书 15 页 附图 11 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书2页 说明书15页 附图11页 (10)申请公布号 CN 103514195 A CN 103514195 A 1/2 页 2 1. 一种数据过滤装置, 包括 : 近邻集确定单元, 其被配置用于确定待处理数据集中满足预定条件的数据子集中的每 个数据的近邻集 ; 计算单元, 其被配置用于分别计算所述数据子集中的每个数据的近邻集中包含的数据 量 ; 以及 过滤单元, 其被配置用于基于所述数据子集中的每个数据的近邻集中包含的数据量, 对所述数据子集中的数据进行过滤, 以获得过滤后的数。
4、据集。 2. 根据权利要求 1 所述的数据过滤装置, 其中, 所述过滤单元包括 : 确定子单元, 其被配置用于针对所述数据子集中的每个数据, 确定在该数据的近邻集 中是否存在这样的极大密度数据 : 在该数据的近邻集内的所有数据中, 所述极大密度数据 的近邻集中包含的数据量最多, 并且所述极大密度数据的近邻集中包含的数据量多于该数 据的近邻集中包含的数据量 ; 以及 过滤子单元, 其被配置用于针对所述数据子集中的每个数据, 在该数据的近邻集中存 在所述极大密度数据、 且该数据不是所述数据子集中任一数据的近邻集中的极大密度数据 的情况下删除该数据。 3. 根据权利要求 1 所述的数据过滤装置, 其。
5、中, 所述过滤单元包括 : 映射子单元, 其被配置用于针对所述数据子集中的每个数据, 确定在该数据的近邻集中是否存在这样的极大密度数据 : 在该数据的近邻集内的所有 数据中, 所述极大密度数据的近邻集中包含的数据量最多, 并且所述极大密度数据的近邻 集中包含的数据量多于该数据的近邻集中包含的数据量 ; 以及 基于确定的结果来作出如下映射 : 若该数据的近邻集中存在极大密度数据, 则将该极 大密度数据作为该数据的像, 否则, 将该数据本身作为该数据的像 ; 以及 获得子单元, 其被配置用于将所述数据子集中的每个数据的像组成的集合确定为所述 数据子集的过滤结果。 4. 根据权利要求 1-3 中任一。
6、所述的数据过滤装置, 其中, 所述近邻集确定单元包括 : 近邻数据确定子单元, 其被配置用于将所述数据子集的分布图中的每个数据的预设窗 口内的其他数据确定为该数据的近邻数据 ; 以及 近邻集确定子单元, 其被配置用于将所述数据子集中的每个数据的所有近邻数据所组 成的集合作为该数据的近邻集。 5. 一种数据过滤方法, 包括 : 确定待处理数据集中满足预定条件的数据子集中的每个数据的近邻集 ; 分别计算所述数据子集中的每个数据的近邻集中包含的数据量 ; 以及 基于所述数据子集中的每个数据的近邻集中包含的数据量, 对所述数据子集中的数据 进行过滤, 以获得过滤后的数据集。 6. 一种基于支持向量回归。
7、的数据处理装置, 其中, 所述数据处理装置包括如权利要求 1-4 中任一所述的数据过滤装置, 所述数据过滤装置被配置用于对训练阶段中所使用的训 练数据预先进行过滤。 7. 一种无线定位设备, 包括训练装置和定位装置, 还包括如权利要求 1-4 中任一所述 权 利 要 求 书 CN 103514195 A 2 2/2 页 3 的数据过滤装置, 其中, 所述数据过滤装置被配置用于对训练数据进行过滤, 其中, 所述训练数据包括多个位 置以及与所述多个位置中的每一个相对应的 RSS 数据值 ; 所述训练装置被配置用于利用经过所述数据过滤装置过滤的训练数据来训练支持向 量回归模型 ; 以及 所述定位装置。
8、被配置用于基于与待定位对象相关的 RSS 数据值, 以及利用经过所述训 练装置训练的支持向量回归模型, 来获得所述待定位对象的位置。 8. 一种信息处理设备, 包括 : 如权利要求 1-4 中任一所述的数据过滤装置 ; 或 如权利要求 6 所述的基于支持向量回归的数据处理装置 ; 或 如权利要求 7 所述的无线定位设备。 9. 一种基于支持向量回归的数据处理方法, 其中, 所述数据处理方法的训练阶段中包 括如下步骤 : 利用如权利要求 5 所述的数据过滤方法对训练阶段中所使用的训练数据预先进行过 滤。 10. 一种无线定位方法, 包括 : 获得训练数据, 其中, 所述训练数据包括多个位置以及与。
9、所述多个位置中的每一个相 对应的 RSS 数据值 ; 对所述训练数据进行过滤 ; 利用经过过滤的训练数据来训练支持向量回归模型 ; 以及 基于与待定位对象相关的 RSS 数据值, 以及利用经过训练的支持向量回归模型, 来获 得所述待定位对象的位置 ; 其中, 所述的对所述训练数据进行过滤的步骤通过如权利要求 5 所述的数据过滤方法 来实现。 权 利 要 求 书 CN 103514195 A 3 1/15 页 4 数据过滤装置和方法, 以及数据处理装置和方法 技术领域 0001 本发明涉及数据处理领域, 尤其涉及一种数据过滤装置和方法, 数据处理装置和 方法, 无线定位设备和方法, 以及信息处理。
10、设备。 背景技术 0002 在对海量数据进行数据挖掘、 分析等过程中, 经常需要对数据进行回归、 聚类等传 统处理操作, 然而由于庞大的数据量, 往往会导致数据处理效率低下。 为了提高数据处理效 率, 特别是提高需要进行迭代的回归或聚类等的数据处理, 高效、 准确的数据过滤或约减技 术变得尤其重要。 0003 现有技术中, 通常通过间隔采样的方法来对给定的数据集进行数据约减 (过滤) , 或是首先对数据集进行聚类, 然后, 对各个数据块中的数据求平均值, 用该平均值作为采样 数据。上述数据过滤方法均没有考虑各个数据点自身的特性, 使得一些对数据分析起关键 作用的数据点在数据约减进程中丢失, 而。
11、对数据分析贡献较小的数据得以保留, 从而降低 了诸如数据分析等数据处理的精度和 / 或准确度。 发明内容 0004 在下文中给出了关于本发明的简要概述, 以便提供关于本发明的某些方面的基本 理解。应当理解, 这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分, 也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念, 以此作为稍后论述的更详细描述的前序。 0005 鉴于现有技术的上述缺陷, 本发明要解决的技术问题在于提供一种数据过滤装置 和方法、 数据处理装置和方法、 无线定位设备和方法以及信息处理设备, 以至少解决现有的 数据过滤技术的处理精度和 / 。
12、或准确度低的问题。 0006 为解决上述技术问题, 根据本发明的一个方面, 提供了一种数据过滤装置, 该数据 过滤装置包括 : 近邻集确定单元, 其被配置用于确定待处理数据集中满足预定条件的数据 子集中的每个数据的近邻集 ; 计算单元, 其被配置用于分别计算上述数据子集中的每个数 据的近邻集中包含的数据量 ; 以及过滤单元, 其被配置用于基于上述数据子集中的每个数 据的近邻集中包含的数据量, 对上述数据子集中的数据进行过滤, 以获得过滤后的数据集。 0007 根据本发明的另一个方面, 还提供了一种基于支持向量回归的数据处理装置, 其 中, 上述数据处理装置包括如上所述的数据过滤装置, 上述数据。
13、过滤装置被配置用于对训 练阶段中所使用的训练数据预先进行过滤。 0008 根据本发明的另一个方面, 还提供了一种无线定位设备, 该无线定位设备包括训 练装置和定位装置, 还包括如上所述的数据过滤装置, 其中, 上述数据过滤装置被配置用于 对训练数据进行过滤, 其中, 上述训练数据包括多个位置以及与上述多个位置中的每一个 相对应的 RSS 数据值 ; 上述训练装置被配置用于利用经过上述数据过滤装置过滤的训练数 据来训练支持向量回归模型 ; 以及上述定位装置被配置用于基于与待定位对象相关的 RSS 说 明 书 CN 103514195 A 4 2/15 页 5 数据值, 以及利用经过上述训练装置训。
14、练的支持向量回归模型, 来获得上述待定位对象的 位置。 0009 根据本发明的另一个方面, 还提供了一种信息处理设备, 该信息处理设备包括如 上所述的数据过滤装置或如上所述的基于支持向量回归的数据处理装置或如上所述的无 线定位设备。 0010 根据本发明的又一个方面, 还提供了一种数据过滤方法, 该数据过滤方法包括 : 确 定待处理数据集中满足预定条件的数据子集中的每个数据的近邻集 ; 分别计算上述数据子 集中的每个数据的近邻集中包含的数据量 ; 以及基于上述数据子集中的每个数据的近邻集 中包含的数据量, 对上述数据子集中的数据进行过滤, 以获得过滤后的数据集。 0011 根据本发明的又一个方。
15、面, 还提供了一种支持向量回归的数据处理方法, 其中, 该 分类方法的训练阶段中包括如下步骤 : 利用如上所述的数据过滤方法对训练阶段中所使用 的训练数据预先进行过滤。 0012 根据本发明的又一个方面, 还提供了一种无线定位方法, 该无线定位方法包括 : 获 得训练数据, 其中, 上述训练数据包括多个位置以及与上述多个位置中的每一个相对应的 RSS 数据值 ; 对上述训练数据进行过滤 ; 利用经过过滤的训练数据来训练支持向量回归模 型 ; 基于与待定位对象相关的 RSS 数据值, 以及利用经过训练的支持向量回归模型, 来获得 上述待定位对象的位置 ; 其中, 上述的对上述训练数据进行过滤的步。
16、骤通过如上所述的数 据过滤方法来实现。 0013 根据本发明的又一个方面, 还提供了一种存储有机器可读取的指令代码的程序产 品, 该程序产品在执行时能够使上述机器执行如上所述的数据过滤方法或如上所述的基于 支持向量回归的数据处理方法或如上所述的无线定位方法。 0014 依据本发明的其它方面, 还提供了相应的计算机可读存储介质, 该计算机可读存 储介质上存储有如上所述的程序产品。 0015 上述根据本发明实施例的数据过滤装置和方法、 数据处理装置和方法、 无线定位 设备和方法以及信息处理设备, 能够实现至少以下益处之一 : 能够提高数据过滤的精度和 / 或准确度 ; 能够在实现大量数据约减的同时。
17、将数据约减对待进行的数据处理的影响降到 最低 ; 具有较高的数据处理效率和数据处理精度 ; 以及具有较高的定位效率和定位精度。 0016 通过以下结合附图对本发明的最佳实施例的详细说明, 本发明的这些以及其他优 点将更加明显。 附图说明 0017 本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解, 其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。 所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分, 而且用来进一步举例说明本 发明的优选实施例和解释本发明的原理和优点。在附图中 : 0018 图 1 是示意性地示出根据本发明的实施例的数据过。
18、滤装置的一种示例结构的框 图。 0019 图 2 是示意性地示出如图 1 所示的近邻集确定单元 110 的一种可能的示例结构的 框图。 说 明 书 CN 103514195 A 5 3/15 页 6 0020 图 3A 是示出预设窗口为方形窗口的一个示例的示意图。 0021 图 3B 是示出预设窗口为圆形窗口的一个示例的示意图。 0022 图 4A 是示意性地示出如图 1 所示的过滤单元的一种可能的示例结构的框图。 0023 图 4B 是示意性地示出如图 1 所示的过滤单元的另一种可能的示例结构的框图 0024 图 5A- 图 5F 是示出如图 3B 所示示例中每个数据的预设窗口内包含的数据的。
19、示意 图, 图 5G 是示出过滤结果的示意图。 0025 图 6 是示意性地示出根据本发明的实施例的数据过滤装置的另一种示例结构的 框图。 0026 图 7 是示意性地示出根据本发明的实施例的数据过滤方法的一种示例性处理的 流程图。 0027 图 8 是示意性地示出根据本发明的实施例的无线定位设备的一种示例结构的框 图。 0028 图 9 是示意性地示出根据本发明的实施例的无线定位方法的一种示例性处理的 流程图。 0029 图 10 是示出了可用来实现根据本发明的实施例的数据过滤装置和方法、 或根据 本发明的实施例的数据处理装置和方法、 或根据本发明的实施例的无线定位设备和方法的 一种可能的信。
20、息处理设备的硬件配置的结构简图。 0030 本领域技术人员应当理解, 附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。 例如, 附图中某些元件的尺寸可能相对于其他元件放大了, 以 便有助于提高对本发明实施例的理解。 具体实施方式 0031 在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。 然而, 应该了解, 在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定, 以便实现开发人员的具体目标, 例如, 符 合与系统及业务相关的那些限制条件, 并且这些限制条件可能会随着实施方式的不同而有 所改。
21、变。此外, 还应该了解, 虽然开发工作有可能是非常复杂和费时的, 但对得益于本公开 内容的本领域技术人员来说, 这种开发工作仅仅是例行的任务。 0032 在此, 还需要说明的一点是, 为了避免因不必要的细节而模糊了本发明, 在附图中 仅仅示出了与根据本发明的方案密切相关的装置结构和 / 或处理步骤, 而省略了与本发明 关系不大的其他细节。 0033 本发明的实施例提供了一种数据过滤装置, 该数据过滤装置包括 : 近邻集确定单 元, 其被配置用于确定待处理数据集中满足预定条件的数据子集中的每个数据的近邻集 ; 计算单元, 其被配置用于分别计算上述数据子集中的每个数据的近邻集中包含的数据量 ; 以。
22、及过滤单元, 其被配置用于基于上述数据子集中的每个数据的近邻集中包含的数据量, 对上述数据子集中的数据进行过滤, 以获得过滤后的数据集。 0034 下面结合图 1 来详细描述根据本发明的实施例的数据过滤装置的一个示例。 0035 图 1 是示意性地示出根据本发明的实施例的数据过滤装置的一种示例结构的框 图。如图 1 所示, 根据本发明的实施例的数据过滤装置 100 包括近邻集确定单元 110、 计算 说 明 书 CN 103514195 A 6 4/15 页 7 单元 120 和过滤单元 130。 0036 如图 1 所示, 在数据过滤装置 100 中, 近邻集确定单元 110 用于确定待处理。
23、数据集 中满足预定条件的数据子集中的每个数据的近邻集。 0037 在根据本发明的实施例的数据过滤装置的具体实现方式中, 上述待处理数据集中 所包括的待处理数据例如可以是通过实验所采集的测量数据, 也可以是对测量数据进行了 初步计算处理之后的数据, 这些数据待进行的处理例如可以是存储、 检索、 回归、 聚类检索 或变换等各种数据处理。 0038 此外, 在根据本发明的实施例的数据过滤装置的具体实现方式中, 上述待处理数 据集中所包括的待处理数据例如可以是一维数据, 或者可以是二维或二维以上的多维数 据。需要注意的是, 上述待处理数据集中所包括的各个待处理数据的维数是相同的。例如, 在根据本发明的。
24、实施例的数据过滤装置的一个示例中, 上述待处理数据集中所包括的待处 理数据可以是多个用于支持向量回归 (support vector regression, SVR) 处理的训练数 据, 以及每个训练数据包含数据值和位置信息, 其中, 上述数据值可以是一维、 二维或多维 的。 0039 其中,“待处理数据集中满足预定条件的数据子集” 例如可以是待处理数据集本 身, 或者也可以是由上述待处理数据集中的符合一定条件的部分待处理数据所组成的集 合。例如, 在待处理数据集中的待处理数据包含表征幅值或频率大小等的数据值时, 可以 在待处理数据中选择那些幅值或频率等高于第一预定阈值的数据所构成的集合, 作。
25、为上述 “满足预定条件的数据子集” 。其中, 第一预定阈值例如可以根据经验值设定, 或者可以通过 试验的方法来确定, 在此省略其详细描述。 0040 此外, 需要说明的是, 上述数据子集中某个数据的 “近邻集” 是指由该数据的相邻 数据所组成的集合, 也即指在上述数据子集的分布图中、 分布在该数据周围的那些数据所 组成的集合。下面结合图 2 来描述近邻集确定单元 110 的一个示例结构。其中, 数据集或 数据子集的分布图是利用数据集或数据子集中的各数据的多维分量所构建的。例如, 对于 全部为三维数据的待处理数据所构成的数据集或数据子集, 构建三维坐标系, 使所构建的 坐标系中的每个坐标轴分别对。
26、应待处理数据的其中一维数据, 即可获得该数据集或数据子 集的分布图。 0041 图 2 是示意性地示出如图 1 所示的近邻集确定单元 110 的一种可能的示例结构的 框图。如图 2 所示, 在根据本发明的实施例的数据过滤装置的一个示例中, 近邻集确定单元 110 可以包括近邻数据确定子单元 210 和近邻集确定子单元 220。 0042 其中, 近邻数据确定子单元 210 用于确定上述数据子集中每个数据的近邻数据。 例如, 在上述数据子集的分布图中, 针对该分布图中的每一个数据, 近邻数据确定子单元 210 可以将该数据的预设窗口内的其他数据确定为该数据的近邻数据。其中, 上述 “预设窗 口”。
27、 可以是诸如方形、 圆形等各种预定形状的窗口。下面结合图 3A 和图 3B 来分别描述上述 “预设窗口” 的两个示例。 0043 其中, 图 3A 示出了上述 “预设窗口” 为方形窗口的一个示例。如图 3A 所示, 数据 P 以及数据 PA1、 PA2、 PA3、 PA4、 PA5和 PA6例如是待处理数据集的一个数据子集中的全部数据, 或 者是该数据子集中的部分数据。 0044 在下文中, 将以数据 P 以及以及数据 PA1PA6是待处理数据集的一个数据子集中的 说 明 书 CN 103514195 A 7 5/15 页 8 全部数据为例来进行描述。图 3A 示出了上述数据子集中的数据的分布。
28、, 也即, 示出了上述 数据子集的分布图。如图 3A 所示, 在该示例中, 上述数据子集中的各个数据例如均为二维 数据, 其中一维作为横轴坐标, 另一维作为纵轴坐标。需要说明的是, 本发明的实施例将以 待处理数据为二维数据的情况为例来进行说明和描述 (如下文中将要描述的图 3B 以及图 5A 图 5G) , 本领域的技术人员可以据此获知待处理数据是一维或多维数据的情况下的相 应处理, 因此将省略对一维或多维数据情况下的对应描述。 0045 如图 3A 所示, 在该示例中, 针对上述数据子集的分布图中的任意一个数据 P, 其 “预设窗口” 可以是以数据 P 为中心的预定尺寸的方形窗口 W1。例如。
29、, 上述方形窗口 W1 的 边长可以为 2d, d 为预设正数。如图 3A 所示, 在数据 P 的预设窗口 (即方形窗口 W1) 中, 除 数据 P 本身之外共包括 6 个数据 PA1、 PA2、 PA3、 PA4、 PA5和 PA6。因此, 在如图 3A 所示示例中, 数 据 P 的近邻数据为数据 PA1PA6。需要注意的是, 为了清楚起见, 在图 3A 以及接下将要描述 的图 3B 和图 5A5G 中, 分别采用一个黑色实心正方形表示一个数据。 0046 此外, 图 3B 示出了上述 “预设窗口” 为圆形窗口的一个示例。在该示例中, 针对上 述数据子集的分布图中的任意一个数据 P, 其 “。
30、预设窗口” 可以是如图 3B 所示的以数据 P 为 圆心的圆形窗口 W2。例如, 上述圆形窗口的半径可以为 r, r 为预设正数。如图 3B 所示, 在 数据 P 的预设窗口 (即圆形窗口 W2) 中, 除数据 P 本身之外共包括 4 个数据 PA1、 PA2、 PA3和 PA4 (数据 PA5和 PA6在圆形窗口 W2 外) 。因此, 在如图 3B 所示示例中, 数据 P 的近邻数据为数据 PA1PA4。 0047 需要说明的是, d 和 r 的数值可以根据经验值来设定, 也可以通过试验的方法来确 定, 在此省略其描述。此外, 上述 “预设窗口” 的形状和 / 或尺寸也可以根据实际情况来设 。
31、定。 0048 由此, 利用近邻数据确定子单元 210 可以获得上述数据子集的分布图中的每个数 据的近邻数据, 也即, 可以获得上述数据子集中的每个数据的近邻数据。于是, 针对于上述 数据子集中的每个数据, 近邻集确定子单元 220 可以将该数据的所有近邻数据所组成的集 合确定为该数据的近邻集。 0049 例如, 在图 3A 所示示例中, 针对数据 P, 近邻集确定子单元 220 可以将方形窗口 W1 中的数据 PA1PA6所组成的集合确定为数据 P 的近邻集。又如, 在图 3B 所示示例中, 针对数 据 P, 近邻集确定子单元 220 可以将圆形窗口 W2 中的数据 PA1PA4所组成的集合。
32、确定为数据 P的近邻集。 类似地, 在图3A或图3B所示示例中, 可以分别确定其他数据的近邻集, 在此不 再赘述。 0050 此外, 如图1所示, 计算单元120可以用于分别计算上述数据子集中的每个数据的 近邻集中包含的数据量。 0051 在根据本发明的实施例的数据过滤装置的一种具体实现方式中, 计算单元 120 可 以被配置成 : 针对上述数据子集中的每个数据, 将该数据的近邻集中包含的所有数据的个 数作为该数据的近邻集中包含的数据量。例如, 在图 3A 所示示例中, 数据 P 的近邻集中包 含的所有数据的个数为 6, 因此, 计算单元 120 所计算的数据 P 的近邻集中包含的数据量的 数。
33、值是 6。 0052 类似地, 在图 3B 所示示例中, 计算单元 120 所计算的数据 P 的近邻集中包含的数 据量的数值是 4。 说 明 书 CN 103514195 A 8 6/15 页 9 0053 此外, 在根据本发明的实施例的数据过滤装置的另一种具体实现方式中, 计算单 元 120 也可以被配置成 : 针对上述数据子集中的每个数据, 将该数据的近邻集中包含的所 有数据各自的权重之和作为该数据的近邻集中包含的数据量。例如, 在图 3A 所示示例中, 若数据 P 的近邻集中包含的所有数据 PA1PA6各自的权重分别为 wA1、 wA2、 wA3、 wA4、 wA5和 wA6, 则 计算。
34、单元 120 所计算的数据 P 的近邻集中包含的数据量的数值是 (wA1+wA2+wA3+wA4+wA5+wA6) 。 0054 其中, 在一个例子中, 在将该数据的近邻集中所包含的所有数据各自的权重之和 作为该数据的近邻集中包含的数据量的情况下, 每个数据的权重例如可以利用径向基函数 来获得。例如, 以数据 P 为中心、 利用径向基函数可以获得数据 P 的近邻集中包含的所有数 据 PA1PA6各自的权重值。 0055 类似地, 可以获得其他数据的近邻集中包含的各数据的权重值。 需要说明的是, 每 个数据的权重也可以根据其他方法来确定, 例如, 可以根据经验值来设定, 或者可以通过试 验的方法。
35、来确定, 在此不再赘述。 0056 此外, 在其他例子中, 在将该数据的近邻集中所包含的所有数据各自的权重之和 作为该数据的近邻集中包含的数据量的情况下, 针对上述数据子集中的每个数据, 计算单 元 120 例如可以将该数据的近邻集中距离该数据越近的数据的权重设置得越大。例如, 在 图 3A 所示示例中, 在计算数据 P 的近邻集中包含的各数据的权重时, 数据 PA1比数据 PA6距 离数据 P 更近, 则计算单元 120 可以将数据 PA1的权重设置的比数据 PA6的权重更大。 0057 此外, 如图 1 所示, 过滤单元 130 可以基于计算单元 120 的计算结果, 也即, 可以基 于上。
36、述数据子集中的每个数据的近邻集中包含的数据量, 对上述数据子集中的数据进行过 滤, 以获得过滤后的数据集。 0058 图 4A 是示意性地示出如图 1 所示的过滤单元 130 的一种可能的示例结构的框图。 如图 4A 所示, 在根据本发明的实施例的数据过滤装置的一种具体实现方式中, 过滤单元 130 可以包括确定子单元 410 和过滤子单元 420。 0059 在该实现方式中, 确定子单元 410 可以用于确定在上述数据子集中的每个数据的 近邻集中是否存在极大密度数据, 在该数据的近邻集中存在极大密度数据、 且该数据不是 上述数据子集中任一数据的近邻集中的极大密度数据的情况下, 过滤子单元 4。
37、20 删除该数 据。 0060 其中, 针对于上述数据子集中的任一数据P来说, 若数据P的近邻集中存在这样的 数据 M, 使得在数据 P 的近邻集内的所有数据中、 数据 M 的近邻集中包含的数据量最多 (也 即, 数据 M 的近邻集中包含的数据量比数据 P 的近邻集内除 M 之外的任一数据的近邻集中 包含的数据量都多) , 并且数据 M 的近邻集中包含的数据量多于数据 P 的近邻集中包含的数 据量, 则称数据 M 为数据 P 的近邻集中的极大密度数据。 0061 图 4B 是示意性地示出如图 1 所示的过滤单元 130 的另一种可能的示例结构的框 图。如图 4B 所示, 在根据本发明的实施例的。
38、数据过滤装置的另一种具体实现方式中, 过滤 单元 130 可以包括映射子单元 450 和获得子单元 460。 0062 在该实现方式中, 映射子单元 450 可以被配置成 : 针对上述数据子集中的每个数 据, 确定在该数据的近邻集中是否存在极大密度数据, 并基于确定结果来作出如下映射 : 若 该数据的近邻集中存在极大密度数据, 则将该数据的近邻集中的这个极大密度数据作为该 数据的像 ; 否则, 将该数据本身作为该数据的像。其中, 这里的 “极大密度数据” 与上文所述 说 明 书 CN 103514195 A 9 7/15 页 10 含义相同, 在此省略其描述。 0063 此外, 在该实现方式中。
39、, 获得子单元 460 可以将上述数据子集中的每个数据的像 所组成的集合确定为上述数据子集的过滤结果。 0064 下面结合图 3B 和图 5A5G 来详细描述根据本发明的实施例的数据过滤装置的另 一个应用示例。 0065 在该应用示例中, 每个数据的预设窗口例如为以该数据为圆心、 半径为 r 的圆形 窗口 (如图 3B、 图 5A5F 所示) 。 0066 如图 3B 所示, 由前述可知, 在该应用示例中, 数据 P 的近邻集中包含 4 个数据 PA1、 PA2、 PA3和 PA4。此外, 与图 3B 类似地, 由图 5A 5F 可知, 数据 PA4的近邻集中包含 3 个数据 P、 PA1和 。
40、PA5(如图 5A 所示) , 数据 PA1的近邻集中包含 3 个数据 P、 PA2和 PA4(如图 5B 所示) , 数据 PA2的近邻集中包含 3 个数据 P、 PA1和 PA3(如图 5C 所示) , 以及数据 PA3的近邻集中包 含 3 个数据 P、 PA2和 PA6(如图 5D 所示) , 数据 PA6的近邻集中仅包含数据 PA3(如图 5E 所示) , 以及数据 PA5的近邻集中仅包含数据 PA4(如图 5F 所示) 。 0067 由此可知, 数据 P 的近邻集中包含 4 个数据, 而数据 P 的近邻集中所包含的上述 4 个数据各自的近邻集中分别包含 3 个数据, 因此, 数据 P。
41、 的近邻集中不存在极大密度数据。 0068 此外, 如图 5B 所示, 数据 PA1的近邻集中包含 3 个数据 P、 PA2和 PA4, 而通过上文描 述可知, 数据 P 的近邻集中包含 4 个数据, 数据 PA2和 PA4各自的近邻集中分别包含 3 个数 据, 因此, 数据 PA1的近邻集中的极大密度数据为数据 P。 0069 类似地, 可以得知, 数据PA2、 PA3和PA4的近邻集中的极大密度数据均为数据P, 以及 数据PA6的近邻集中的极大密度数据为数据PA3, 数据PA5的近邻集中的极大密度数据为数据 PA4。 0070 在一个实现方式中, 若过滤单元 130 采用如图 4A 所示的。
42、结构和配置, 则确定子单 元 410 可以确定数据 P 的近邻集中不存在极大密度数据, 以及可以确定数据 PA1PA6各自的 极大密度数据 (如上所述) 。 0071 由于数据 PA1的近邻集中的极大密度数据是 P, 且 PA1不是上述数据子集中任一数 据的近邻集中的极大密度数据, 因此过滤子单元 420 将删除数据 PA1。 0072 类似地, 过滤子单元 420 将删除数据 PA2、 PA5和 PA6。需要注意的是, 数据 PA3的近邻 集中的极大密度数据是 P, 但数据 PA3是数据 PA6的近邻集中的极大密度数据, 因此过滤子单 元 420 不会删除数据 PA3。同理, 过滤子单元 4。
43、20 不会删除数据 PA4。此外, 由于数据 P 的近 邻集中不存在极大密度数据, 因此数据 P 将不会被删除。 0073 因此, 经过过滤子单元 420 的过滤处理之后, 上述数据子集 (包括数据 P 以及 PA1PA6) 中将最终剩下数据 P、 PA3和 PA4(如图 5G 所示) 。 0074 此外, 在另一个实现方式中, 过滤单元130采用如图4B所示的结构和配置, 则利用 映射子单元 450 可以得到如下结果 : 0075 数据 P、 PA1、 PA2、 PA3、 PA4、 PA5和 PA6各自的像依次分别为数据 P、 P、 P、 P、 P、 PA4、 PA3。 由于数据 P、 PA。
44、1、 PA2、 PA3和 PA4的像是相同的, 因此获得子单元 460 所得到的像集为 P、 PA4和 PA3(如图 5G 所示) , 并将 P、 PA4和 PA3 作为过滤后的结果。 0076 下面结合图 6 来详细描述根据本发明的实施例的数据过滤装置的另一个示例。 0077 图 6 是示意性地示出根据本发明的实施例的数据过滤装置的另一种示例结构的 说 明 书 CN 103514195 A 10 8/15 页 11 框图。如图 6 所示, 根据本发明的实施例的数据过滤装置 600 包括近邻集确定单元 610、 计 算单元 620 和过滤单元 630。其中, 计算单元 620 和过滤单元 63。
45、0 可以具有与如图 1 所示的 数据过滤装置 100 中的对应单元相同的结构和功能, 并能够达到相类似的技术效果, 在此 不再赘述。 0078 此外, 与图 1 所示的数据过滤装置 100 中的近邻集确定单元 110 类似地, 图 6 所示 近邻集确定单元 610 同样可以用于确定待处理数据集中满足预定条件的数据子集中的每 个数据的近邻集。其中, 与近邻集确定单元 110 不同的是, 近邻集确定单元 610 中包括数据 子集确定子单元 612, 数据子集确定子单元 612 可以用于确定上文所述的 “待处理数据集中 满足预定条件的数据子集” 。需要说明的是, 虽然在图 6 中所示的数据过滤装置 。
46、600 中, 仅 示出了近邻集确定单元610中的数据子集确定子单元612, 但除了数据子集确定子单元612 之外, 近邻集确定单元 610 中还可以包括其他子单元以实现近邻集确定单元 610 的其他功 能和处理。 0079 在根据本发明的实施例的数据过滤装置 600 的一种具体实现方式中, 数据子集确 定子单元 612 可以被配置成 : 将上述待处理数据集的分布图划分为多个区域, 并从上述多 个区域中的每个区域中分别采样至少一个数据作为该区域的代表数据, 将上述多个区域的 代表数据所组成的集合作为上述数据子集。在一个例子中, 在待处理数据集中的待处理数 据包含表征幅值或频率大小等的数据值时, 。
47、可以在上述多个区域中的每个区域中滤除掉那 些幅值或频率等低于第二预定阈值的数据, 将每个区域中剩下的数据作为该区域的代表数 据。其中, 第二预定阈值例如可以根据经验值设定, 或者可以通过试验的方法来确定, 在此 省略其详细描述。 0080 通过以上描述可知, 上述根据本发明的实施例的数据过滤装置, 其通过针对待处 理数据集的数据子集中的每个数据, 判定在上述每个数据的近邻集中是否存在极大密度数 据, 以基于判定结果来对上述数据子集进行过滤, 获得过滤后的数据集。 相比于传统的数据 过滤技术, 根据本发明的实施例的上述数据过滤装置能够使得过滤后的数据集保持与过滤 前的数据集更接近的分布特性, 由。
48、此, 在实现大量数据约减的同时能够将数据约减对待进 行的数据处理的影响降到最低。此外, 能够提高数据过滤的精度和 / 或准确度。 0081 此外, 本发明的实施例还提供了一种数据过滤方法, 下面结合图 7 来描述上述数 据过滤方法的一种示例性处理。 0082 图 7 是示意性地示出根据本发明的数据过滤方法的一种示例性处理的流程图。 0083 如图 7 所示, 根据本发明的实施例的数据过滤方法的处理流程 700 开始于步骤 S710, 然后执行步骤 S720。 0084 在步骤 S720 中, 确定待处理数据集中满足预定条件的数据子集中的每个数据的 近邻集。然后执行步骤 S730。其中, 步骤 。
49、S720 中所执行的处理例如可以与上文中结合图 1 图 3B 所描述的近邻集确定单元 110 的处理相同, 并能够达到类似的技术效果, 在此不再 赘述。此外, 上述 “待处理数据集中满足预定条件的数据子集” 例如可以通过如上文中结合 图 6 所描述的数据子集确定子单元 612 的处理来获得, 在此省略其描述。 0085 在步骤 S730 中, 分别计算上述数据子集中的每个数据的近邻集中包含的数据量。 然后执行步骤S740。 其中, 步骤S730中所执行的处理例如可以与上文中所描述的计算单元 120 的处理相同, 并能够达到类似的技术效果, 在此不再赘述。 说 明 书 CN 103514195 A 11 9/15 页 12 0086 在步骤 S740 中, 基于上述数据子集中的每个数据的近邻集中包含的数据量, 对上 述数据子集中的数据进行过滤, 以获得过滤后的数据集。然后执行步骤 S750。其中, 步骤 S。