针对用户时空数据行为检测的Adaboost方法.pdf

上传人:没水****6 文档编号:10758558 上传时间:2021-08-10 格式:PDF 页数:13 大小:588.88KB
收藏 版权申诉 举报 下载
针对用户时空数据行为检测的Adaboost方法.pdf_第1页
第1页 / 共13页
针对用户时空数据行为检测的Adaboost方法.pdf_第2页
第2页 / 共13页
针对用户时空数据行为检测的Adaboost方法.pdf_第3页
第3页 / 共13页
文档描述:

《针对用户时空数据行为检测的Adaboost方法.pdf》由会员分享,可在线阅读,更多相关《针对用户时空数据行为检测的Adaboost方法.pdf(13页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911222910.3 (22)申请日 2019.12.03 (71)申请人 南京大学 地址 210046 江苏省南京市栖霞区仙林大 道163号 (南大仙林校区) (72)发明人 张雷淦珺曾成罗向阳 (74)专利代理机构 南京瑞弘专利商标事务所 (普通合伙) 32249 代理人 彭雄 (51)Int.Cl. G06F 16/901(2019.01) G06K 9/62(2006.01) (54)发明名称 一 种 针 对 用 户时 空 数 据 行 为 检 测 的 Adaboo。

2、st方法 (57)摘要 本发明公开了一种针对用户时空数据行为 检测的Adaboost方法, 根据用户的时空数据, 空 间数据用于经纬度的表示, 根据时间序将这些空 间点有序的连接起来形成一个轨迹图。 轨迹图可 以将用户的常驻点作为一个核心点将整个轨迹 划分成多个环。 利用空间上经纬度之间的距离计 算以及时间节点上的差值计算, 可以从图中得到 多条特征。 根据计算所得, 将简单的用户时空数 据转化成了更多维度的特征向量, 送入机器学习 的分类模型当中对用户行为分析进行预测。 本发 明通过图上的轨迹挖掘出用户更为丰富的潜在 信息, 基于机器学习Adaboost的预测方法, 可以 更加显著地提高预测。

3、的准确率。 权利要求书2页 说明书7页 附图3页 CN 110955804 A 2020.04.03 CN 110955804 A 1.一种针对用户时空数据行为检测的Adaboost方法, 其特征在于包括以下步骤: 步骤1, 数据预处理: 采集检索对象的用户时空数据, 作为原始数据, 用户时空数据包括 用户所在地点的经度和维度以及对应所在这个地点的时间; 将原始数据存储在数据库中, 每行五列, 包含主键、 用户身份证号、 时间、 经度、 维度; 优先根据用户身份证号排序, 再根据 时间排序; 原始数据中的训练数据还收集其中一部分用户的用户行为类别用于训练模型; 步骤2, 从数据库中读取用户时空。

4、数据, 构建每一位用户的时间轨迹图; 步骤3, 基于常驻点作为环的起始/终止点, 将每一位用户的时间轨迹图切分成多个环; 步骤3中切分成多个环的方法包括以下步骤: 步骤3a), 从数据库表或者直接利用身份证信息上的住址, 读取用户的常驻点base, base点经纬度为(base_lng,base_lat); 步骤3b), 如果所收集数据终止点不是base, 在终止处添加一个base点, 时间设定与终 止处相同, 保证最后结尾能成环; 步骤3c), 数据预处理阶段结束, 创建一个记录环中点集的列表cycle, 以及一个记录所 有环信息的二维数组cycles, 里面每一个元素都是一个cycle的点。

5、集; for循环从头到尾遍历所有点, 将该点加入cycle中, 如果点的经纬度与base点相同, 说 明已经成环此时cycle中的点是一个完整的环了, 那么将该cycle复制一份添加到cycles当 中并且清空当前cycle进入下一轮; 如果cycle中是连续的两个base点, 那么也就是说明 cycle中只包含一个base点, 那么这是一个无意义的cycle, 不必加入cycles当中, 直接清空 进入下一轮即可; 步骤4, 根据经纬度距离度量从每一位用户的时间轨迹图以及环上提取出用户特征信 息; 步骤5, 将训练数据中用户行为类别和根据训练数据提取的用户特征信息放入 adaboost分类器。

6、进行训练, 得到训练好的模型M; 步骤6, 将根据待分类用户的用户时空数据中提取到的用户特征信息传入训练好的模 型M中得到预测结果M(x)。 2.根据权利要求1所述针对用户时空数据行为检测的Adaboost方法, 其特征在于: 步骤 1中收集的数据分为两种数据, 第一种原始数据格式为 id ,身份证号 ,时间 ,经度 , 纬度 ,id表示样本编号作为主键, 身份证号用于标识一个用户的信息, 同时作为外键与 另一张表相连; 第二种原始数据格式为 身份证号 ,行为分类 , 第二种原始数据是将包 含在其中的用户作为训练数据, 这里给出的行为分类用于训练分类模型。 3.根据权利要求2所述针对用户时空数。

7、据行为检测的Adaboost方法, 其特征在于: 将用 户时空数据表示为一个时间轨迹图的方法如下: 根据用户数据优先根据用户身份证号, 其 次根据时间从小到大排序, 那么得到连续的每一段都是一个用户根据时间先后到达的不同 地点, 表示为(lng1,lat1,time1),(lng2,lat2,time2),(lngn,latn,tinen), 其中lng表 示经度、 lat表示维度、 time表示时间, 每一个三元组中的三个属性分别是经度、 维度、 时间; 但在地图上每个点只用到经纬度标记位置, 但是时间信息需要额外备注; 对于这n个点来 说, 都在前一个点到后一个点之间建立一条有向边, 形成。

8、一条地图上的轨迹, 每个轨迹都独 立进行处理。 4.根据权利要求3所述针对用户时空数据行为检测的Adaboost方法, 其特征在于: 步骤 权利要求书 1/2 页 2 CN 110955804 A 2 4中经纬度距离度量公式如下: Csin(LatA)*sin(LatB)+cos(LatA)*cos(LatB)*cos(MLonA-MLonB) DistanceR*Arccos(C)*Pi/180 其中, Distance表示AB两点的距离, C表示AB两点的夹角。 5.根据权利要求4所述针对用户时空数据行为检测的Adaboost方法, 其特征在于: 步骤 5中adaboost分类器是一种提升。

9、算法创建分类器的组合, 每个输出一个加权投票, 其训练 方法如下: 步骤5a)将D中每个元组的权重初始化为1/di, 其中, D表示类标记的训练元组集, D包含 了当前训练数据中用户从轨迹图中提取出的用户特征信息以及包含的行为类别; 步骤5b), 设定下标i1; 步骤5c), 根据元组的权重从D中有放回抽样, 得到Di; 步骤5d), 使用训练集Di导出模型Mi; 步骤5e), 使用训练集Di导出模型Mi, 计算Mi的错误率error(Mi); 步骤5f), 如果error(Mi)0.5, 转步骤5c)重试; 步骤5g), for Di的每个被正确分类的元组do: 元组的权重乘以error(M。

10、i)/(1-error (Mi); 步骤5h), ii+1, 如果i大于k, 则结束, 否则跳回步骤5c), K表示轮数。 6.根据权利要求5所述针对用户时空数据行为检测的Adaboost方法, 其特征在于: 步骤 6根据训练好的模型M中得到预测结果M(x)的方法: 步骤6a), 将每个类的权重初始化为0; 步骤6b), 设定一个下标j1; 步骤6c),/计算分类器的投票权重 步骤6d), cMj(x); /从Mj得到x的类的预测 步骤6e), 将wj加入到类c的权重; 步骤6f), jj+1,如果j0.5, 转步骤5c重试; 0032 步骤5g)for Di的每个被正确分类的元组do: 元组。

11、的权重乘以error(Mi)/(1- error(Mi); 0033 步骤5h)ii+1, 如果i大于k, 则结束, 否则跳回步骤5c, K表示轮数。 0034 优选的: 步骤6根据训练好的模型M中得到预测结果M(x)的方法: 0035 步骤6a)将每个类的权重初始化为0; 0036 步骤6b)设定一个下标j1 0037步骤6c)/计算分类器的投票权重 0038 步骤6d)cMj(x); /从Mj得到x的类的预测 0039 步骤6e)将wj加入到类c的权重; 0040 步骤6f)jj+1,如果j0.5, 转步骤5c重试; 0096 步骤5g)for Di的每个被正确分类的元组do: 元组的权重。

12、乘以error(Mi)/(1- error(Mi); 0097 步骤5h)ii+1, 如果i大于k, 则结束, 否则跳回步骤5c, K表示轮数。 0098 这里的D包含了当前训练数据中用户从轨迹图中提取出的用户特征信息以及包含 说明书 6/7 页 9 CN 110955804 A 9 的行为类别。 0099 步骤6, 将根据待分类用户的用户时空数据中提取到的用户特征信息传入训练好 的模型M中得到预测结果M(x)。 0100 步骤6a)将每个类的权重初始化为0; 0101 步骤6b)设定一个下标j1; 0102步骤6c)/计算分类器的投票权重 0103 步骤6d)cMj(x); /从Mj得到x的。

13、类的预测 0104 步骤6e)将wj加入到类c的权重; 0105 步骤6f)jj+1,如果jk,跳会步骤6c; 0106 步骤6g)返回具有最大权重的类。 0107 本发明根据用户的时空数据, 空间数据用于经纬度的表示, 可以看成是在二维平 面上的点集, 可以根据时间序将这些空间点有序的连接起来形成一个轨迹图。 轨迹图可以 将用户的常驻点作为一个核心点将整个轨迹划分成多个环。 利用空间上经纬度之间的距离 计算以及时间节点上的差值计算, 可以从图中得到多条特征, 例如: 总的行程距离、 平均每 段时间内的行程距离、 分解出的环之间的距离、 平均每段时间内的环数等。 根据计算所得, 将简单的用户时。

14、空数据转化成了更多维度的特征向量, 送入机器学习的分类模型当中对用 户行为分析进行预测。 本发明通过图上的轨迹挖掘出用户更为丰富的潜在信息, 基于机器 学习Adaboost的预测方法, 可以更加显著地提高预测的准确率。 0108 以上所述仅是本发明的优选实施方式, 应当指出: 对于本技术领域的普通技术人 员来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和润饰, 这些改进和润饰也应 视为本发明的保护范围。 说明书 7/7 页 10 CN 110955804 A 10 图1 说明书附图 1/3 页 11 CN 110955804 A 11 图2 说明书附图 2/3 页 12 CN 110955804 A 12 图3 说明书附图 3/3 页 13 CN 110955804 A 13 。

展开阅读全文
内容关键字: 针对 用户 时空 数据 行为 检测 Adaboost 方法
关于本文
本文标题:针对用户时空数据行为检测的Adaboost方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10758558.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1