基于学生签到数据度量小区域时间距离的方法.pdf
《基于学生签到数据度量小区域时间距离的方法.pdf》由会员分享,可在线阅读,更多相关《基于学生签到数据度量小区域时间距离的方法.pdf(12页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911124179.0 (22)申请日 2019.11.18 (71)申请人 南京邮电大学 地址 210000 江苏省南京市栖霞区栖霞街 道广月路30号 (72)发明人 孙道林 (74)专利代理机构 南京瑞弘专利商标事务所 (普通合伙) 32249 代理人 张婷婷 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/29(2019.01) G06Q 50/20(2012.01) G06K 9/62(2006.01) G07C 1/12(2006.。
2、01) (54)发明名称 一种基于学生签到数据度量小区域时间距 离的方法 (57)摘要 本发明公开了一种基于学生签到数据度量 小区域时间距离的方法, 方法包括以下步骤: A: 记录学生历史签到数据和数据库中的源端数据 存储至数据库中; B: 查找源端数据与签到数据中 对应的部分进行数据挖掘; C: 根据对数据的挖掘 计算时间距离。 本发明基于学生签到数据, 提出 了一种小区域时间距离的算法, 结合数据分析技 术, 可以对学生的缺勤行为提出量化指标, 从而 更加精准的判断学生的缺勤行为, 利用小区域时 间距离作为对点到点的距离的刻画, 将一个定性 的评价值转化为定量的评价值, 使用小区域时间 距。
3、离挖掘学生缺勤行为, 可以方便高校对学生行 为规范的管理。 权利要求书1页 说明书5页 附图5页 CN 110851451 A 2020.02.28 CN 110851451 A 1.一种基于学生签到数据度量小区域时间距离的方法, 其特征在于, 包括以下步骤: A: 采用具有位置识别功能的移动设备记录当前位置的信息, 将当前位置的信息作为目 的端地点, 将目的端地点、 签到时间、 日期、 学生号作为目的端序列上传至数据库中进行存 储; B: 将学生号、 日期、 上课结束时间、 上课地点作为源端序列存储至数据库中; C: 根据源端序列中上课结束时间, 找出目的端系列中具有相同日期且在上课结束时间。
4、 后一个小时以内的时间段, 并以1分钟作为时段单位, 将60分钟划分为60个时段序列Ti(1 i60), 统计任意一个目的端地点中每个时段分别出现的人数xi, 将2(Timax(xi)-END_ TIME)个时段记为有效时段, Timaxxi表示统计人数中最大值所对应的时间点, END_TIME 表示上课结束时间; D: 输入源端序列上课结束时间为中午或下午的序列, 根据源端序列中学生号、 日期以 及2(Timax(xi)-END_TIME)个时段, 从目的端序列中解析出具有相同学生号、 日期且签到 时间位于2(Timax(xi)-END_TIME)个时段、 目的端地点相同的目的端系列进行对应。
5、, 根据 日期和学生号对源端序列进行去重, 得到上课地点到该目的端地点的有效签到序列; E: 从步骤D中的得到的上课地点到该目的端地点的有效签到序列, 数量记为n, 将该有 效签到序列中的时间量化, 得到时间的量化值Qt集合, 其中1tn, 计算该集合内时间的 均值 和标准差 , 即: F: 计算小区域时间距离d: d - ,n0; G: 重复步骤C到F, 直至得到所有源端至目的端的小区域时间距离。 2.根据权利要求1所述的一种基于学生签到数据度量小区域时间距离的方法, 其特征 在于, 所述步骤E中时间量化为以END_TIME为零值的分钟数。 3.根据权利要求1所述的一种基于学生签到数据度量小。
6、区域时间距离的方法, 其特征 在于, 所述步骤F中, 当n0时, d取任意一个小于0的数。 4.根据权利要求1所述的一种基于学生签到数据度量小区域时间距离的方法, 其特征 在于, 所述源端序列中还包括上课开始时间。 5.根据权利要求1所述的一种基于学生签到数据度量小区域时间距离的方法, 其特征 在于, 所述步骤D中, 输入源端序列中上课结束时间为11:25:00或17:10:00的序列。 权利要求书 1/1 页 2 CN 110851451 A 2 一种基于学生签到数据度量小区域时间距离的方法 技术领域 0001 本发明涉及数据处理技术领域, 特别涉及一种基于学生签到数据度量小区域时间 距离的。
7、方法。 背景技术 0002 目前学校各个地方的出行都需要进行身份识别, 而通过具有位置识别功能的移动 设备(如手机, 一卡通等)记录当前位置的信息则称为签到数据, 如进入图书馆, 需要刷卡, 此时记录为一次签到数据, 或者进入寝室, 也需要刷卡, 记录签到数据后才能进入, 这些数 据常用于分析个体行为习惯。 在利用这些数据来量化缺勤行为的指标时, 就需要计算时间 距离, 如当学生在寝室的签到时间小于学生从教室到寝室的平均时间加上上课结束时间, 则有早退现象, 当学生在寝室的签到时间(出门时)大于学生从教室到寝室的平均时间加上 上课开始时间, 则有迟到现象, 学生从教室到目的端的平均时间称为时间。
8、距离, 而每个学生 从教室到目的端的平均时间均有所不同, 因此时间距离无法准确测出, 在进行缺勤考察时 往往会出现错误, 不利于学校对学生的学习习惯进行分析, 难以保证考察结果的针对性和 精确性。 发明内容 0003 本发明要解决的技术问题是克服现有技术的缺陷, 提供一种基于学生签到数据度 量小区域时间距离的方法, 采用大数据挖掘的方式来计算学生到各个地方的时间距离, 可 用于分析学生的生活习惯和行为模式, 提高学生学习习惯分析的精确性。 0004 为了解决上述技术问题, 本发明提供了如下的技术方案: 0005 本发明一种基于学生签到数据度量小区域时间距离的方法, 包括以下步骤: 0006 A。
9、: 采用具有位置识别功能的移动设备记录当前位置的信息, 将当前位置的信息作 为目的端地点, 将目的端地点、 签到时间、 日期、 学生号作为目的端序列上传至数据库中进 行存储; 0007 B: 将学生号、 日期、 上课结束时间、 上课地点作为源端序列存储至数据库中; 0008 C: 根据源端序列中上课结束时间, 找出目的端系列中具有相同日期且在上课结束 时间后一个小时以内的时间段, 并以1分钟作为时段单位, 将60分钟划分为60个时段序列Ti (1i60), 统计任意一个目的端地点中每个时段分别出现的人数xi, 将2(Timax(xi)- END_TIME)个时段记为有效时段, Timaxxi表。
10、示统计人数中最大值所对应的时间点, END_ TIME表示上课结束时间; 0009 D: 输入源端序列上课结束时间为中午或下午的序列, 根据源端序列中学生号、 日 期以及2(Timax(xi)-END_TIME)个时段, 从目的端序列中解析出具有相同学生号、 日期且 签到时间位于2(Timax(xi)-END_TIME)个时段、 目的端地点相同的目的端系列进行对应, 根据日期和学生号对源端序列进行去重, 得到上课地点到该目的端地点的有效签到序列; 0010 E: 从步骤D中的得到的上课地点到该目的端地点的有效签到序列, 数量记为n, 将 说明书 1/5 页 3 CN 110851451 A 3。
11、 该有效签到序列中的时间量化, 得到时间的量化值(Qt)集合, 其中1tn, 计算该集合内 时间的均值 和标准差 , 即: 0011 0012 0013 F: 计算小区域时间距离d: 0014 d - ,n0; 0015 G: 重复步骤C到F, 直至得到所有源端至目的端的小区域时间距离。 0016 作为本发明的一种优选技术方案, 所述步骤E中时间量化为以END_TIME为零值的 分钟数。 0017 作为本发明的一种优选技术方案, 所述步骤F中, 当n0时, d取任意一个小于0的 数。 0018 作为本发明的一种优选技术方案, 所述源端序列中还包括上课开始时间。 0019 作为本发明的一种优选技。
12、术方案, 所述步骤D中, 输入源端序列中上课结束时间为 11:25:00或17:10:00的序列。 0020 与现有技术相比, 本发明的有益效果如下: 0021 本发明利用学生的历史签到数据, 结合数据分析技术, 来对学生从教室到目的端 的时间进行量化, 从而更加精准的判断学生的学习情况, 使考察结果更具针对性和精确性, 方便高校对学生行为规范的管理。 附图说明 0022 附图用来提供对本发明的进一步理解, 并且构成说明书的一部分, 与本发明的实 施例一起用于解释本发明, 并不构成对本发明的限制。 在附图中: 0023 图1是本发明方法的流程图; 0024 图2是本发明消费人数和量化值的关系分。
13、布图; 0025 图3是本发明误差平方和和聚类个数的关系分布图; 0026 图4是本发明聚类结果详细信息图; 0027 图5是本发明距离差与地点的关系图。 具体实施方式 0028 以下结合附图对本发明的优选实施例进行说明, 应当理解, 此处所描述的优选实 施例仅用于说明和解释本发明, 并不用于限定本发明。 0029 此外, 如果已知技术的详细描述对于示出本发明的特征是不必要的, 则将其省略。 0030 实施例1 0031 如图1所示, 本发明提供一种基于学生签到数据度量小区域时间距离的方法, 包括 以下步骤: 说明书 2/5 页 4 CN 110851451 A 4 0032 A: 采用具有位。
14、置识别功能的移动设备记录当前位置的信息, 将当前位置的信息作 为目的端地点, 将目的端地点、 签到时间、 日期、 学生号作为目的端序列上传至数据库中进 行存储; 0033 B: 将学生号、 日期、 上课结束时间、 上课地点作为源端序列存储至数据库中; 0034 C: 根据源端序列中上课结束时间, 找出目的端系列中具有相同日期且在上课结束 时间后一个小时以内的时间段, 并以1分钟作为时段单位, 将60分钟划分为60个时段序列Ti (1i60), 统计任意一个目的端地点中每个时段分别出现的人数xi, 将2(Timax(xi)- END_TIME)个时段记为有效时段, Timaxxi表示统计人数中最。
15、大值所对应的时间点, END_ TIME表示上课结束时间; 0035 D: 输入源端序列上课结束时间为中午或下午的序列, 根据源端序列中学生号、 日 期以及2(Timax(xi)-END_TIME)个时段, 从目的端序列中解析出具有相同学生号、 日期且 签到时间位于2(Timax(xi)-END_TIME)个时段、 目的端地点相同的目的端系列进行对应, 根据日期和学生号对源端序列进行去重, 得到上课地点到该目的端地点的有效签到序列; 0036 E: 从步骤D中的得到的上课地点到该目的端地点的有效签到序列, 数量记为n, 将 该有效签到序列中的时间量化, 得到时间的量化值(Qt)集合, 其中1t。
16、n, 计算该集合内 时间的均值 和标准差 , 即: 0037 0038 0039 F: 计算小区域时间距离d: 0040 d - ,n0; 0041 G: 重复步骤C到F, 直至得到所有源端至目的端的小区域时间距离。 0042 所述步骤F中, 当n0时, d取任意一个小于0的数, 考虑学生消费的不规律性, 存在 源端至某一目的端样本空间为空的情况, 故使用负数(负数没有实际意义, 仅仅是一个占位 符)填充d, 便于系统的正常运行。 0043 具体的, 以下根据收集的某高校某学院的数据进行举例说明: 0044 步骤A所得出的数据部分结果如下表所示: 0045 0046 步骤B所得出的数据部分结果。
17、如下表所示: 说明书 3/5 页 5 CN 110851451 A 5 0047 0048 步骤D所得出的数据部分结果如下表所示: 0049 签到时间结束时间源端目的端消费人数 11:26:0011:25:00S1D10 0050 根据步骤E可知, 量化值是以输入序列中结束时间为零值, 将签到时间量化为相对 于零值的分钟数, 得消费人数分布与量化值的关系如图2所示。 0051 由图2可知, 当量化值为11即消费时间为11:36:00时, 消费人数最多, 其他消费时 间的消费人数以11:36:00为中心, 向两侧呈递减趋势。 以11:26:00为起点, 11:36:00为中 心, 为保证两侧时间。
18、区间相对于中心严格对称, 故将11:47:00设置为终点, 得有效签到序 列, 如下表所示: 0052 消费时间结束时间源端目的端量化值消费人数 11:26:0011:25:00S1D110 11:36:0011:25:00S1D11121 11:47:0011:25:00S1D1221 0053 对有效签到序列中量化值集合求均值得 11.065, 标准差 3.551, 故由此得出 时间距离d - 7.514(分钟)。 0054 为了验证上述算法的有效性, 本节采用kmeans+算法进行评估。 kmeans+是一种 改进的kmeans聚类算法, 其核心思想是, 类内尽可能近, 类间尽可能远。 。
19、它克服了kmeans聚 类算法随机选择k个中心点的缺点。 其中聚类个数k根据类别内部指标来进行选取, 本文通 过使用误差平方和(SSE)来进行选取。 SSE是一个严格的坐标下降过程, SSE定义如下: 0055 0056 采用曼哈顿距离作为变量之间的聚类函数。 每次朝一个变量ci的方向找到最优 解, 也就是求偏导数, 令其等于0, 可得:其中, m是ci所在簇的元素的个数。 0057 由于SSE是一个非凸函数, 所以SSE不能保证找到全局最优解, 只能确保找到局部 最优解。 但是, 可以重复执行几次kmeans+, 选取SSE最小的一次作为最终的聚类结果。 在实 际应用中, 通常选取图形的拐点。
20、映射的值作为聚类个数k。 最后, 使用kmeans+将上述算法 说明书 4/5 页 6 CN 110851451 A 6 中的时间的量化值集合聚为k类, 利用距离的最短连线性质, 选择样本数最多的类别中的最 小的时间序列(MIN_SEQ), 计算距离差d, 若存在样本数相同的类别, 则选择聚类中心值较 小的类别: 0058 0059 以有效签到序列中的量化值集合为输入数据, 得到SSE与聚类个数k的关系如图3 所示: 由图3可知, 当k取4时为图形的拐点, 运用kmeans+算法, 聚类结果如下表所示, 由表 可知, 样本数最多且聚类中心最小的类是第0类。 0060 类别聚类中心样本数 08.。
21、68965558 112.10344858 216.55555627 34.00000010 0061 聚类结果详细信息如图4所示, 0类最小值为7, 由以上分析可知, MIN_SEQ7, 距离 差d|MIN_SEQ-d|0.514(分钟)。 0062 通过以上方法, 得所有地点距离差分布如图5所示, 由图可知, 对于不同地点的距 离差, 除去样本空间为0的异常数据, 绝大部分距离差分布在0,1范围内, 只有少数距离差 值远大于1, 出现这种情况的原因可能是, 原始数据正态分布特征不明显, 偏向于均匀分布。 对于严格均匀分布的数据, kmeans+聚类结果的每一类样本数相同, 最终结果是原始数。
22、据 的最小值, 而使用小区域时间距离算法得到的结果是原始数据的均值, 故两者距离差值较 大。 对于略大于1的距离差出现的原因可能是人为因素, 存在某些授课教师总是有延迟结束 时间习惯。 对于分布在0,1范围内的距离差, 意义是, 两种算法的结果相差不超过1分钟。 综上所述, 在可允许距离差范围内, 小区域时间距离算法是有效的。 0063 最后应说明的是: 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 尽管参照前述实施例对本发明进行了详细的说明, 对于本领域的技术人员来说, 其依然可 以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换。 凡在本发明的精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的 保护范围之内。 说明书 5/5 页 7 CN 110851451 A 7 图1 说明书附图 1/5 页 8 CN 110851451 A 8 图2 说明书附图 2/5 页 9 CN 110851451 A 9 图3 说明书附图 3/5 页 10 CN 110851451 A 10 图4 说明书附图 4/5 页 11 CN 110851451 A 11 图5 说明书附图 5/5 页 12 CN 110851451 A 12 。
- 内容关键字: 基于 学生 签到 数据 度量 小区域 时间 距离 方法
管材冷轧机.pdf
禽畜养殖圈舍环境治理消杀机构.pdf
自动排屑的木工机床用顶针.pdf
用于油气井液面测试的声波采集装置.pdf
化工管道快速对接接头.pdf
新型咪头粘网机.pdf
麦克风生产用烘干装置.pdf
隐形眼镜助戴器.pdf
混合料制备系统.pdf
非遗用品存放柜用消毒装置.pdf
光伏逆变器用增压散热风扇.pdf
集线器.pdf
护理床抬升角测量仪.pdf
棋类设备的智能方块及棋类设备.pdf
基于数据融合的耕深监测装置.pdf
大口径平推阀.pdf
水利工程防汛浮标.pdf
自动锁螺丝机锁紧力调节装置.pdf
数据交换装置.pdf
高效羊粪有机肥发酵罐.pdf
应用于船首的船舶防撞结构.pdf
渔光互补的监控系统及方法.pdf
适应于高污泥浓度的脱氮除磷系统及方法.pdf
具有清洁效果的真空镀铝丝复绕设备.pdf
影像分类模型建立方法及装置、分类方法、装置及系统.pdf
基于多传感器融合技术的数据采集方法及系统.pdf
用于涵管的实时压力测试方法.pdf
人员安全转移救援舱及其制造方法.pdf
复合电缆生产用全自动绞线装置及方法.pdf
机载双站雷达间载波频率差高精度测量与补偿方法.pdf
量子密钥分发网络中负载均衡的分布式路由方法及系统.pdf
无线路由器间加密通讯方法及系统.pdf