基于用户画像聚类的用户类型自动化标注系统.pdf

上传人:n****g 文档编号:11664151 上传时间:2021-10-14 格式:PDF 页数:19 大小:686.56KB
收藏 版权申诉 举报 下载
基于用户画像聚类的用户类型自动化标注系统.pdf_第1页
第1页 / 共19页
基于用户画像聚类的用户类型自动化标注系统.pdf_第2页
第2页 / 共19页
基于用户画像聚类的用户类型自动化标注系统.pdf_第3页
第3页 / 共19页
文档描述:

《基于用户画像聚类的用户类型自动化标注系统.pdf》由会员分享,可在线阅读,更多相关《基于用户画像聚类的用户类型自动化标注系统.pdf(19页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910232018.7 (22)申请日 2019.03.26 (71)申请人 中国科学院软件研究所 地址 100190 北京市海淀区中关村南四街4 号 申请人 北京奥鹏远程教育中心有限公司 (72)发明人 白琳蔡承烨李国斌周新运 吴怀林王建飞赵敏 (74)专利代理机构 北京科迪生专利代理有限责 任公司 11251 代理人 安丽 (51)Int.Cl. G06F 16/9535(2019.01) G06K 9/62(2006.01) G06Q 30/02(2012.01) (。

2、54)发明名称 一种基于用户画像聚类的用户类型自动化 标注系统 (57)摘要 本发明涉及一种基于用户画像聚类的用户 类型自动化标注系统, 包括用户画像数据采集模 块、 用户画像特征处理模块、 用户画像聚类模块 和用户类型标注模块; 通过运行四个系统模块, 该系统能为用户自动化的标出其所属的类型, 并 支持以配置文件的形式对需要标注的类型进行 更新, 极大的简化了用户类型标注的流程。 在实 际应用中, 每个周期系统都会自动运行, 并对全 平台的用户进行自动化标注。 其标注结果可应用 于用户管理、 数据挖掘、 数据展示等相关工作, 对 平台的管理者与用户都具有积极的意义。 权利要求书4页 说明书9。

3、页 附图5页 CN 110020201 A 2019.07.16 CN 110020201 A 1.一种基于用户画像聚类的用户类型自动化标注系统, 其特征在于: 包括, 用户画像数 据采集模块、 用户画像特征处理模块、 用户画像聚类模块和用户类型标注模块; 用户画像数据采集模块: 根据配置文件的信息, 从平台数据库中读取原始数据, 并对原 始数据进行用户画像维度标注以及用户画像维度特征计算, 最终生成用户画像数据, 用户 画像数据将会输入到用户画像特征处理模块中; 用户画像特征处理模块: 以用户画像数据为输入, 为用户画像数据进行维度划分, 然后 分别针对每个维度进行特征清洗并修正异常数据, 。

4、修正后的数据经过特征归一化以及特征 组合后生成当前维度的特征值, 最后将各维度的特征组合生成用户画像特征向量; 用户画像聚类模块: 读取用户画像特征处理模块生成的用户画像特征向量, 根据配置 文件的信息初始化聚类模型, 然后初始化各个类别的聚类中心, 通过对损失函数的最小化 操作, 不断计算并更新各个类别的聚类中心, 达到指定的循环次数或目标函数最小化到指 定值之后, 输出各个类别的聚类中心结果数据以及每一个用户的聚类结果数据; 用户类型标注模块: 获取聚类中心结果数据, 将聚类中心结果数据进行中心值归一化, 并组织成聚类中心集合池, 然后从配置文件中按照格式解析出用户类型-匹配规则优先级 队。

5、列, 并从该队列中优先级最高的用户类型开始, 在聚类中心集合池中进行用户类型匹配, 若匹配成功则为用户画像聚类结果中属于标签值属于当前聚类中心的用户标注该用户类 型, 直至中心集合池为空或优先级队列为空, 最终产生用户类型标注结果。 2.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注系统, 其特征 在于: 所述用户画像数据采集模块实现如下: (1)配置文件解析: 配置文件以json的格式存储用户画像特征名称以及与特征名称相 应的数据库字段、 特征所属维度以及特征计算规则, 读取配置文件, 并对配置文件的内容进 行解析, 处理并生成用户画像特征队列; (2)获取用户画像特征名称: 。

6、用户画像特征队列进行出队操作, 获取当前待处理的用户 画像特征名称; (3)用户画像维度标注: 根据配置信息中与当前用户画像特征名称相应的用户画像维 度, 将当前用户画像名称存储到用户画像维度字典中, 维度字典的数据结构为(key: 用户画 像维度, value:用户画像特征名称); (4)原始数据读取: 根据配置信息中与当前用户画像特征名称相应的数据库字段名, 从 数据库中读取相关的原始数据; (5)用户画像维度特征计算: 根据配置信息中与当前用户画像特征名称相应的特征计 算规则, 使用从数据库读入的原始数据来计算用户画像特征值, 并将用户画像特征名称与 用户画像特征值存入用户画像特征数组中。

7、, 数组中每一个元素的数据结构为(用户画像特 征名称, 用户画像特征值); (6)逻辑判断: 判断用户画像特征队列是否为空, 若队列不为空则跳转到步骤2, 若队列 为空则跳转到步骤7; (7)输出用户画像数据: 将用户画像维度字典与用户画像特征数组中的数据组合成用 户画像数据并输出, 用户画像数据的格式为(用户画像特征名称, 用户画像维度, 用户画像 特征值)。 3.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注系统, 其特征 权利要求书 1/4 页 2 CN 110020201 A 2 在于: 所述用户画像特征处理模块实现如下: (1)读入用户画像数据: 数据加载过程会读取用户。

8、画像数据中的数据, 并构造符合用户 画像特征处理模块格式的数据, 基本数据格式为: 每一个用户的用户画像数据包含n个用户 画像维度, 每个用户画像维度包含若干个用户画像维度特征数据, 以二维变长数组的数据 结构存储; (2)维度划分: 对用户画像数据按照用户画像维度进行划分, 将不同用户在相同用户画 像维度下的用户画像维度特征数据进行拼接, 对于每一个用户画像维度, 产生一个mk的 用户画像维度二维数组, 包含m个用户, 每行表示1个用户的k个用户画像维度特征数据; (3)用户画像维度分值计算: 分别基于每一个用户画像维度二维数组, 计算当前用户画 像维度下的用户画像维度分值; 对于每一个用户。

9、画像维度, 其用户画像维度分值的计算过程如步骤(1)到步骤(3)。 4.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注系统, 其特征 在于: 所述用户画像维度分值计算具体实现如下: (1)特征清洗: 对用户画像维度二维数组中用户画像维度特征数据进行清洗, 修正异常 数据; 异常数据包括两个部分: 缺失值和异常值, 对于缺失值采取缺失值补零操作, 对于异 常值会根据数据的所属区间, 将区间外的值置为区间的最大值或最小值; (2)特征归一化: 对用户画像维度特征数据进行归一化, 将其转化为0,1之间的值, 对 于每一个用户画像维度特征, 归一化步骤为: 首先, 将不同用户的相同用户画。

10、像维度特征组 合成一维数组, 然后对从小到大进行排序产生排好序的数组, 并记录中的每一个元素y第一 次出现的位置的下标j, 最后对中的每一个元素x计算归一化结果, 计算公式为: 其中, Nx表示元素x的归一化结果, jx为元素x在数组中第一次出现的位置的下标j, |X| 为数组的长度; (3)特征组合: 对每一个用户, 将该用户各个用户画像维度特征的归一化结果进行组 合, 计算出相应的用户画像维度分值S, 计算公式为: 其中Wi为当前用户画像维度中第i个用户画像维度特征的权重, Ni为当前用户画像维度 中第i个用户画像维度特征的归一化结果; (4)维度组合: 对于每一个用户, 将其n个用户画像。

11、维度的用户画像维度分值进行组合, 并拼接成用户画像特征向量vu; (5)输出用户画像特征向量: 将所有用户的用户画像特征向量vu组合成二维数组的数据 格式并输出。 5.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注系统, 其特征 在于: 所述用户画像聚类模块的实现步骤如下: (1)数据加载: 获取用户画像特征处理模块生成的用户画像特征向量, 并从配置文件中 读取模型参数数据, 模型参数数据包含聚类蔟个数k、 中心初始化形式、 最大迭代次数、 损失 函数最小值和并行度; (2)初始化聚类模型: 使用读取的模型参数初始化k-means聚类模型, 并根据聚类中心 权利要求书 2/4 页。

12、 3 CN 110020201 A 3 个数k, 中心初始化形式来初始化k个聚类中心; (3)计算聚类中心: 对于用户画像特征向量中的每一条特征数据, 使用k-means模型计 算其与k个聚类中心的距离, 并把当前用户画像特征划分到距离最近的聚类中心所属的聚 类簇中; 最后, 分别计算k个聚类簇中特征的均值, 将所述均值作为新的聚类中心; (4)最小化目标函数: 对k-means模型采用的损失函数为基于欧式距离的误差平方和损 失函数, 公式为: 其中k为聚类中心的个数, Ci为第i个聚类中心, cij为第i个聚类中的第j维特征值, xj为 用户特征向量的第j维特征值, d为用户特征向量的维度;。

13、 若损失函数没有低于最小值或当 前迭代次数没有大于最大迭代次数, 则跳转到步骤(3); (5)输出各类别聚类中心结果: 分别将k个聚类中心的标签值以及中心值按照标签值- 聚类中心的形式组织成聚类中心结果数据; (6)输出用户画像聚类结果: 对于每一个用户, 将最后一轮迭代中用户被划分到的聚类 蔟的标签值作为该用户的用户画像聚类结果, 并按照用户id-标签值的形式组织成用户画 像聚类结果数据。 6.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注系统, 其特征 在于: 所述用户类型标注模块的实现步骤如下: (1)用户画像聚类结果数据加载: 将用户画像聚类模块生成的用户画像聚类结果数据。

14、 加载; (2)聚类结果划分: 针对用户画像聚类结果数据, 根据标签值进行划分, 每个标签值会 产生相应的用户集合, 最终将用户画像聚类结果数据划分为k个用户集合数据; (3)聚类中心结果数据加载: 将用户画像聚类模块生成的聚类中心结果数据加载; (4)中心值归一化: 对据聚类中心结果数据进行中心值归一化, 将聚类中心中每一个维 度的值转化成1,t之间的值, 其中t为聚类中心的个数, 得到归一化后的聚类中心数据; (5)构造聚类中心集合池: 将归一化后的聚类中心数据自支撑聚类中心集合池, 集合池 中包含t个聚类中心数据; (6)配置文件解析: 配置文件以json的形式存储用户类型名称及相应的匹。

15、配规则, 解析 配置文件中的json数据, 提取用户类型名称字符串, 及相应的匹配规则字符串, 组织成形为 用户类型名称-匹配规则的名称-规则数据; (7)用户类型-匹配规则优先级队列: 使用名称-规则数据构造用户类型-匹配规则优先 级队列, 解析匹配规则字符串, 获取匹配优先级并构造匹配逻辑, 最终组织成队列形式的用 户类型-匹配规则优先级队列, 优先级最高的用户类型先入队, 队列的每一个元素为匹配逻 辑-用户类型形式的数据结构; (8)获取当前用户类型: 用户类型-匹配规则优先级队列出队, 得到当前需要匹配的匹 配逻辑-用户类型数据; (9)聚类中心池判断: 判断聚类中心池是否为空, 若为。

16、空则跳转到步骤(14), 否则跳转 到步骤(10); (10)用户类型匹配: 遍历聚类中心池, 将每一个聚类中心输入匹配逻辑-用户类型数据 权利要求书 3/4 页 4 CN 110020201 A 4 结构中, 并使用匹配逻辑进行匹配, 若匹配通过则会返回匹配系数, 若有多个聚类中心匹配 通过, 则取匹配系数最高的聚类中心作为匹配结果; 若所有聚类中心均未匹配成功, 则跳转 到步骤(8); (11)用户类型标注: 取用户类型匹配的匹配结果, 与该聚类中心相对应的标签值, 为属 于此标签值的用户集合数据中的所有用户标注当前用户类型; (12)聚类中心集合池删除操作: 将步骤(10)中匹配到的聚类。

17、中心从聚类中心集合池中 删除; (13)优先级队列推进: 判断用户类型-匹配规则优先级队列是否为空, 若为不为空则跳 转到步骤(8), 若不为空则跳转到步骤(14); (14)输出用户类型标注结果: 将k个用户集合数据的标注结果组合, 生成最终的用户类 型标注结果并存入标注结果数据库中, 供管理人员或其他系统查询使用。 7.根据权利要求6所述的一种基于用户画像聚类的用户类型自动化标注系统, 其特征 在于: 所述步骤(4)中, 归一化的方式为: 对于聚类中心每一个维度, 将t个维度中当前维度 的值组织成长度为t的数组, 并对当前数组从小到大进行排序, 取排序结果中每个值的位置 序号作为该值的归一。

18、化结果。 权利要求书 4/4 页 5 CN 110020201 A 5 一种基于用户画像聚类的用户类型自动化标注系统 技术领域 0001 本发明涉及一种基于用户画像聚类的用户类型自动化标注系统, 属于计算机人工 智能领域。 背景技术 0002 在许多互联网平台中, 根据平台的数据挖掘、 运营管理、 报表展示等工作需求, 都 需要对用户进行类型标注。 通常其标注结果需要直观的体现出用户在平台中的活跃度或用 户对平台中各功能模块的参与程度等用户相关的特征, 为平台的功能模块管理、 机器学习 分类或回归等预测、 提升用户界面体验等工作提供数据基础。 目前, 用户类型标注方法主要 分为两类: 完全人工。

19、类型标注方法以及半自动类型标注方法。 0003 完全人工类型标注方法主要是使用现有的一些标注系统来手动去对用户类型进 行标注, 常用的标注系统如IEPY、 DeepDive、 BRAT等, 标注系统会提供非常友好的标注界面, 高亮相关的用户特征, 有效提高标注人员的标注效率。 但是, 当需要标注的数据量达到一定 规模时, 完全人工类型标注方法需要投入较多的人力与时间, 使得标注周期延长, 标注成本 高昂。 而且, 人工标注时的错误率也是一个难以避免的问题。 0004 半自动类型标注方法的原理是只对部分数据进行标注, 然后使用已标注的数据来 训练机器学习分类模型(如SVM、 LR、 Random。

20、 Forest、 GBDT等), 最后使用训练好的模型来对 未标注的数据进行类型预测, 并为其标注预测的类型。 半自动类型标注方法能有效克服完 全人工类型标注方法无法针对大规模数据进行标注问题, 只需人工标注部分数据。 但由于 依赖少部分人工标注, 当原有标注类型发生变化, 需要增加新类型或删除原有类型, 或者某 一类型的标注规则发生改变, 半自动类型标注方法需要重新对数据进行标注, 再训练新的 机器学习分类模型, 由此增加了更新和维护的成本。 0005 因此, 原有方法存在以下局限: 0006 (1)过于依赖人工标注数据, 需要投入人力来进行数据标注工作, 使得标注成本较 高, 并有一定的标。

21、注错误。 0007 (2)难以更新和维护, 当标注类型发生变化或标注规则发生改变时, 需要投入较高 的更新和维护成本来满足新的数据需求。 发明内容 0008 本发明技术解决问题: 克服传统用户类型标注系统过于依赖人工标注数据和标注 类型难以更新及维护的问题, 提供一种基于用户画像聚类的用户类型自动化标注系统, 能 为用户自动化的标出其所属的类型, 并支持以配置文件的形式对需要标注的类型进行更 新, 极大的简化了用户类型标注的流程。 0009 本发明提出的于用户画像聚类的用户类型自动化标注系统, 设计了一套独立的模 块来将用户画像信息转化为用户特征向量, 并基于K-means聚类算法对用户特征向。

22、量进行 聚类, 此外, 还针对聚类结果设计了相应的系统模块来将聚类结果映射到指定的用户类型 说明书 1/9 页 6 CN 110020201 A 6 中, 从而自动化的为用户标注其所属类型。 0010 本发明的技术解决方案: 基于用户画像聚类的用户类型自动化标注系统, 如图1所 示, 包含如下四个系统模块: 0011 用户画像数据采集模块、 用户画像特征处理模块、 用户画像聚类模块和用户类型 标注模块; 通过上述四个系统模块的组合, 可以完成本发明基于用户画像聚类的用户类型 自动化标注系统。 下面将分别描述用户画像数据采集模块、 用户画像特征处理模块、 用户画 像聚类模块以及用户类型标注模块的。

23、基本内容。 0012 1.用户画像数据采集模块 0013 首先对相关概念进行解释说明。 0014 用户画像: 用户画像又称用户角色, 是一种勾画目标用户、 联系用户诉求与设计方 向的有效工具。 用户画像包含若干个用户画像维度, 能体现用户在系统中的不同特征, 包括 静态特征及行为特征等。 0015 用户画像维度: 描述用户在某一角度的特征, 是用户画像的主要构成单位。 一个用 户画像维度由若干个用户画像维度特征构成。 0016 用户画像维度特征: 用户画像构成的基本单位, 通常可以从平台数据库的用户相 关字段, 或者对用户行为信息的统计计算来获得。 0017 用户画像数据采集模块的主要功能是,。

24、 根据配置文件的信息, 从平台数据库中读 取原始数据, 并对原始数据进行用户画像维度标注以及用户画像维度特征计算, 最终生成 用户画像数据, 供用户画像特征处理模块调用。 0018 用户画像数据采集模块的实现步骤如下所示: 0019 (1)配置文件解析: 配置文件以json的格式存储用户画像特征名称以及与特征名 称相应的数据库字段、 特征所属维度以及特征计算规则。 读取配置文件, 并对配置文件的内 容进行解析。 处理并生成用户画像特征队列; 0020 (2)获取用户画像特征名称: 用户画像特征队列进行出队操作, 获取当前待处理的 用户画像特征名称; 0021 (3)用户画像维度标注: 根据配置。

25、信息中与当前用户画像特征名称相应的用户画 像维度, 将当前用户画像名称存储到用户画像维度字典中, 维度字典的数据结构为(key: 用 户画像维度, value:用户画像特征名称); 0022 (4)原始数据读取: 根据配置信息中与当前用户画像特征名称相应的数据库字段 名, 从数据库中读取相关的原始数据; 0023 (5)用户画像维度特征计算: 根据配置信息中与当前用户画像特征名称相应的特 征计算规则, 使用从数据库读入的原始数据来计算用户画像特征值。 并将用户画像特征名 称与用户画像特征值存入用户画像特征数组中, 数组中每一个元素的数据结构为(用户画 像特征名称, 用户画像特征值); 0024。

26、 (6)逻辑判断: 判断用户画像特征队列是否为空。 若队列不为空则跳转到步骤(2), 若队列为空则跳转到步骤(7); 0025 (7)输出用户画像数据: 将用户画像维度字典与用户画像特征数组中的数据组合 成用户画像数据并输出, 用户画像数据的格式为(用户画像特征名称, 用户画像维度, 用户 画像特征值)。 说明书 2/9 页 7 CN 110020201 A 7 0026 2.用户画像特征处理模块 0027 首先对相关概念进行解释说明。 0028 用户画像维度分值: 用于刻画用户在当前用户画像维度下的得分, 分数越高, 用户 在当前用户画像唯独下的特征越明显。 0029 用户画像特征向量: 由。

27、若干个用户画像维度分值组合成的向量, k个用户画像维度 可以拼接成1个k维向量。 0030 用户画像特征处理模块的主要功能是, 以用户画像数据为输入, 为用户画像数据 进行维度划分, 然后分别针对每个维度进行特征清洗并修正异常数据, 修正后的数据经过 特征归一化以及特征组合后生成当前维度的特征值, 最后将各维度的特征组合生成用户画 像特征向量, 供用户画像聚类模块调用。 0031 用户画像特征处理模块的实现步骤如下所示: 0032 (1)读入用户画像数据: 数据加载过程会读取用户画像数据中的数据, 并构造符合 用户画像特征处理模块格式的数据, 基本数据格式为: 每一个用户的用户画像数据包含n个。

28、 用户画像维度, 每个用户画像维度包含若干个用户画像维度特征数据, 以二维变长数组的 数据结构存储。 0033 (2)维度划分: 对用户画像数据按照用户画像维度进行划分, 将不同用户在相同用 户画像维度下的用户画像维度特征数据进行拼接, 对于每一个用户画像维度, 产生一个m k的用户画像维度二维数组, 包含m个用户, 每行表示1个用户的k个用户画像维度特征数据。 0034 (3)用户画像维度分值计算: 分别基于每一个用户画像维度二维数组, 计算当前用 户画像维度下的用户画像维度分值。 对于每一个用户画像维度, 其用户画像维度分值的计 算过程如步骤(3.1)到步骤(3.3)所示。 0035 (3。

29、.1)特征清洗: 对用户画像维度二维数组中用户画像维度特征数据进行清洗, 修 正异常数据。 异常数据包括两个部分: 缺失值和异常值, 对于缺失值采取缺失值补零操作, 对于异常值会根据数据的所属区间, 将区间外的值置为区间的最大值或最小值。 0036 (3.2)特征归一化: 对用户画像维度特征数据进行归一化, 将其转化为0,1之间 的值, 对于每一个用户画像维度特征, 归一化步骤为: 首先, 将不同用户的相同用户画像维 度特征组合成一维数组, 然后对从小到大进行排序产生排好序的数组, 并记录中的每一个 元素y第一次出现的位置的下标j, 最后对中的每一个元素x计算归一化结果, 计算公式为: 003。

30、7 0038 其中, Nx表示元素x的归一化结果, jx为元素x在数组中第一次出现的位置的下标j, |X|为数组的长度; 0039 (3.3)特征组合: 对每一个用户, 将该用户各个用户画像维度特征的归一化结果进 行组合, 计算出相应的用户画像维度分值S。 计算公式为: 0040 0041 其中Wi为当前用户画像维度中第i个用户画像维度特征的权重, Ni为当前用户画像 维度中第i个用户画像维度特征归一化结果。 0042 (4)维度组合: 对于每一个用户, 将其n个用户画像维度的用户画像维度分值进行 组合, 并拼接成用户画像特征向量vu。 说明书 3/9 页 8 CN 110020201 A 8。

31、 0043 (5)输出用户画像特征向量: 将所有用户的用户画像特征向量vu组合成二维数组 的数据格式并输出。 0044 3.用户画像聚类模块 0045 首先对相关概念进行解释说明。 0046 聚类: 将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚 类。 0047 聚类蔟: 由聚类所生成的一组数据对象的集合。 聚类完成后会生成若干个聚类蔟。 0048 聚类中心: 聚类蔟中, 由对象集合计算产生的中心点。 0049 用户画像聚类模块的主要功能是, 读取用户画像特征向量, 根据配置文件的信息 初始化聚类模型, 然后初始化各个类别的聚类中心, 通过对损失函数的最小化操作, 不断计 算。

32、并更新各个类别的聚类中心, 达到指定的循环次数或目标函数最小化到指定值之后, 输 出各个类别的聚类中心以及每一个用户的聚类结果。 0050 用户画像聚类模块的实现步骤如下所示: 0051 (1)数据加载: 获取用户画像特征处理模块生成的用户画像特征向量, 并从配置文 件中读取模型参数数据, 包含聚类蔟个数k, 中心初始化形式, 最大迭代次数, 损失函数最小 值, 并行度等模型参数数据。 0052 (2)初始化聚类模型: 使用读取的模型参数初始化k-means聚类模型, 并根据聚类 中心个数k, 中心初始化形式来初始化k个聚类中心, 初始化形式可选择随机点初始化、 随机 特征初始化以及预训练初始。

33、化。 0053 (3)计算聚类中心: 对于用户画像特征向量中的每一条特征数据, 使用k-means模 型计算其与k个聚类中心的距离, 并把当前用户画像特征划分到距离最近的聚类中心所属 的聚类簇中。 最后, 分别计算k个聚类簇中特征的均值, 将其作为新的聚类中心。 0054 (4)最小化目标函数: 本发明中对k-means模型采用的损失函数为基于欧式距离的 误差平方和损失函数, 其公式为: 0055 0056 其中k为聚类中心的个数, Ci为第i个聚类中心, cij为第i个聚类中的第j维特征值, xj为用户特征向量的第j维特征值, d为用户特征向量的维度; 若损失函数没有低于最小值 或当前迭代次。

34、数没有大于最大迭代次数, 则跳转到步骤(3)。 0057 (5)输出各类别聚类中心结果: 分别将k个聚类中心的标签值以及中心值按照(标 签值-聚类中心)的形式组织成聚类中心数据, 供用户类型标注模块调用。 0058 (6)输出用户画像聚类结果: 对于每一个用户, 将最后一轮迭代中用户被划分到的 聚类蔟的标签值作为该用户的用户画像聚类结果, 并按照(用户id-标签值)的形式组织成 用户画像聚类结果数据, 供用户类型标注模块调用。 0059 4.用户类型标注模块 0060 用户类型标注模块的主要功能是, 获取聚类中心结果, 将聚类中心结果数据进行 中心值归一化, 并组织成聚类中心集合池, 然后从配。

35、置文件中按照格式解析出用户类型-匹 配规则优先级队列, 并从该队列中优先级最高的用户类型开始, 在聚类中心集合池中进行 用户类型匹配, 若匹配成功则为用户画像聚类结果中属于标签值属于当前聚类中心的用户 说明书 4/9 页 9 CN 110020201 A 9 标注该用户类型, 直至中心集合池为空或优先级队列为空。 最终产生用户类型标注结果。 0061 用户类型标注模块的实现步骤如下所示: 0062 (1)用户画像聚类结果数据加载: 将用户画像聚类模块生成的用户画像聚类结果 数据加载到当前模块中。 0063 (2)聚类结果划分: 针对用户画像聚类结果数据, 根据标签值进行划分, 每个标签 值会产。

36、生相应的用户集合, 最终将用户画像聚类结果数据划分为k个用户集合数据。 0064 (3)聚类中心结果数据加载: 将用户画像聚类模块生成的聚类中心结果数据加载 到当前模块中。 0065 (4)中心值归一化: 对据聚类中心结果数据进行中心值归一化, 将聚类中心中每一 个维度的值转化成1,t之间的值, 其中t为聚类中心的个数。 归一化的方式为: 对于聚类中 心每一个维度, 将t个维度中当前维度的值组织成长度为t的数组, 并对当前数组从小到大 进行排序, 取排序结果中每个值的位置序号作为该值的归一化结果。 0066 (5)构造聚类中心集合池: 将归一化后的聚类中心数据自支撑聚类中心集合池, 集 合池中。

37、包含t个聚类中心数据。 0067 (6)配置文件解析: 配置文件以json的形式存储了用户类型名称及相应的匹配规 则, 解析配置文件中的json数据, 提取用户类型名称字符串, 及相应的匹配规则字符串, 组 织成形如(用户类型名称-匹配规则)的名称-规则数据。 0068 (7)用户类型-匹配规则优先级队列: 使用名称-规则数据构造用户类型-匹配规则 优先级队列, 解析匹配规则字符串, 获取匹配优先级并构造匹配逻辑, 最终组织成队列形式 的用户类型-匹配规则优先级队列, 优先级最高的用户类型先入队。 队列的每一个元素为 (匹配逻辑-用户类型)形式的数据结构。 0069 (8)获取当前用户类型: 。

38、用户类型-匹配规则优先级队列出队, 得到当前需要匹配 的(匹配逻辑-用户类型)数据。 0070 (9)聚类中心池判断: 判断聚类中心池是否为空, 若为空则跳转到步骤(14), 否则 跳转到步骤(10)。 0071 (10)用户类型匹配: 遍历聚类中心池, 将每一个聚类中心输入(匹配逻辑-用户类 型)数据结构中, 并使用匹配逻辑进行匹配, 若匹配通过则会返回匹配系数。 若有多个聚类 中心匹配通过, 则取匹配系数最高的聚类中心作为匹配结果。 若所有聚类中心均未匹配成 功, 则跳转到步骤(8)。 0072 (11)用户类型标注: 取用户类型匹配的匹配结果, 与该聚类中心相对应的标签值, 为属于此标签。

39、值的用户集合数据中的所有用户标注当前用户类型。 0073 (12)聚类中心集合池删除操作: 将步骤(10)中匹配到的聚类中心从聚类中心集合 池中删除。 0074 (13)优先级队列推进: 判断用户类型-匹配规则优先级队列是否为空, 若为不为空 则跳转到步骤(8), 若不为空则跳转到步骤(14)。 0075 (14)输出用户类型标注结果: 将k个用户集合数据的标注结果组合, 生成最终的用 户类型标注结果并存入标注结果数据库中。 0076 本发明与现有技术相比的优点在于: 在许多互联网平台中, 根据平台的数据挖掘、 运营管理、 报表展示等工作需求, 都需要对用户进行类型标注。 类型标注系统可以为平。

40、台中 说明书 5/9 页 10 CN 110020201 A 10 的用户标注相应的类型, 标注结果可以直观的体现出用户在平台中的活跃度或用户对平台 中各功能模块的参与程度等用户相关的特征, 为平台的教学任务制定、 机器学习分类或回 归等预测、 提升用户界面体验等工作提供数据基础。 针对传统用户类型标注系统过于依赖 人工标注数据和标注类型难以更新及维护的问题, 本发明提出一种基于用户画像聚类的用 户类型自动化标注系统, 通过四个模块, 分别是用户画像数据采集模块、 用户画像特征处理 模块、 用户画像聚类模块和用户类型标注模块运行及相互作用, 能为用户自动化的标出其 所属的类型, 并支持以配置文。

41、件的形式对需要标注的类型进行更新, 极大的简化了用户类 型标注的流程。 在实际应用中, 每个周期系统都会自动运行, 并对全平台的用户进行自动化 标注。 附图说明 0077 图1为本发明的基于用户画像聚类的用户类型自动化标注系统集成图; 0078 图2为本发明中用户画像数据采集模块实现过程图; 0079 图3为本发明中用户画像特征处理模块实现过程图; 0080 图4为本发明的用户画像聚类模块实现过程图; 0081 图5为本发明的用户类型标注模块实现过程图。 具体实施方式 0082 以下结合具体实例和附图对本发明进行详细说明。 0083 如图1所示, 本发明的系统包含三个模块, 分别是用户画像特征。

42、处理模块、 用户画 像聚类模块和用户类型标注模块。 系统的运行步骤为: 0084 用户画像数据采集模块: 读取配置文件, 并根据配置文件信息从平台数据库中读 取相应的数据, 处理并生成用户画像数据, 并传入用户画像特征处理模块。 0085 用户画像特征处理模块: 以用户画像数据为输入, 处理并生成用户画像特征向量, 将用户画像特征向量传入用户画像聚类模块。 0086 用户画像聚类模块: 获取用户画像特征向量, 从配置信息中获取k-means聚类模型 的模型参数数据, 计算并生成用户画像聚类结果以及用户画像聚类中心。 0087 用户类型标注模块: 读取配置信息, 构造用户类型-匹配规则优先级列表。

43、, 并根据 用户画像聚类结果以及用户画像聚类中心, 为用户标注相应的用户类型, 生成用户类型标 注结果。 0088 保存用户类型标注结果: 将用户类型标注结果存入标注结果数据库。 0089 上述步骤中各模块的具体实现过程如下: 0090 1.用户画像数据采集模块 0091 用户画像数据采集模块实现过程如图2所示: 0092 (1)配置文件解析: 配置文件以json的格式存储用户画像特征名称以及与特征名 称相应的数据库字段、 特征所属维度以及特征计算规则。 读取配置文件, 并对配置文件的内 容进行解析。 处理并生成用户画像特征队列; 0093 (2)获取用户画像特征名称: 用户画像特征队列进行出。

44、队操作, 获取当前待处理的 用户画像特征名称; 说明书 6/9 页 11 CN 110020201 A 11 0094 (3)用户画像维度标注: 根据配置信息中与当前用户画像特征名称相应的用户画 像维度, 将当前用户画像名称存储到用户画像维度字典中, 维度字典的数据结构为(key: 用 户画像维度, value:用户画像特征名称); 0095 (4)原始数据读取: 根据配置信息中与当前用户画像特征名称相应的数据库字段 名, 从数据库中读取相关的原始数据; 0096 (5)用户画像维度特征计算: 根据配置信息中与当前用户画像特征名称相应的特 征计算规则, 使用从数据库读入的原始数据来计算用户画像。

45、特征值。 并将用户画像特征名 称与用户画像特征值存入用户画像特征数组中, 数组中每一个元素的数据结构为(用户画 像特征名称, 用户画像特征值); 0097 (6)逻辑判断: 判断用户画像特征队列是否为空。 若队列不为空则跳转到步骤2, 若 队列为空则跳转到步骤7; 0098 (7)输出用户画像数据: 将用户画像维度字典与用户画像特征数组中的数据组合 成用户画像数据并输出, 用户画像数据的格式为(用户画像特征名称, 用户画像维度, 用户 画像特征值)。 0099 2.用户画像特征处理模块 0100 用户画像特征处理模块实现过程如图3所示: 0101 (1)读入用户画像数据: 数据加载过程会读取用。

46、户画像数据采集模块生成的用户 画像数据, 并构造符合用户画像特征处理模块格式的数据, 基本数据格式为: 每一个用户的 用户画像数据包含5个用户画像维度, 每个用户画像维度包含若干个用户画像维度特征数 据, 以二维变长数组的数据结构存储。 0102 (2)维度划分: 对用户画像数据按照用户画像维度进行划分, 将不同用户在相同用 户画像维度下的用户画像维度特征数据进行拼接, 对于每一个用户画像维度, 产生一个用 户画像维度二维数组。 0103 (3)用户画像维度分值计算: 分别基于每一个用户画像维度二维数组, 计算当前用 户画像维度下的用户画像维度分值。 对于每一个用户画像维度, 其用户画像维度分。

47、值的计 算过程如步骤(3.1)到步骤(3.3)所示。 0104 (3.1)特征清洗: 对用户画像维度二维数组中用户画像维度特征数据进行清洗, 修 正异常数据。 异常数据包括两个部分: 缺失值和异常值, 对于缺失值采取缺失值补零操作, 对于异常值会根据数据的所属区间, 将区间外的值置为区间的最大值或最小值。 0105 (3.2)特征归一化: 对用户画像维度特征数据进行归一化, 将其转化为0,1之间 的值, 对于每一个用户画像维度特征, 其归一化步骤相同。 以学习内容访问维度中的课程访 问次数为例, 归一化步骤为: 首先, 将不同用户的课程访问次数组合成一维数组, 然后对该 数组从小到大进行排序产。

48、生排好序的新数组, 并记录新数组中的每一个元素, 其第一次出 现的位置的下标, 最后对原数组中的每一个元素使用公式1计算得到归一化结果。 0106 (3.3)特征组合: 对每一个用户, 将该用户各个用户画像维度特征的归一化结果进 行组合, 使用如(公式2)所示的公式计算出相应的用户画像维度分值。 0107 (4)维度组合: 对于每一个用户, 将其5个用户画像维度的用户画像维度分值进行 组合, 拼接成维度为5的用户画像特征向量。 0108 (5)输出用户画像特征向量: 将所有用户的用户画像特征向量组合成二维数组的 说明书 7/9 页 12 CN 110020201 A 12 数据格式并输出。 0。

49、109 3.用户画像聚类模块 0110 用户画像聚类模块实现过程如图4所示: 0111 (1)数据加载: 获取用户画像特征处理模块生成的用户画像特征向量, 并从配置文 件中读取模型参数数据, 模型各项参数设定为: 聚类蔟个数为5, 中心初始化形式为预训练 初始化, 最大迭代次数为200, 损失函数最小值为, 并行度为50。 0112 (2)初始化聚类模型: 使用读取的模型参数初始化k-means聚类模型, 并根据使用 预训练初始化形式来初始化5个聚类中心。 0113 (3)计算聚类中心: 对于用户画像特征向量中的每一条特征数据, 使用k-means模 型计算其与5个聚类中心的距离, 并把当前用。

50、户画像特征划分到距离最近的聚类中心所属 的聚类簇中。 最后, 分别计算5个聚类簇中特征的均值, 将其作为新的聚类中心。 0114 (4)最小化目标函数: 计算如公式3所示的损失函数, 若损失函数没有低于最小值 或当前迭代次数没有大于最大迭代次数, 则跳转到步骤(3), 否则, 跳转到步骤(5)。 0115 (5)输出各类别聚类中心结果: 分别将5个聚类中心的标签值以及中心值按照(标 签值-聚类中心)的形式组织成聚类中心数据, 供用户类型标注模块调用。 5个聚类中心的标 签值分别为0、 1、 2、 3、 4、 5。 0116 (6)输出用户画像聚类结果: 对于每一个用户, 将最后一轮迭代中用户被。

展开阅读全文
内容关键字: 基于 用户 画像 类型 自动化 标注 系统
关于本文
本文标题:基于用户画像聚类的用户类型自动化标注系统.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11664151.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1