基于生成式多任务学习模型的文本分类方法.pdf

上传人:n****g 文档编号:11167932 上传时间:2021-09-09 格式:PDF 页数:15 大小:713.50KB
收藏 版权申诉 举报 下载
基于生成式多任务学习模型的文本分类方法.pdf_第1页
第1页 / 共15页
基于生成式多任务学习模型的文本分类方法.pdf_第2页
第2页 / 共15页
基于生成式多任务学习模型的文本分类方法.pdf_第3页
第3页 / 共15页
文档描述:

《基于生成式多任务学习模型的文本分类方法.pdf》由会员分享,可在线阅读,更多相关《基于生成式多任务学习模型的文本分类方法.pdf(15页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910648695.7 (22)申请日 2019.07.18 (71)申请人 湖南数定智能科技有限公司 地址 410000 湖南省长沙市高新开发区尖 山路39号长沙中电软件园总部大楼 (72)发明人 谢松县高辉陈仲生彭立宏 (74)专利代理机构 长沙国科天河知识产权代理 有限公司 43225 代理人 董惠文 (51)Int.Cl. G06F 16/35(2019.01) (54)发明名称 一种基于生成式多任务学习模型的文本分 类方法 (57)摘要 本发明构建一种基于生成式多。

2、任务学习模 型的文本分类方法, 通过训练集根据多标签分类 任务和层次分类任务交替对所述多任务分类模 型进行解码, 解码获得与编码时刻特征向量相关 的当前时刻语义特征并进行训练; 根据训练结果 和真实标签集对多任务分类模型进行优化, 获得 优化多任务分类模型; 将待测集中的数据输入上 述优化多任务分类模型, 分别获得分类标签从而 完成分类; 上述模型在训练过程中通过多任务机 制构建了多标签分类模型与层次分类模型之间 的语义关联性, 因此可以增强两个子任务预测结 果之间的语义关联, 从而达到提升子任务分类性 能目的。 权利要求书2页 说明书10页 附图2页 CN 110347839 A 2019.。

3、10.18 CN 110347839 A 1.一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 包括如下步骤: S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建真实 标签集; S2.基于多任务学习机制构建多任务分类模型, 通过训练集根据共享编码器进行编码, 根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训练分 类标签; S3.根据训练分类标签和真实标签计算损失值, 并采用多标签分类任务和层次分类任 务交替训练的方法对模型进行优化训练, 获得优化分类模型; S4.将待测试集的各文本语料输入优化模型获得预测分类标签。 2.如权利要求1所述的。

4、一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 所述S2包括: S2.1.文本语料经预处理得到词嵌入矩阵, 词嵌入矩阵中输入共享编码器, 共享编码器 利用双向长短记忆模型, 根据词嵌入矩阵中对应当前时刻词嵌入向量以及当前时刻词嵌入 向量的历史信息和未来信息得到当前时刻对应的特征向量, 每一时刻对应的特征向量组成 特征向量序列; S2.2.将所述特征向量输入多任务分类解码器, 根据多标签分类任务和层次分类任务 交替解码获得与编码时刻特征向量相关的当前时刻语义特征; S2.3.根据前一时刻语义特征、 前一时刻输出对应完整标签集中标签的词嵌入向量以 及前一时刻隐藏向量, 获得当前时刻隐藏。

5、向量; S2.4.多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征, 层次分类任务根 据当前时刻隐藏向量、 当前时刻语义特征以及层级结构掩码矩阵, 分别获得当前时刻在完 整标签集上的概率分布, 取最大值作为当前时刻的训练分类标签。 3.如权利要求2所述的一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 所述S2.2包括: 多任务分类解码器中包括多标签分类注意力机制层和层次分类注意力机制层; 多标签分类注意力机制层解码输出特征向量序列对应的多标签分类任务语义特征序 列; 层次分类注意力机制层解码输出特征向量序列对应的层次分类任务语义特征序列; 其中语义特征序列由每一解码时刻按照先后。

6、顺序生成的语义特征组成。 4.如权利要求2所述的一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 所述S2.3中当前时刻隐藏向量获得的方法包括: S2.31, 对多任务分类模型初始化, 将多任务注意力机制层处理后得到的语义特征赋值 给隐藏层的隐藏向量, 并输入至多任务分类模型中的多任务分类器, 其中多任务分类器包 括多标签分类器和层次分类器, 多任务分类器计算当前时刻语义特征在完整标签集上的概 率分布, 并输出概率最大值对应的分类标签; S2.32, 将前一时刻的输出在完整标签集上的概率分布最大的分类标签、 前一时刻的语 义特征以及前一时刻的隐藏向量输入至多任务分类模型的长短记忆模型。

7、层, 得到当前时刻 的隐藏层对应的隐藏向量。 5.如权利要求2所述的一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 权利要求书 1/2 页 2 CN 110347839 A 2 所述S2.4中输出当前时刻分类标签的步骤包括: S2.41, 多标签分类任务将当前时刻的语义特征和隐藏向量输入至多标签分类器, 多标 签分类器计算当前时刻在完整标签集上的概率分布, 取最大值作为当前时刻的训练分类标 签输出; S2.42, 层次分类任务将当前时刻隐藏向量、 当前时刻语义特征以及前一时刻的分类标 签输入至层次分类器, 层次分类器根据层级结构掩码矩阵结合前一时刻的分类标签对当前 时刻输出分类标签。

8、的进行层级约束后, 层次分类器计算当前时刻在完整标签集上的概率分 布, 取最大值作为当前时刻的训练分类标签输出。 6.如权利要求5所述的一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 所述步骤S2.42中层级结构掩码矩阵进行层级约束的步骤包括: S2.42a, 层次分类任务对应的完整标签集按照树形结构组织; S2.42b, 当前时刻的分类标签依赖于之前时刻的训练分类标签信息, 层级结构掩码矩 阵将当前时刻训练分类标签的搜索范围约束在前一时刻生成的训练分类标签的儿子标签 上。 7.如权利要求1所述的一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 所述S3中包括: 通过损失。

9、函数计算训练分类标签集中训练分类标签与真实标签集中真实标签之间的 损失值, 对多任务分类模型中的参数进行优化, 获得优化多任务分类模型; 多任务分类模型 中的参数优化包括多标签分类器的参数优化和层次分类器的参数优化。 8.如权利要求7所述的一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 所述步骤S3中多标签分类器的参数优化的步骤包括: S3.1a, 对于当前解码时刻输出的训练分类标签, 根据交叉熵损失函数计算其与真实标 签集所有真实标签的交叉熵, 获取其中交叉熵最小值, 称为第一损失值 S3.2a, 对于真实标签集中当前解码时刻对应的真实标签, 根据交叉熵函数计算其与所 有训练分类。

10、标签的交叉熵, 获取其中交叉熵最小值, 称为第二损失值; S3.3a, 第一损失值与第二损失值之和构成标签顺序不敏感的多标签分类损失; S3.4a, 最后的损失值用于基于反向传播方法的模型参数优化, 优化过程中当模型处于 收敛时, 对应的多标签分类器参数作为优化后的多标签分类器并进行保存。 9.如权利要求7所述的一种基于生成式多任务学习模型的文本分类方法, 其特征在于, 所述步骤S3中层次分类器的参数优化的步骤包括: S3.1b, 根据交叉熵损失函数每一解码时刻输出的训练分类标签与该解码时刻对应的 真实标签集中的真实标签的交叉熵; S3.2b计算该文本语料所有解码时刻的交叉熵之和作为最后的损失。

11、值; S3.3b最后的损失值用于基于反向传播方法的模型参数优化, 优化过程中当模型处于 收敛时, 对应的层次分类器参数作为优化后的层次分类器并进行保存。 权利要求书 2/2 页 3 CN 110347839 A 3 一种基于生成式多任务学习模型的文本分类方法 技术领域 0001 本发明属于自然语言处理文本分类技术领域, 尤其涉及一种基于生成式多任务学 习模型的文本分类方法。 背景技术 0002 文本多标签分类和层次分类是在实际应用中经常需要解决的问题, 也是文本分类 任务重要的两个分支以及当前的研究热点。 在实际应用中许多数据具有多义性, 一个实例 可能对应标签集中的多个类别标签, 文本多标签。

12、分类的目的就是为文本到标签集建立起一 对多的关联。 相对于传统的单标签分类, 多标签分类是一种更符合真实应用场景的方法。 比 如在公安业务场景中, 案件的受理过程会产生大量案件的警情文本, 一般需要人工来标注 标签, 以方便理解和检索, 从而为后续案件研判和侦破提供数据服务, 例如, 警情文本 “被一 外国女子以问路的方式诈骗, 骗走一台vivo手机, 价值1600元” 对应 “诈骗” 和 “涉外国人” 两 个标签。 另外, 实际应用中为了高效组织和管理海量文本数据, 通常需要按照一个概念或主 题将这些文本组织为层级分类目录, 文本层次分类目的是在预定义的层级目录框架下为一 个样本指定一条由多。

13、个层次标签组成的类别路径。 例如, 警情文本 “被一外国女子以问路的 方式诈骗, 骗走一台vivo手机, 价值1600元” 中对应的层次类别路径为 “诈骗类/接触型诈 骗/名借实骗” 。 0003 实际应用往往需要对一个文本既进行多标签分类, 又进行层次分类。 与传统的单 分类任务相比, 多标签分类和层次分类任务更加复杂, 现有研究重点关注如何对样本到标 签之间的一对多映射进行建模; 同时, 由于多标签分类任务中的标签往往存在较强的语义 关系, 而层次分类标签之间存在父子或兄弟关系, 可以充分利用标签之间的语义关系来提 高分类效果。 针对文本多标签分类和层次分类双重任务问题, 目前的常规解决方。

14、案是分别 训练一个多标签分类模型和一个层次分类模型, 然后进行独立预测, 但这种方案可能导致 预测结果之间缺乏必要的语义关联。 发明内容 0004 本发明提出了一种基于生成式多任务学习模型的文本分类方法, 用于克服现有技 术中多种分类模型中缺乏语义关联导致分类效果难以综合优化的缺陷, 本发明利用多任务 学习把多标签分类任务和层次分类任务整合到一个多任务分类模型之中, 从而达到提升子 任务分类性能目的。 0005 为实现上述目的, 本发明提供一种基于生成式多任务学习模型的文本分类方法, 包括如下步骤: 0006 S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建 真实标签集。

15、; 0007 S2.基于多任务学习机制构建多任务分类模型, 通过训练集根据共享编码器进行 编码, 根据多标签分类任务和层次分类任务交替对所述多任务分类模型进行解码并得到训 说明书 1/10 页 4 CN 110347839 A 4 练分类标签; 0008 S3.根据训练分类标签和真实标签计算损失值, 并采用多标签分类任务和层次分 类任务交替训练的方法对模型进行优化训练, 获得优化分类模型; 0009 S4.将待测试集的各文本语料输入优化模型获得预测分类标签。 0010 采用本发明可以达到以下技术效果: 0011 本发明首先构建训练集, 对训练集中的文本语料进行预处理和分类标注, 根据多 标签分。

16、类标准和层次分类标准针对训练集分别构目标建标签集; 基于多任务学习机制构建 了一个多任务分类模型, 通过训练集根据多标签分类任务和层次分类任务交替对所述多任 务分类模型进行解码, 解码获得与编码时刻特征向量相关的当前时刻语义特征, 用来衡量 编码器中第i时刻的特征向量和解码时第t时刻的相关性, 并进行训练; 根据训练结果和真 实标签集对多任务分类模型进行优化, 获得优化多任务分类模型; 将待测集中的数据(没有 标定的文本语料)输入上述优化多任务分类模型, 分别获得分类标签; 上述模型在训练过程 中通过多任务机制构建了多标签分类模型与层次分类模型之间的语义关联性, 因此可以增 强两个子任务预测结。

17、果之间的语义关联, 从而达到提升子任务分类性能目的。 附图说明 0012 图1为本发明一种基于生成式多任务学习模型的文本分类方法的工作流程示意 图; 0013 图2为本发明一种基于生成式多任务学习模型的文本分类方法的分类流程示意 图。 具体实施方式: 0014 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完 整地描述, 显然, 所描述的实施例仅是本发明的一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它 实施例, 都属于本发明保护的范围。 0015 本发明实施例提供一种基于生成式多任务学习模型。

18、的文本分类方法。 0016 如图1所示, 本发明实施的框架包括数据输入及预处理模块、 词嵌入模块、 编码模 块, 多标签分类任务和层次分类任务分别拥有独立的注意力机制, 并分别包括独立的多标 签分类解码模块和层次分类解码模块, 最后分别是多标签分类预测输出模块和层次分类预 测输出模块, 其中多标签分类模块和层次分类模块的解码模块又都包括模型优化模块, 其 中多标签分类模块的解码模块的优化是通过顺序不敏感的损失函数进行, 而层次分类模块 的解码模块优化是通过普通损失函数计算交叉熵实现的。 0017 本发明提出一种基于生成式多任务学习模型的文本分类方法, 同时实现文本的多 标签分类和层次分类。 系。

19、统框架如图2所示, 总体框架, 整个系统由3部分组成: 1、 共享编码 器, 对输入的文本进行编码, 后续解码器共享此编码器的输出。 2、 多标签分类解码器, 完成 多标签分类任务; 3、 层次分类解码器, 完成层次分类任务。 其中编码器和解码器都使用了长 短记忆模型网络结构, 两个解码器分别拥有各自的注意力机制。 0018 本发明包括如下步骤: 说明书 2/10 页 5 CN 110347839 A 5 0019 首先对待输入文本语料进行预处理, 对即将输入的文本语料中的文本数据进行分 词、 去停用词, 构建语料词表; 将所述语料词表进行词嵌入处理获得所述文本语料的词嵌入 矩阵; 0020 。

20、S1.对训练集中的各文本语料按照多标签分类和层次分类分别进行标定各自构建 真实标签集; 0021多标签分类任务和层次分类任务对应的完整标签集分别为和 完整标签集即分类任务对应的全部标签, 多标签分类任务和层次分类任 务的完整标签集对应标签数量分别为L_M和L_H。 待分类文本语料包含n个中文词x1,x2, xn, 多标签分类任务和层次分类任务是为其指定一个的子集YM和一个的子集YH对应标 签个数分别为m_M和m_H。 训练集中各文本语料对应的真实标签集是也属于完整标签集的子 集。 0022 S2.基于多任务学习机制构建多任务分类模型, 通过训练集根据共享编码器进行 编码, 根据多标签分类任务和。

21、层次分类任务交替对所述多任务分类模型进行解码并得到训 练分类标签; 0023 多任务学习使用共同学习取代常见的独立学习。 多任务学习模型提取多个任务之 间的关联性, 提炼出其中所具有的相同特征, 如共享子向量、 共享子空间等, 各个子任务能 够得到额外的有用信息, 大部分情况下都能取得比单任务学习更好的效果。 在自然语言处 理应用中, 多任务学习不仅能利用相关任务的相互关联性缓解语料由于规模小带来的训练 欠拟合问题, 而且还能提升模型的泛化能力。 0024 本发明利用多任务学习模型把多标签分类任务和层次分类任务整合到一个框架 之中, 从而达到提升子任务分类性能目的, 同时将尝试利用多任务学习增。

22、强两个子任务预 测结果之间的语义关联。 0025 S3.根据训练分类标签和真实标签计算损失值, 并采用多标签分类任务和层次分 类任务交替训练的方法对模型进行优化训练, 获得优化分类模型; 0026 S4.将待测试集的各文本语料输入优化模型获得预测分类标签。 0027 本发明所述S2包括: 0028 S2.1.文本语料经预处理得到词嵌入矩阵, 词嵌入矩阵中输入共享编码器, 共享编 码器利用双向长短记忆模型, 根据词嵌入矩阵中对应当前时刻词嵌入向量以及当前时刻词 嵌入向量的历史信息和未来信息得到当前时刻对应的特征向量, 每一时刻对应的特征向量 组成特征向量序列; 0029 共享编码器主要由双向长短。

23、记忆模型构成, 用来获取警情文本的语义表征。 长短 记忆模型引入记忆单元, 可以保存长距离信息, 是循环神经网络结构的一种常用的优化方 案。 由于加入了门控机制, 可以在工作时保留一段时间的信息, 并在训练时保持内部梯度不 受不利变化的干扰。 对包含n个中文词语的序列, 输入至共享编码器得到对应输出序列h1, h2,hn。 第i时刻的特征向量hi可表示如下: 0030 0031其中, 和分别对应于第i时刻长短记忆模型前后两个时刻的隐藏状态。 表 说明书 3/10 页 6 CN 110347839 A 6 示两个向量的连接。 0032 S2.2.将所述特征向量输入多任务分类解码器, 根据多标签分。

24、类任务和层次分类 任务交替解码获得与编码时刻特征向量相关的当前时刻语义特征。 0033 本发明所述S2.2包括: 0034 多任务分类解码器中包括多标签分类注意力机制层和层次分类注意力机制层; 0035 注意力机制通过在每个解码时刻采用不同的ct来解决该问题。 0036 0037 其中ct表示t解码时刻的语义特征, ati为学习得到的权重, 用来衡量编码器中第i 时刻的hi和解码时第t时刻的相关性。 0038 多标签分类注意力机制层解码输出特征向量序列对应的多标签分类任务语义特 征序列; 0039 层次分类注意力机制层解码输出特征向量序列对应的层次分类任务语义特征序 列; 0040 其中语义特。

25、征序列由每一解码时刻按照先后顺序生成的语义特征组成。 0041 S2.3.根据前一时刻语义特征、 前一时刻输出对应完整标签集中标签的词嵌入向 量以及前一时刻隐藏向量, 获得当前时刻隐藏向量; 0042 本发明所述S2.3中当前时刻隐藏向量获得的方法包括: 0043 S2.31, 对多任务分类模型初始化, 将多任务注意力机制层处理后得到的语义特征 赋值给隐藏层的隐藏向量, 并输入至多任务分类模型中的多任务分类器, 其中多任务分类 器包括多标签分类器和层次分类器, 多任务分类器计算当前时刻语义特征在完整标签集上 的概率分布, 并输出概率最大值对应的分类标签; 0044 S2.32, 将前一时刻的输。

26、出在完整标签集上的概率分布最大的分类标签、 前一时刻 的语义特征以及前一时刻的隐藏向量输入至多任务分类模型的长短记忆模型层, 得到当前 时刻的隐藏层对应的隐藏向量。 0045 解码器的长短记忆模型层输出的t时刻的隐藏状态为st, 计算如下: 0046 0047 向量g(yt-1)表示t-1时刻输出概率分布yt-1中最大值对应的标签l的嵌入向量。 yt 表示模型t时刻输出的在整个标签空间上的概率分布。 0048 S2.4.多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征, 层次分类任 务根据当前时刻隐藏向量、 当前时刻语义特征以及层级结构掩码矩阵, 分别获得当前时刻 在完整标签集上的概率分布。

27、, 取最大值作为当前时刻的训练分类标签。 0049 本发明所述S2.4中输出当前时刻分类标签的步骤包括: 0050 S2.41, 多标签分类任务将当前时刻的语义特征和隐藏向量输入至多标签分类器, 多标签分类器计算当前时刻在完整标签集上的概率分布, 取最大值作为当前时刻的分类标 签输出; 0051 S2.42, 层次分类任务将当前时刻隐藏向量、 当前时刻语义特征以及前一时刻的分 类标签输入至层次分类器, 层次分类器根据层级结构掩码矩阵结合前一时刻的分类标签对 说明书 4/10 页 7 CN 110347839 A 7 当前时刻输出分类标签的进行层级约束后, 层次分类器计算当前时刻在完整标签集上的。

28、概 率分布, 取最大值作为当前时刻的分类标签输出。 0052 本发明所述步骤S2.42中层级结构掩码矩阵进行层级约束的步骤包括: 0053 S2.42a, 层次分类任务对应的完整标签集按照树形结构组织; 0054 S2.42b, 当前时刻的分类标签依赖于之前时刻的分类标签信息, 层级结构掩码矩 阵将当前时刻分类标签的搜索范围约束在前一时刻生成的分类标签的儿子标签上。 0055 本发明所述S3包括: 0056 通过损失函数计算训练分类标签集中训练分类标签与真实标签集中真实标签之 间的损失值, 对多任务分类模型中的参数进行优化, 获得优化多任务分类模型; 多任务分类 模型中的参数优化包括多标签分类。

29、器的参数优化和层次分类器的参数优化。 0057 本发明所述S3中多任务分类模型中的参数优化包括多标签分类器的参数优化和 层次分类器的参数优化。 0058模型t时刻输出的在整个标签空间上的概率分布yt的计算方法为: 0059 ytsoftmax(W0f(Wdst+Vdct) 0060 其中, W0、 Wd和Vd为待训练参数。 所述参数的优化即对W0、 Wd和Vd的优化。 0061 本发明所述步骤S3中多标签分类器的参数优化的步骤包括: 0062 S3.1a, 对于当前解码时刻输出的训练分类标签, 根据交叉熵损失函数计算其与真 实标签集所有真实标签的交叉熵, 获取其中交叉熵最小值, 称为第一损失值。

30、 0063 S3.2a, 对于真实标签集中当前解码时刻对应的真实标签, 根据交叉熵函数计算其 与所有训练分类标签的交叉熵, 获取其中交叉熵最小值, 称为第二损失值; 0064 S3.3a, 第一损失值与第二损失值之和构成标签顺序不敏感的多标签分类损失; 0065 S3.4a, 最后的损失值用于基于反向传播方法的模型参数优化, 优化过程中当模型 处于收敛时, 对应的多标签分类器参数作为优化后的多标签分类器并进行保存。 0066 本发明所述步骤S3中层次分类器的参数优化的步骤包括: 0067 S3.1b, 根据交叉熵损失函数每一解码时刻输出的训练分类标签与该解码时刻对 应的真实标签集中的真实标签的。

31、交叉熵; 0068 S3.2b计算该文本语料所有解码时刻的交叉熵之和作为最后的损失值; 0069 S3.3b最后的损失值用于基于反向传播方法的模型参数优化, 优化过程中当模型 处于收敛时, 对应的层次分类器参数作为优化后的层次分类器并进行保存。 0070 下面给出一个面向公安警情数据和类别识别问题的实施例, 采用案件受理过程中 产生的警情文本作为实验数据。 产生的12万多条警情文本, 每条文本都由专业人员进行了 警情tag和案件类别的标注。 警情tag标注属于多标签分类任务, 警情类别预测属于层次分 类任务。 0071 针对多标签分类任务和层次分类任务, 本文选择了不同的baseline与多任。

32、务分类 模型进行对比: 0072 CNN多标签分类: 利用CNN来捕捉文本特征, 最后一层用sigmoid激活函数输出每个 标签的概率, 将样本标注为概率大于某个阈值的那些标签, 该方法未考虑标签之间的关系。 0073 SGM多标签分类: 利用带有注意力机制的Seq2Seq模型进行文本多标签分类, 同时 引入 “全局嵌入” 的概念, 将上一时刻除概率最大标签以及其他标签一同用于本时刻标签的 说明书 5/10 页 8 CN 110347839 A 8 预测。 0074 CNN_Flat层次分类: 将7层类别标签平铺为一层包含729个类别的标签集, 使用CNN 模型进行文本分类。 0075 Top。

33、-Down(CNN)层次分类: 对于树形层次结构, 为每一个非叶节点训练一个CNN文 本分类器, 用于对所属子类进行预测。 0076 为了验证本发明中各项改进对性能的影响, 分别设置了以下几个模型进行对比实 验: 0077 GMTC_M: 仅用于多标签分类单个任务的序列生成模型, 编码器和多标签分类解码 器的结构和超参数均与多任务分类模型一致。 0078 GMTC_H: 仅用于层次分类单个任务的序列生成模型, 编码器和层次分类解码器的 结构和超参数均与多任务分类模型一致。 0079 GMTC(common loss): 多任务分类模型中的多标签分类任务采用传统标签生成模 型的交叉熵损失函数的情。

34、况。 0080 GMTC(without mask): 多任务分类模型中的层次分类解码器未采用层级结构掩码 矩阵的情况。 0081 按照8:1:1的比例将上述警情文本划分为训练集、 测试集和验证集, 作为输入本发 明的文本语料。 对输入的文本语料进行分词、 去停用词, 构建语料词表。 0082 对语料词表中的语料词按照完整标签集中多标签映射关系以及层次分类映射关 系分别构建目标标签集。 警情tag对应目标标签集大小为14。 案件类别目标标签集为深度7 层的树形层次结构, 从第1层到第7层对应的标签数量分别为20、 106、 55、 132、 144、 210、 62。 对于案件类别分类, 每个。

35、实例既可能对应全深度标签又可能对应部分深度标签, 即实例分 类分到非叶节点就停止, 而不是必须分到叶节点。 0083 将将所述语料词表进行词嵌入处理获得所述文本语料的词嵌入矩阵, 其中词嵌入 维度为128; 将输入的文本语料词表数值化表示, 并将数值化表示的文本语料词表输入到嵌 入层中以得到文本语料词表对应的词嵌入向量序列, 所有所述词嵌入向量序列构成词嵌入 矩阵。 0084 对所述词嵌入矩阵进行编码获得与每个语料词对应的特征向量; 0085 将所述词嵌入矩阵传输至共享编码层, 共享编码层利用双向长短记忆模型获得输 入词嵌入向量序列的历史信息和未来信息以及当前时刻输入的文本语料的词嵌入向量得 。

36、到当前时刻对应的特征向量。 0086 将所述特征向量输入多任务分类模型, 根据多标签分类任务和层次分类任务交替 解码获得与编码时刻特征向量相关的当前时刻语义特征; 0087 在执行多标签分类任务和层次分类任务时共享编码层输出的特征向量序列; 0088 多标签分类任务的解码是通过注意力机制层输出特征向量序列对应的多标签分 类任务语义特征序列; 0089 层次分类任务的解码是通过注意力机制层输出特征向量序列对应的层次分类任 务语义特征序列。 0090 其中多标签分类任务和层次分类任务分别拥有独立的注意力机制。 0091 如表4所示, 针对同一段警情文本, 单任务模型包括多标签分类模型(GMTC_M。

37、)和层 说明书 6/10 页 9 CN 110347839 A 9 次分类模型(GMTC_H), 和多任务分类模型在词序列上的注意力机制可视化情况。 针对同一 段文本语料, 对应的警情tag和警情类别真值分别为 “涉枪, 涉黑恶” 和 “涉黑恶/涉枪” , 多标 签分类模型将警情tag错误预测为 “伤害” , 将较高的注意力权重两次分配给 “打” , 而对 “钢 珠” 、“气枪” 分配的权重较小, 在采用了多任务学习框架的多任务模型模型中, 警情tag预测 时将较高的注意力权重正确分配给 “钢珠” 、“气枪” 等词, 且与警情类别预测时的注意力权 重分配保持了较高的一致性。 0092 根据前一。

38、时刻语义特征、 前一时刻输出对应完整标签集中标签的嵌入向量以及前 一时刻隐藏向量, 获得当前时刻隐藏向量; 0093 多标签分类任务根据当前时刻隐藏向量及当前时刻语义特征, 层次分类任务根据 当前时刻隐藏向量、 当前时刻语义特征以及前一时刻的分类标签, 获得当前时刻在完整标 签集上的概率分布, 取最大值作为当前时刻的分类标签; 0094 通过损失函数计算分类标签集中与目标标签集中对应位置标签真值之间的损失 值, 对多任务分类模型中的参数进行优化, 获得优化多任务分类模型; 0095 当前时刻隐藏向量求法具体如下: 0096 对多任务分类模型初始化, 将注意力机制层处理后得到的语义特征赋值给隐藏。

39、层 的隐藏向量, 并输入至softmax层进行分类, 得出该时刻语义特征对应的分类标签; 0097 将前一时刻的输出在整个标签空间上的概率分布最大的分类标签、 前一时刻的语 义特征以及前一时刻的隐藏向量输入至长短记忆模型层, 得到当前时刻的隐藏层隐藏向 量。 0098 输出当前时刻分类标签的方法具体如下: 0099 多标签分类任务将当前时刻的语义特征和隐藏向量输入至softmax层, 输出当前 时刻的分类标签; 0100 层次分类任务将当前时刻隐藏向量、 当前时刻语义特征以及前一时刻的分类标签 输入至softmax层, 先根据层级结构掩码矩阵结合前一时刻的分类标签增强当前时刻输出 分类标签的层。

40、级约束。 0101 所述层级结构掩码矩阵工作方式具体为: 0102 类别结构掩码的引入, 使得当前时刻标签只能从上一时刻标签在完整标签集层次 结构中的子结点集合产生, 如表2所示, 该项改进使得警情类别预测结果在各个指标都得到 了明显提升。 本实施例采用的数据集中, 各级警情类别数量为729, 而包含最多子类的类别 为 “盗窃” , 包含子类数目为15, 所有类别包含子类的平均数目为4, 可见引入类别结构掩码 后可以大大缩小每一时刻标签的搜索范围, 从而提高分类性能。 0103 多任务分类模型中的参数优化分为多标签分类模型的参数优化和层次分类模型 的标签优化。 : 0104 多标签分类模型的优。

41、化过程具体如下: 0105 使用标签顺序不敏感的多标签分类损失函数对多标签分类模型进行优化, 对于当 前时刻输出的分类标签, 计算其与目标标签集所有标签的交叉熵, 取其中交叉熵最小值参 与最后标签顺序不敏感的多标签分类损失函数的计算; 0106 多标签分类任务并不要求生成序列中标签之间保持严格的顺序, 针对这一特点, 本文提出了标签顺序不敏感的多标签分类损失函数, 表1显示当引入标签顺序不敏感的多 说明书 7/10 页 10 CN 110347839 A 10 标签分类损失函数时, 预测效果得到小幅度提升。 标签顺序不敏感的多标签分类损失函数 比通用交叉熵损失函数能得到更快的收敛速度。 010。

42、7 对于目标标签集中当前时刻对应的标签, 计算其与所有分类标签的交叉熵, 取其 中交叉熵最小值参与最后标签顺序不敏感的多标签分类损失函数的计算; 0108 分类标签序列和目标标签序列中的结束位置仍然按照普通损失函数计算, 最后将 两部分损失相加作为最后的损失; 0109 将最后的损失对应的参数作为多标签分类模型的参数, 并保存优化后的多标签分 类模型。 0110 所述层次分类模型的优化过程具体如下: 0111 层次分类任务使用普通损失函数计算方法对多任务分类模型进行优化, 每一时刻 输出的分类标签与目标标签之间交叉熵之和最小的分类标签作为最后的损失; 0112 将最后的损失对应的参数作为分类模。

43、型的参数, 并保存优化后的层次分类模型。 0113 输入待测文本语料, 经S1、 3、 4处理, 输入优化多任务分类模型, 在执行多标签分类 任务得到多标签分类任务语义特征序列, 在执行层次分类任务时获得层次分类任务语义特 征序列; 0114 当前时刻语义特征结合当前时刻隐藏向量经过多任务分类模型的softmax层进行 归一化处理, 输出大于预设阈值的解码序列, 根据所述解码序列在完整标签集中找出相应 的分类标签。 0115 在本实施例中, 多任务分类模型在两个任务上比分别单独进行多标签分类模型 (GMTC_M)(如表1所示)和层次分类模型(GMTC_H)(如表2所示)均存在优势, 证明了多任。

44、务学 习框架能够同时提高两个任务的学习效果。 0116 在警务实战应用场景中, 基于单任务学习的多标签分类模型和层次分类模型, 对 同一个警情文本在tag和类别的预测结果上缺乏语义关联, 比如标签为 “双抢” , 而类别却为 “诈骗类/接触型诈骗” , 在具体业务场景中会使人们产生较大困惑。 0117 表1和表2展示了baseline和本文设置的多个模型在警情文本数据集上的实验结 果。 对于面向警情文本tag预测的多标签分类实验, 如表1所示, 本文提出的多任务分类模型 和SGM性能相当, 在Full-Match和Micro-F1比SGM均低0.1个百分点, 但在准确率上取得了最 好结果, 比。

45、SGM高出0.5个百分点。 本实施例中在提出的标签顺序不敏感的多标签分类损失 函数后, 多任务分类模型在各个指标上均有提高。 0118 对于面向警情文本层次分类实验, 如表2所示, 多任务分类模型在各个指标上均取 得最高得分, 且比效果较好的Top-Down方法高出2到7个百分点。 同时, 在引入掩码矩阵后, 多任务分类模型在各个指标均有明显提高。 0119 表1.警情文本tag预测结果 0120 说明书 8/10 页 11 CN 110347839 A 11 0121 0122 表2.警情类别层次分类结果 0123 模型AccFull-MatchMicro-F1 CNN-Flat0.7810。

46、.6340.769 Top-Down(CNN)0.8130.6750.806 GMTC_H0.8240.7120.822 GMTC(without mask)0.8290.7180.825 GMTC0.8450.7520.842 0124 表3 Full-Match2结果 0125 SGM+Top-DownSGM+GMTC_HGMTC_M+GMTC_HGMTC 0.6490.6820.6780.703 0126 表4注意力机制可视化 0127 说明书 9/10 页 12 CN 110347839 A 12 0128 0129 深灰和浅灰表示分配的注意力权重a10-1和10-1a10-2。 0130 以上包含了本发明优选实施例的说明, 这是为了详细说明本发明的技术特征, 并 不是想要将发明内容限制在实施例所描述的具体形式中, 依据本发明内容主旨进行的其他 修改和变型也受本专利保护。 本发明内容的主旨是由权利要求书所界定, 而非由实施例的 具体描述所界定。 说明书 10/10 页 13 CN 110347839 A 13 图1 说明书附图 1/2 页 14 CN 110347839 A 14 图2 说明书附图 2/2 页 15 CN 110347839 A 15 。

展开阅读全文
内容关键字: 基于 生成 任务 学习 模型 文本 分类 方法
关于本文
本文标题:基于生成式多任务学习模型的文本分类方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/11167932.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1