基于词缀感知的社交媒体命名实体识别方法.pdf
《基于词缀感知的社交媒体命名实体识别方法.pdf》由会员分享,可在线阅读,更多相关《基于词缀感知的社交媒体命名实体识别方法.pdf(9页完成版)》请在专利查询网上搜索。
1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201911289215.9 (22)申请日 2019.12.13 (71)申请人 华南理工大学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 蔡毅吴志威 (74)专利代理机构 广州市华学知识产权代理有 限公司 44245 代理人 裴磊磊 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 16/31(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.0。
2、1) (54)发明名称 一种基于词缀感知的社交媒体命名实体识 别方法 (57)摘要 本发明公开了一种基于词缀感知的社交媒 体命名实体识别方法, 包括步骤: 采集已标注出 命名实体的社交媒体数据集; 捕捉词的嵌入表 示、 字符级别表示和词缀特征表示, 并将词嵌入 表示、 字符级别表示和词缀特征表示进行融合, 作为词的最终表示; 将得到的词的最终表示输入 到双向卷积神经网络以及条件随机场中, 预测标 签序列并计算损失值; 根据得到的损失值, 采用 随机梯度下降算法对模型进行训练; 将文本输入 训练好的模型中, 识别出文本中的命名实体。 本 发明丰富了词的语义表示、 缓解了社交媒体数据 中未登录词的。
3、问题, 提高了命名实体识别的效 果。 权利要求书2页 说明书4页 附图2页 CN 111160031 A 2020.05.15 CN 111160031 A 1.一种基于词缀感知的社交媒体命名实体识别方法, 其特征在于, 包括步骤: 采集已标注出命名实体的社交媒体数据集, 每条数据均包含有原始的文本并已标注命 名实体; 对数据集中的文本进行预处理, 构建文本在词级别的索引向量表示和文本在字符级别 的索引向量表示; 采用循环神经网络以及词嵌入技术捕捉词的嵌入表示、 字符级别表示和词缀特征表 示, 并将词嵌入表示、 字符级别表示和词缀特征表示进行融合, 作为词的最终表示; 将得到的词的最终表示输入。
4、到双向卷积神经网络以及条件随机场中, 预测标签序列并 计算损失值; 根据得到的损失值, 采用随机梯度下降算法对模型进行训练; 将文本输入训练好的模型中, 识别出文本中的命名实体。 2.根据权利要求1所述的方法, 其特征在于, 所述预处理包括: 将文本中的小写字母全部替换为相应的大写字母; 将文本中的数字全部替换为0; 遍历社交媒体数据集的所有文本, 构建单词词典以及字符词典; 利用得到的单词词典和字符词典, 将文本在词级别和字符级别进行序列化。 3.根据权利要求1所述的方法, 其特征在于, 所述构建文本在词级别的索引向量表示和 文本在字符级别的索引向量表示的步骤中, 包括: 遍历社交媒体数据集。
5、的所有文本, 构建单词词典以及字符词典; 利用得到的单词词典和字符词典, 将文本在词级别和字符级别进行序列化。 4.根据权利要求3所述的方法, 其特征在于, 单词词典的构建方法为: 遍历数据集中每个文本的每个词, 遇到不同的词则将其添加到词表中, 并按照添加的 顺序为每个词赋予一个索引, 索引值为0, 1, 2以此类推, 遍历完成后得到的词表即为单词词 典; 字符词典构建的方法与单词词典构建方法相同, 不同的是遍历的是每个文本的每个词 的每个字符; 序列化方法为: 文本在词级别和字符级别进行序列化, 即对每个句子中的每个词进行独热编码, 并分 别按词级别和字符级别组成相应的向量。 5.根据权利。
6、要求1所述的方法, 其特征在于, 所述捕捉词的嵌入表示、 字符级别表示和 词缀特征表示, 并将词嵌入表示、 字符级别表示和词缀特征表示进行融合, 作为词的最终表 示的步骤中, 包括: 将文本在词级别的序列化表示输入到词嵌入层中得到相应的词嵌入表示; 采用双向循环神经网络提取词的字符级别表示: 首先将词的每个字符输入到字符嵌入 层中得到相应的字符嵌入; 然后将该字符嵌入输入到双向循环神经网络中, 分别得到每个 字符的前向隐含状态向量和反向隐含状态向量, 最后再将将前向循环神经网络的最后一个 隐含状态向量和反向循环神经网络的最后一个隐含状态向量拼接起来表示词的字符级别 表示; 采用双向循环神经网络。
7、提取词的字符级别表示: 首先将词的每个字符输入到字符嵌入 权利要求书 1/2 页 2 CN 111160031 A 2 层中得到对应的字符嵌入, 然后将该字符嵌入输入到双向循环神经网络中, 分别得到每个 字符的前向隐含状态向量和反向隐含状态向量, 最后将前t个字符的隐含状态向量拼接起 来得到一个矩阵; 对该词的后t个字符对应的隐含状态向量进行同样的操作, 得到该词的后 缀特征表示; 将得到的词的词嵌入表示、 字符级别表示、 前缀特征表示以及后缀特征表示拼接起来, 得到词的最终表示。 6.根据权利要求5所述的方法, 其特征在于, 在提取词的字符级别表示中, 如果词的长 度小于t, 则将所有时间步。
8、的隐含状态向量拼接在一起; 为了保证所有词的前缀特征的维度 一致, 在这些隐含状态矩阵上执行了取均值的操作, 即在矩阵的第二个维度上取均值, 最后 得到前缀特征表示。 7.根据权利要求1所述的方法, 其特征在于, 所述将得到的词的最终表示输入到双向卷 积神经网络以及条件随机场中, 预测标签序列并计算损失值的步骤中, 包括: 将得到的词的最终表示输入到双向循环神经网络中, 并将得到的前向隐含状态和反向 隐含状态拼接起来, 得到词序列表示; 将词序列表示输入到全连接层中, 计算每个词在所有标签上的得分; 将得到的词序列表示输入到条件随机场中, 计算每个可能序列的得分; 取得分最高的标签序列作为最终。
9、的预测结果, 并计算其损失值。 8.根据权利要求7所述的方法, 其特征在于, 每个词在所有标签上的得分的计算公式 为: PiWhi+b 其中, W和b是可训练的参数。 9.根据权利要求7所述的方法, 其特征在于, 每个可能序列的得分的计算公式为: 其中, A表示状态转移得分矩阵, A的大小是kk, Ai, j表示从标签i转移到标签j的得 分; ,表示预测序列中标签yi后接标签yi+1的得分, yi表示预测标签序列y中的第i个 标签,表示输入文本s的第i个词的标签为yi的得分; 得分最高的标签序列作为最终的预测结果表示为: 10.根据权利要求9所述的方法, 其特征在于, 损失值计算公式为: 权利。
10、要求书 2/2 页 3 CN 111160031 A 3 一种基于词缀感知的社交媒体命名实体识别方法 技术领域 0001 本发明涉及自然语言处理技术领域, 尤其涉及一种基于词缀感知的社交媒体命名 实体识别方法。 背景技术 0002 当今世界, 随着移动互联网的蓬勃发展, 人们无时无刻不在社交媒体上发布信息, 这些信息构成了巨量的社交媒体数据。 相比于传统的新闻专线文稿数据, 社交媒体上的数 据更具时效性, 这些数据蕴含着丰富的信息, 逐渐成为众多应用潜在的信息来源, 比如新闻 热点跟踪、 用户舆情分析、 潜在暴力事件的预警等。 因此, 如何从社交媒体数据中挖掘潜在 的信息成为一项重要的任务。 。
11、实体抽取是信息抽取的一项基本任务, 为这些应用构建一个 强大的实体抽取系统是必不可少的, 同时也具有极高的社会经济价值。 0003 近年来, 随着深度神经网络模型的兴起, 基于神经网络的端到端模型已经成为了 命名实体识别的主流方法。 这些方法大致可以分为以下几类: 基于词表示、 基于字符表示、 基于词组表示或者以上几类的任意组合。 虽然这些方法在新闻文本上已经取得了很好的性 能表现, 但是在面对社交媒体数据时, 由于社交媒体固有的特点, 如非正式的表述、 不规范 的名词缩写、 不符合语法的表达、 具有更多的未登录词等, 此类方法的性能会急剧下降。 0004 申请人发现, 词缀作为具有一定语义的。
12、词素, 能够在一定程度上辅助识别一个词 是否是实体的一部分。 为了简化起见只考虑了词缀中最常见的前缀和后缀。 通过引入词缀 特征表示能够带来两个好处, 一是具有相同词缀的词往往具有相似的含义, 引入词缀表示 能够丰富词的语义表示, 例如,“autopen” 、“automat” 等具有相同前缀 “auto-” 的词都具有 “自动的” 含义; 二是某些词缀本身具有命名实体的语义, 例如, 后缀 “-ie” 来源于古英语, 常 见于有关称呼、 人名、 小孩话或俗语里, 因此 “-ie” 为结尾的词很有可能是人名。 发明内容 0005 本发明的目的在于克服现有技术的不足, 提供一种基于词缀感知的社交。
13、媒体命名 实体识别方法。 本发明能够同时结合词嵌入、 词的字符级别表示、 词的前缀特征表示和词的 后缀特征表示, 并利用双向循环神经网络捕捉词的词缀特征表示, 通过引入词缀特征表示, 很好地丰富了词的语义表示, 缓解了社交媒体数据中未登录词的问题, 提高了命名实体识 别的效果。 本发明具有一定的泛化性, 同样适用于新闻等领域中的命名实体识别。 0006 本发明的目的能够通过以下技术方案实现: 0007 一种基于词缀感知的社交媒体命名实体识别方法, 包括步骤: 0008 采集已标注出命名实体的社交媒体数据集, 每条数据均包含有原始的文本并已标 注命名实体; 0009 对数据集中的文本进行预处理,。
14、 构建文本在词级别的索引向量表示和文本在字符 级别的索引向量表示; 0010 采用循环神经网络以及词嵌入技术捕捉词的嵌入表示、 字符级别表示和词缀特征 说明书 1/4 页 4 CN 111160031 A 4 表示, 并将词嵌入表示、 字符级别表示和词缀特征表示进行融合, 作为词的最终表示; 0011 将得到的词的最终表示输入到双向卷积神经网络以及条件随机场中, 预测标签序 列并计算损失值; 0012 根据得到的损失值, 采用随机梯度下降算法对模型进行训练; 0013 将文本输入训练好的模型中, 识别出文本中的命名实体。 0014 本发明相较于现有技术, 具有以下的有益效果: 0015 本发明。
15、的基于词缀感知的社交媒体命名实体识别的方法在词嵌入、 词的字符级别 表示的基础上引入了词的词缀特征表示, 丰富了词的语义表示、 缓解了社交媒体数据中未 登录词的问题, 提高了命名实体识别的效果, 同时具有一定的泛化性, 也适用于新闻等领域 上的命名实体识别。 附图说明 0016 图1为本发明中一种基于词缀感知的社交媒体命名实体识别方法的流程图。 0017 图2为本实施例中提取词缀特征表示所采用的模型的示意图。 具体实施方式 0018 下面结合实施例及附图对本发明作进一步详细的描述, 但本发明的实施方式不限 于此。 0019 实施例 0020 本实施例提供了一种基于词缀感知的社交媒体命名实体识别。
16、的方法, 所述方法的 流程图如图1所示, 包括以下步骤: 0021 (1)采集已标注出命名实体的社交媒体数据集, 每条数据均包含有原始的文本并 已标注命名实体。 0022 所述采集的社交媒体数据集用于作为训练集。 0023 (2)对数据集中的文本进行预处理, 构建文本在词级别的索引向量表示和文本在 字符级别的索引向量表示。 0024 具体地, 所述预处理包括: 0025 将文本中的小写字母全部替换为相应的大写字母; 0026 将文本中的数字全部替换为0。 0027 具体地, 所述构造文本在词级别和字符级别的索引表示, 包括: 0028 (2-1)遍历社交媒体数据集的所有文本, 构建单词词典以及。
17、字符词典; 0029 具体地, 单词词典的构建方法是, 遍历数据集中每个文本的每个词, 遇到不同的词 则将其添加到词表中, 并按照添加的顺序为每个词赋予一个索引, 索引值为0, 1, 2以此类 推。 遍历完成后得到的词表即为单词词典。 0030 字符词典构建的方法如上, 不同的是遍历的是每个文本的每个词的每个字符。 0031 (2-2)利用步骤(2-1)中得到的单词词典和字符词典, 将文本在词级别和字符级别 进行序列化。 0032 所述文本在词级别和字符级别进行序列化, 即对每个句子中的每个词进行独热编 码, 并分别按词级别和字符级别组成相应的向量。 说明书 2/4 页 5 CN 111160。
18、031 A 5 0033 (3)采用循环神经网络以及词嵌入技术捕捉词的嵌入表示、 字符级别表示和词缀 特征表示, 并将词嵌入表示、 字符级别表示和词缀特征表示进行融合, 作为词的最终表示, 包括: 0034 (3-1)设文本在词级别的序列化表示为sw1,w2,wn, 其中n表示文本中单词 数量,表示句子的第i个词的独热编码, v为单词词典中单词的数量。 将s输入到词 嵌入层中得到相应的词嵌入表示:其中,表示词嵌入层的可训 练参数, d表示词嵌入向量的维度。 0035 (3-2)设文本中的第i个词的字符序列化表示为列wici,1,ci,2,ci,m, 其中m 表示第i个词中包含的字符数量,表示句。
19、子中第i个词的第j个字符的独热编码, vc为字符词典中字符的数量。 采用双向循环神经网络提取词的字符级别表示, 首先将词的 每个字符输入到字符嵌入层中得到相应的字符嵌入其中, Wc表示字符嵌入 层的参数矩阵, 大小为dcvc。 然后将该字符嵌入输入到双向循环神经网络中, 分别得到每 个字符的前向隐含状态向量和反向隐含状态向量最后再将将前向循环神经网络的 最后一个隐含状态向量和反向循环神经网络的最后一个隐含状态向量拼接起来表示词的 字符级别表示 0036 (3-3)为了简化起见, 将每个词的前t个字符看成是该词的前缀, 同样的, 将每个词 的后t个词看成是该词的后缀, t是超参数。 设文本中的第。
20、i个词的字符序列化表示为列wi ci,1,ci,2,ci,m, 其中表示句子中第i个词的第j个字符的独热编码, vc为字符 词典大小。 采用双向循环神经网络提取词的字符级别表示, 首先将词的每个字符输入到字 符嵌入层中得到对应的字符嵌入其中, Wc表示字符嵌入层的参数矩阵, 大小 为dcvc。 然后将该字符嵌入输入到双向循环神经网络中, 分别得到每个字符的前向隐含状 态向量和反向隐含状态向量最后将前k个字符的隐含状态向量拼接起来得到一个 矩阵, 该矩阵的维度为dvt, 这个矩阵包含了前缀信息。 特殊的, 如果词的长度小于t, 则将 所有时间步的隐含状态向量拼接在一起, 此时得到的矩阵的维度为d。
21、vm。 为了保证所有词 的前缀特征的维度一致, 在这些隐含状态矩阵上执行了取均值的操作, 即在矩阵的第二个 维度上取均值, 最后得到前缀特征表示同样的, 对该词的后t个字符对应的 隐含状态向量进行同样的操作, 得到该词的后缀特征表示 0037 (3-4)将步骤(3-1)-(3-3)得到的词的词嵌入表示、 字符级别表示、 前缀特征表示 以及后缀特征表示拼接起来, 得到词的最终表示 0038 (4)将得到的词的最终表示输入到双向卷积神经网络以及条件随机场中, 预测标 签序列并计算损失值, 包括: 0039 (4-1)将步骤(3)得到的词的最终表示输入到双向循环神经网络中, 并将得到的前 说明书 3。
22、/4 页 6 CN 111160031 A 6 向隐含状态和反向隐含状态拼接起来, 得到词序列表示 0040 (4-2)将步骤(4-1)中得到的词序列表示输入到全连接层中, 得到每个词在所有标 签上的得分: PiWhi+b, 这里W和b是可训练的参数; 0041 (4-3)设yy1,y2,yn表示输入文本s对应的预测标签序列, Y(s)表示对于输 入句子s的所有可能标签序列的集合。 将步骤(4-2)得到的Pi输入到条件随机场中, 按如下 公式计算每个可能序列的得分: 0042 0043 其中, A表示状态转移得分矩阵, A的大小是kk, Ai,j表示从标签i转移到标签j的 得分,表示预测序列中。
23、标签yi后接标签yi+1的得分(可能性), yi表示预测标签序列y 中的第i个标签。表示输入文本s的第i个词的标签为yi的得分(可能性)。 表示预测的 标签序列, 得分最高的标签序列作为最终的预测结果: 0044 0045 最后, 按如下公式计算损失值: 0046 0047 0048 (5)根据步骤(4)中得到的损失值, 采用随机梯度下降算法对模型进行训练得到训 练好的模型; 0049 当模型的损失值不再减小时, 完成训练。 0050 (6)将文本输入到步骤(5)中得到的训练好的模型中, 识别出文本中的命名实体。 0051 如图2所示为提取词缀特征表示所采用的模型示意图。 0052 上述实施例为本发明较佳的实施方式, 但本发明的实施方式并不受上述实施例的 限制, 其他的任何未背离本发明的精神实质与原理下所作的改变、 修饰、 替代、 组合、 简化, 均应为等效的置换方式, 都包含在本发明的保护范围之内。 说明书 4/4 页 7 CN 111160031 A 7 图1 说明书附图 1/2 页 8 CN 111160031 A 8 图2 说明书附图 2/2 页 9 CN 111160031 A 9 。
- 内容关键字: 基于 词缀 感知 社交 媒体 命名 实体 识别 方法
农机动力飞轮喷涂用漆雾废气处理装置.pdf
旁路引流线绝缘防护夹持支架结构.pdf
建筑施工围挡.pdf
推进剂气体浓度监测传感器.pdf
防刺伤采血针.pdf
铸造件快速冷却装置.pdf
工业硅粉制备用研磨装置.pdf
电池盖帽包边用防偏移模具.pdf
拉杆式储能电源箱.pdf
多穴五轴自动光学检测装置.pdf
活塞钻铣床.pdf
混凝土结构表面裂缝检测装置.pdf
羊粪粉碎机的清扫装置.pdf
铁碳微电解填料球.pdf
电感电流过零检测方法及电路.pdf
陶瓷加工的练泥机.pdf
建筑工程用支护装置.pdf
压滤机拉板装置及压滤机.pdf
含油污泥处理水洗装置.pdf
半导体结构及其制备方法.pdf
双环高密度标测消融导管.pdf
洁净手术室用的排风系统.pdf
用于预测转动设备的故障概率的方法、设备和存储介质.pdf
视觉辅助的三极管封装质量检测方法.pdf
可调式肢体活动康复训练装置.pdf
基于分布式光纤声波传感的异常事件识别方法及相关装置.pdf
服装布料用卷绕装置.pdf
鸽子脂肪前体细胞的分离并体外培养方法及培养物和应用.pdf
配置肘式黏滞阻尼器的自复位摇摆结构.pdf
采硐充填方法.pdf
积分球数字仿体系统及成像测评方法.pdf
氯代碳酸乙烯酯的制备方法.pdf
CCD智能检测系统.pdf
双视频互动教学展示仪及其展示方法.pdf
对湿气不敏感的双组分聚氨酯结构胶及其制备方法.pdf
铜镍铁管附件加工方法.pdf
对组贴合参数的调整方法、装置、对组贴合系统及介质.pdf
用于可重构天线阵列波束形成的矢量调制移相器.pdf
适用性高的雨刮器安装机构.pdf
预防和治疗新冠肺炎的外用中药及其制备方法.pdf
基于数据驱动的综合能源系统能效评价与提升方法.pdf
治疗儿童尿布疹的纯中药制剂及其配制方法.pdf
高流动本体阻燃长碳链尼龙及其制备方法.pdf
指纹识别电路、装置、控制方法和显示装置.pdf
高盐废水末端固化工艺.pdf
人参饼干及其制作方法.pdf
银行网点工作量预测方法和装置、电子设备及存储介质.pdf
空中微基站无线回传方法及无线通信系统.pdf
一株降解聚乙烯地膜的申氏不动杆菌及其应用.pdf
申威防火墙快速移植高版本linux内核的方法.pdf
面向区块链的物联网芯片轻量级数据加密方法.pdf