敏感词的检测方法.pdf

上传人:1520****312 文档编号:10950383 上传时间:2021-08-28 格式:PDF 页数:11 大小:441.41KB
收藏 版权申诉 举报 下载
敏感词的检测方法.pdf_第1页
第1页 / 共11页
敏感词的检测方法.pdf_第2页
第2页 / 共11页
敏感词的检测方法.pdf_第3页
第3页 / 共11页
文档描述:

《敏感词的检测方法.pdf》由会员分享,可在线阅读,更多相关《敏感词的检测方法.pdf(11页完成版)》请在专利查询网上搜索。

1、(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910991407.8 (22)申请日 2019.10.18 (71)申请人 上海斗象信息科技有限公司 地址 201203 上海市浦东新区碧波路690号 7号楼7层 (2号线张江高科地铁站5号 口出) (72)发明人 徐钟豪孟雷谢忱 (74)专利代理机构 上海翰信知识产权代理事务 所(普通合伙) 31270 代理人 张维东 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/9535(2019.01) G0。

2、6F 40/30(2020.01) G06K 9/62(2006.01) (54)发明名称 敏感词的检测方法 (57)摘要 本发明涉及一种敏感词的检测方法, 包括以 下步骤: 建立敏感词数据库, 分为强敏感词数据 库和弱敏感词数据库; 建立训练模型, 训练模型 包括预判模型和弱敏感词的检测模型; 进行检 测, 载入训练模型的系统定时爬取待检测网页内 容, 预判模型判断待检测文本中的词语是否属于 敏感词数据库中, 并判断其敏感类型; 若待检测 文本中的词语为强敏感词数据库中的强敏感词, 则直接反馈待检测文本所属的强敏感词数据库 的类型; 若待检测文本中的词语为弱敏感词数据 库中的弱敏感词, 则将。

3、待检测文本输入弱敏感词 的检测模型进行检测, 由弱敏感词的检测模型判 断其敏感可疑度分值并反馈。 本发明通过设置预 判和检测模型进行判断和检测, 提高了敏感词检 测的准确性和灵活性。 权利要求书2页 说明书6页 附图2页 CN 110727766 A 2020.01.24 CN 110727766 A 1.一种敏感词的检测方法, 其特征在于, 包括以下步骤: 建立敏感词数据库, 所述敏感词数据库根据敏感类型分为强敏感词数据库和弱敏感词 数据库; 建立训练模型, 所述训练模型包括预判模型和弱敏感词的检测模型, 其中, 所述预判模 型用于判断待检测文本的敏感类型; 设立所述弱敏感词的检测模型包括:。

4、 根据所述弱敏感 词数据库中的弱敏感词进行检索得到敏感词网页, 获取敏感词网页中包含有弱敏感词的文 本信息; 对所述文本信息进行打标, 采用打标后的文本信息建立弱敏感词的检测模型; 进行检测, 载入所述训练模型的系统定时爬取待检测的网页内容, 所述预判模型判断 待检测网页内待检测文本中的词语是否属于敏感词数据库中, 并判断其敏感类型; 若待检 测文本中的词语为强敏感词数据库中的强敏感词, 则直接反馈待检测文本所属的强敏感词 数据库的类型; 若待检测文本中的词语为弱敏感词数据库中的弱敏感词, 则将待检测文本 输入弱敏感词的检测模型进行检测, 由弱敏感词的检测模型判断其敏感可疑度分值并反 馈。 2。

5、.如权利要求1所述的敏感词的检测方法, 其特征在于, 所述强敏感词数据库中的强敏 感词为在任何前后文语义下都敏感的词语, 所述强敏感词数据库中的种类包括淫秽强敏感 词库、 博彩强敏感词库以及商广强敏感词库; 所述弱敏感词数据库中的弱敏感词为在不同语义下具有不同解释, 且具有至少一种解 释导致敏感, 也具有至少一种解释导致不敏感的词语, 所述弱敏感词数据库中的种类包括 淫秽弱敏感词库、 博彩弱敏感词库以及商广弱敏感词库。 3.如权利要求1所述的敏感词的检测方法, 其特征在于, 获取包含有弱敏感词的文本信 息包括以下步骤: 以弱敏感词为中心词做前后文本均匀扩展, 以标点符号为停止扩展信号。 4.如。

6、权利要求1所述的敏感词的检测方法, 其特征在于, 打标包括以下步骤: 判断所述文本信息是否敏感, 将敏感和不敏感的文本信息分别标记。 5.如权利要求2所述的敏感词的检测方法, 其特征在于, 打标之后, 建立弱敏感词的检 测模型之前, 还包括以下步骤: 将打标后的文本信息进行拆分和过滤, 以得到每条文本信息中具有语义的所有词语。 6.如权利要求5所述的敏感词的检测方法, 其特征在于, 建立弱敏感词的检测模型包括 以下步骤: 将各条文本信息中具有语义的所有词语归属于各自的训练文本单元中, 根据弱敏感词 数据库的种类对每条训练文本单元进行分类; 分别将属于各个种类的弱敏感词库的训练文本单元进行向量化。

7、; 采用LSTM网络根据向量化后的训练文本单元建立弱敏感词的检测模型。 7.如权利要求2所述的敏感词的检测方法, 其特征在于, 建立所述预判模型包括建立多 模式匹配算法, 建立多模式匹配算法包括以下步骤: 预设数组长度: 取所述每个种类强敏感词库中存储数据的最大容量值, 设为第一预设 值a, 取所述强敏感词库的种类数量的最大值, 设为第二预设值x, 取所述每个种类弱敏感词 库中存储数据的最大容量值, 设为第三预设值b, 取所述弱敏感词库的种类数量的最大值, 设为第四预设值y, 数组长度Lmax(a,b)*(x+y); 权利要求书 1/2 页 2 CN 110727766 A 2 建立数组: 将。

8、所有种类的强敏感词库中的数据以及所有种类的弱敏感词库中的数据依 次导入数组中, 并将依次导入的数据按照种类分段, 并将每段的名称确定为其对应的种类 名称。 8.如权利要求7所述的敏感词的检测方法, 其特征在于, 进行检测过程中, 所述预判模 型判断待检测网页内待检测文本中的词语的敏感类型包括以下步骤: 输入待检测网页内的待检测文本, 根据多模式匹配算法中数组检索得到索引下标z; 计算得到索引下标z的所属段的方式为: 计算z/max(a,b), 对计算结果向上取整; 根据计算得到的所属段匹配对应的敏感词库的种类名称, 即判断出待检测文本中的词 语的敏感类型。 9.如权利要求2所述的敏感词的检测方。

9、法, 其特征在于, 进行检测过程中, 将待检测文 本输入弱敏感词的检测模型进行检测包括以下步骤: 将待检测文本进行拆分和过滤, 得到待检测文本单元; 将待检测文本单元进行向量化; 将向量化后的待检测文本单元输入弱敏感词的检测模型, 由所述弱敏感词的检测模型 输出敏感可疑度分值; 若敏感可疑度分值大于预设阈值, 则反馈待检测文本所属的弱敏感词数据库的类型和 敏感可疑度分值, 若敏感可疑度分值小于预设阈值, 则反馈待检测文本不包含敏感词。 10.如权利要求1所述的敏感词的检测方法, 其特征在于, 所述敏感词的检测方法还包 括误报处理, 所述误报处理包括以下步骤: 用户反馈出现误报; 复核误报是否真。

10、实, 若误报真实, 则将误报词语采用建立训练模型的步骤进行二次训 练; 若误报不真实, 则不再进行训练, 结束误报处理。 权利要求书 2/2 页 3 CN 110727766 A 3 敏感词的检测方法 技术领域 0001 本发明涉及网络安全技术领域, 特别涉及一种敏感词的检测方法。 背景技术 0002 为了维护网络的健康环境, 凡是涉及到网站的内容发布、 评论发布等都需 要先进 行敏感词检测, 防止有不合适的词语出现, 这些词语可能包括淫秽类、 博彩类以及反动类 等。 除了传统的网站更新和评论更新外, 网站也可能被恶意 攻击者入侵, 在网页上植入一 些非法的暗链、 广告以及标语等。 往往这些恶。

11、意 植入都会包含大量敏感信息内容, 对于网 站管理者通常会选用的检测手段就是 敏感词检测。 0003 传统敏感词检测方式多是基于名单机制的正则匹配, 而对于具有多种语义 级别 的敏感词则无法准确检出, 此种方法仅针对单个敏感词做检测, 会造成误 判。 例如 “黄色” 在色情网站中属于淫秽词语, 但在正常网站也会经常出现, 比如 “黄色的花朵” ; 例如 “小 姐” 在一些色情广告中属于敏感词语, 但在一 些正常文章中也会出现, 比如 “小姐姐” ; 再例 如本身就属于敏感词语的, 但 若是前面跟着否定类词语, 在语境上就不应识别为敏感词。 此外目前仅有少部 分现有技术中提到使用语义识别概念, 。

12、但使用的是传统机器学算法对 全部敏感 词做模型训练, 此种方式没有区分敏感词的类型, 所有的敏感词检测都采用同 一种方式, 不能针对不同的敏感词采用不同的检测方式, 增大了检测开销, 且 检测准确度 较低。 0004 因此, 有必要提供一种新的敏感词的检测方法, 提供训练模型以提高敏感 词检测 的准确性和灵活性。 发明内容 0005 本发明的目的在于提供一种新的敏感词的检测方法, 提供训练模型以提高 敏感 词检测的准确性和灵活性 0006 为了解决现有技术中存在的问题, 本发明提供了一种敏感词的检测方法, 包括以 下步骤: 0007 建立敏感词数据库, 所述敏感词数据库根据敏感类型分为强敏感词。

13、数据库 和弱 敏感词数据库; 0008 建立训练模型, 所述训练模型包括预判模型和弱敏感词的检测模型, 其中, 所述 预判模型用于判断待检测文本的敏感类型; 设立所述弱敏感词的检测模型 包括: 根据所述 弱敏感词数据库中的弱敏感词进行检索得到敏感词网页, 获取 敏感词网页中包含有弱敏 感词的文本信息; 对所述文本信息进行打标, 采用打 标后的文本信息建立弱敏感词的检测 模型; 0009 进行检测, 载入所述训练模型的系统定时爬取待检测的网页内容, 所述预 判模型 判断待检测网页内待检测文本中的词语是否属于敏感词数据库中, 并判 断其敏感类型; 若 待检测文本中的词语为强敏感词数据库中的强敏感词。

14、, 则直 接反馈待检测文本所属的强 说明书 1/6 页 4 CN 110727766 A 4 敏感词数据库的类型; 若待检测文本中的词语为弱 敏感词数据库中的弱敏感词, 则将待检 测文本输入弱敏感词的检测模型进行检 测, 由弱敏感词的检测模型判断其敏感可疑度分 值并反馈。 0010 可选的, 在所述敏感词的检测方法中, 所述强敏感词数据库中的强敏感词 为在任 何前后文语义下都敏感的词语, 所述强敏感词数据库中的种类包括淫秽 强敏感词库、 博彩 强敏感词库以及商广强敏感词库; 0011 所述弱敏感词数据库中的弱敏感词为在不同语义下具有不同解释, 且具有 至少 一种解释导致敏感, 也具有至少一种解。

15、释导致不敏感的词语, 所述弱敏感 词数据库中的种 类包括淫秽弱敏感词库、 博彩弱敏感词库以及商广弱敏感词库。 0012 可选的, 在所述敏感词的检测方法中, 获取包含有弱敏感词的文本信息包 括以下 步骤: 0013 以弱敏感词为中心词做前后文本均匀扩展, 以标点符号为停止扩展信号。 0014 可选的, 在所述敏感词的检测方法中, 打标包括以下步骤: 0015 判断所述文本信息是否敏感, 将敏感和不敏感的文本信息分别标记。 0016 可选的, 在所述敏感词的检测方法中, 建立弱敏感词的检测模型之前, 还 包括以 下步骤: 0017 将打标后的文本信息进行拆分和过滤, 以得到每条文本信息中具有语义。

16、的 所有 词语。 0018 可选的, 在所述敏感词的检测方法中, 建立弱敏感词的检测模型包括以下 步骤: 0019 将各条文本信息中具有语义的所有词语归属于各自的训练文本单元中, 根 据弱 敏感词数据库的种类对每条训练文本单元进行分类; 0020 分别将属于各个种类的弱敏感词库的训练文本单元进行向量化; 0021 采用LSTM网络根据向量化后的训练文本单元建立弱敏感词的检测模型。 0022 可选的, 在所述敏感词的检测方法中, 建立所述预判模型包括建立多模式 匹配算 法, 建立多模式匹配算法包括以下步骤: 0023 预设数组长度: 取所述每个种类强敏感词库中存储数据的最大容量值, 设 为第一 。

17、预设值a, 取所述强敏感词库的种类数量的最大值, 设为第二预设值x, 取所述每个种类弱 敏感词库中存储数据的最大容量值, 设为第三预设值b, 取所 述弱敏感词库的种类数量的 最大值, 设为第四预设值y, 数组长度 Lmax(a,b)*(x+y); 0024 建立数组: 将所有种类的强敏感词库中的数据以及所有种类的弱敏感词库 中的 数据依次导入数组中, 并将依次导入的数据按照种类分段, 并将每段的名 称确定为其对应 的种类名称。 0025 可选的, 在所述敏感词的检测方法中, 进行检测过程中, 所述预判模型判 断待检 测网页内待检测文本中的词语的敏感类型包括以下步骤: 0026 输入待检测网页内。

18、的待检测文本, 根据多模式匹配算法中数组检索得到索 引下 标z; 0027 计算得到索引下标z的所属段的方式为: 计算z/max(a,b), 对计算结果向上 取整; 0028 根据计算得到的所属段匹配对应的敏感词库的种类名称, 即判断出待检测 文本 中的词语的敏感类型。 说明书 2/6 页 5 CN 110727766 A 5 0029 可选的, 在所述敏感词的检测方法中, 进行检测过程中, 将待检测文本输 入弱敏 感词的检测模型进行检测包括以下步骤: 0030 将待检测文本进行拆分和过滤, 得到待检测文本单元; 0031 将待检测文本单元进行向量化; 0032 将向量化后的待检测文本单元输入。

19、弱敏感词的检测模型, 由所述弱敏感词 的检 测模型输出敏感可疑度分值; 0033 若敏感可疑度分值大于预设阈值, 则反馈待检测文本所属的弱敏感词数据 库的 类型和敏感可疑度分值, 若敏感可疑度分值小于预设阈值, 则反馈待检测 文本不包含敏感 词。 0034 可选的, 在所述敏感词的检测方法中, 所述敏感词的检测方法还包括误报 处理, 所述误报处理包括以下步骤: 0035 用户反馈出现误报; 0036 复核误报是否真实, 若误报真实, 则将误报词语采用建立训练模型的步骤 进行二 次训练; 若误报不真实, 则不再进行训练, 结束误报处理。 0037 在本发明所提供的敏感词的检测方法中, 通过建立训。

20、练模型中的预判模型, 对待 检测文本实现最初步的判断, 判断待检测文本所包含的词语是否属于敏感 词数据库, 判断 其属于强敏感词数据库还是弱敏感词数据库, 并且还能判断其 属于强敏感词数据库或弱 敏感词数据库中的哪一种类; 进一步通过建立弱敏感 词的检测模型, 将预判为包含弱敏感 词的待检测文本进行进一步的检测和辨别, 从词语或语句的语义上进行检测判断, 从而实 现了在不同语义下具有不同解释 的词语的检测, 增加了检测的准确性和灵活性, 降低了误 判。 附图说明 0038 图1为本发明实施例提供的建立弱敏感词的检测模型的流程图。 0039 图2为本发明实施例提供的检测流程图。 具体实施方式 0。

21、040 下面将结合示意图对本发明的具体实施方式进行更详细的描述。 根据下列 描述, 本发明的优点和特征将更清楚。 需说明的是, 附图均采用非常简化的形 式且均使用非精准 的比例, 仅用以方便、 明晰地辅助说明本发明实施例的目的。 0041 在下文中, 如果本文所述的方法包括一系列步骤, 本文所呈现的这些步骤 的顺序 并非必须是可执行这些步骤的唯一顺序, 且一些所述的步骤可被省略和/ 或一些本文未描 述的其他步骤可被添加到该方法。 0042 传统敏感词检测方式多是基于名单机制的正则匹配, 而对于具有多种语义 级别 的敏感词则无法准确检出, 此种方法仅针对单个敏感词做检测, 会造成误 判。 此外目。

22、前仅 有少部分现有技术中提到使用语义识别概念, 但使用的是传统 机器学算法对全部敏感词 做模型训练, 此种方式没有区分敏感词的类型, 所有 的敏感词检测都采用同一种方式, 不 能针对不同的敏感词采用不同的检测方式, 增大了检测开销, 且检测准确度较低。 0043 因此有必要提供一种敏感词的检测方法, 包括以下步骤: 说明书 3/6 页 6 CN 110727766 A 6 0044 建立敏感词数据库, 所述敏感词数据库根据敏感类型分为强敏感词数据库 和弱 敏感词数据库; 0045 建立训练模型, 所述训练模型包括预判模型和弱敏感词的检测模型, 其中, 所述 预判模型用于判断待检测文本的敏感类型。

23、; 设立所述弱敏感词的检测模型 包括: 根据所述 弱敏感词数据库中的弱敏感词进行检索得到敏感词网页, 获取 敏感词网页中包含有弱敏 感词的文本信息; 对所述文本信息进行打标, 采用打 标后的文本信息建立弱敏感词的检测 模型; 0046 进行检测, 载入所述训练模型的系统定时爬取待检测的网页内容, 所述预 判模型 判断待检测网页内待检测文本中的词语是否属于敏感词数据库中, 并判 断其敏感类型; 若 待检测文本中的词语为强敏感词数据库中的强敏感词, 则直 接反馈待检测文本所属的强 敏感词数据库的类型; 若待检测文本中的词语为弱 敏感词数据库中的弱敏感词, 则将待检 测文本输入弱敏感词的检测模型进行。

24、检 测, 由弱敏感词的检测模型判断其敏感可疑度分 值并反馈。 0047 本发明通过建立训练模型中的预判模型, 对待检测文本实现最初步的判断, 判断 待检测文本所包含的词语是否属于敏感词数据库, 判断其属于强敏感词数 据库还是弱敏 感词数据库, 并且还能判断其属于强敏感词数据库或弱敏感词数 据库中的哪一种类; 进一 步通过建立弱敏感词的检测模型, 将预判为包含弱敏 感词的待检测文本进行进一步的检 测和辨别, 从词语或语句的语义上进行检测 判断, 从而实现了在不同语义下具有不同解释 的词语的检测, 增加了检测的准 确性和灵活性, 降低了误判。 0048 具体的, 所述强敏感词数据库中的强敏感词为在。

25、任何前后文语义下都敏感 的词 语, 例如, 可以将长度大于4个字符的词语定义为强敏感词, 也可以将词 语导入搜索引擎进 行查询(如百度搜索引擎等, 这类搜索引擎对非法词语做了 过滤), 无法搜索到内容的词语 定义为强敏感词, 还可以人工根据具体情况自 定义强敏感词。 所述强敏感词数据库中的种 类可以根据安全专家经验和业务需 求等设立, 例如包括淫秽强敏感词库、 博彩强敏感词库 以及商广强敏感词库, 若有需要, 还可以再定义更多其他种类的敏感词库。 0049 所述弱敏感词数据库中的弱敏感词为在不同语义下具有不同解释, 且具有 至少 一种解释导致敏感, 也具有至少一种解释导致不敏感的词语, 例如背。

26、景技 术中所举例的 “黄色” ,“小姐” 等词语, 均是在不同语义下具有不同解释, 一般来说, 敏感词中除去强敏感 词就都是弱敏感词。 所述弱敏感词数据库中的 种类可以根据安全专家经验和业务需求等 设立, 例如包括淫秽弱敏感词库、 博 彩弱敏感词库以及商广弱敏感词库, 若有需要, 还可以 再定义更多其他种类的 敏感词库。 0050 进一步的, 建立所述预判模型包括建立多模式匹配算法, 建立多模式匹配 算法包 括以下步骤: 0051 预设数组长度: 取所述每个种类强敏感词库中存储数据的最大容量值, 设 为第一 预设值a, 取所述强敏感词库的种类数量的最大值, 设为第二预设值x, 取所述每个种类弱。

27、 敏感词库中存储数据的最大容量值, 设为第三预设值b, 取所 述弱敏感词库的种类数量的 最大值, 设为第四预设值y, 数组长度 Lmax(a,b)*(x+y); 0052 建立数组: 将所有种类的强敏感词库中的数据以及所有种类的弱敏感词库 中的 数据依次导入数组中, 并将依次导入的数据按照种类分段, 并将每段的名 称确定为其对应 说明书 4/6 页 7 CN 110727766 A 7 的种类名称。 0053 接着建立弱敏感词的检测模型, 如图1所示, 图1为本发明实施例提供的 建立弱敏 感词的检测模型的流程图, 包括以下步骤: 0054 根据所述弱敏感词数据库中的弱敏感词进行检索得到敏感词网。

28、页, 可以采 用谷 歌等不会对敏感词做限制的搜索引擎, 以获取敏感词网页中包含有弱敏感 词的文本信息; 对所述文本信息进行打标, 采用打标后的文本信息建立弱敏感 词的检测模型。 0055 其中, 获取包含有弱敏感词的文本信息包括以下步骤: 以弱敏感词为中心 词做前 后文本均匀扩展, 以标点符号为停止扩展信号, 例如可以提取以逗号、 句号、 分号、 问号或 感叹号结尾的完整一句话为一条文本信息, 以最大限度的 保留训练所用的文本信息。 优选 的, 所述文本信息的长度大于10个字符, 小于 200个字符, 大于200个字符的部分进行截断。 0056 进一步的, 打标包括以下步骤: 判断所述文本信息。

29、是否敏感, 将敏感和不 敏感的 文本信息分别标记, 例如打标为1代表此文本信息是真实敏感词, 打标 为0代表此文本信息 是非敏感词, 在一个实施例中, 针对淫秽弱敏感词库的淫 秽弱敏感词 “乳房” , 对于文本信 息 “下面告诉你怎样抚摸女性乳房的步骤” , 应标注为1, 对于文本信息 “X线照相技术是当 前最有效的乳房癌症显影技术” , 应标注为0。 并且, 建立弱敏感词的检测模型之前, 还需要 将打标后的文本信息 进行拆分和过滤, 过滤掉噪音词或停用词等无实际语义的词语, 以得 到每条文 本信息中具有语义的所有词语。 0057 优选的, 建立弱敏感词的检测模型包括以下步骤: 0058 首先。

30、, 将各条文本信息中具有语义的所有词语归属于各自的训练文本单元 中, 根 据弱敏感词数据库的种类对每条训练文本单元进行分类, 如分为淫秽弱 敏感词训练文本 单元、 博彩弱敏感词训练文本单元以及商广弱敏感词训练文本 单元, 每个种类的弱敏感词 库训练文本单元中包括多条训练文本单元; 0059 其次, 分别将属于各个种类的弱敏感词库的训练文本单元进行向量化, 例 如可以 采用word2vec模型将训练文本单元转为dm维度词向量; 0060 最后, 采用LSTM网络根据向量化后的训练文本单元建立弱敏感词的检测 模型, 具 体方式可以如下: 将向量化后的训练文本单元连接到LSTM网络, 将 LSTM网。

31、络层输出加上位 置编码后进行attention操作, 然后, attention之后的输 出进行池化操作, 并且连接到普 通的全连接前反馈神经网络层, 全连接层的输 出连接一个sigmoid层实现二分类的概率输 出, 从而建立弱敏感词的检测模型。 0061 在本发明所提供的敏感词的检测方法中, 检测流程如图2所示, 图2为本 发明实施 例提供的检测流程图, 首先进行预判, 所述预判模型判断待检测网页 内待检测文本中的词 语的敏感类型包括以下步骤: 0062 采用网络爬虫定时爬取待检测的网页内容, 获取待检测网页内的待检测文 本, 定 时爬取以确保定时多次执行敏感词的检测。 0063 输入待检测。

32、文本, 根据多模式匹配算法中数组检索得到索引下标z; 0064 计算得到索引下标z的所属段的方式为: 计算z/max(a,b), 对计算结果向上 取整; 0065 根据计算得到的所属段匹配对应的敏感词库的种类名称, 即判断出待检测 文本 中的词语的敏感类型, 例如根据所属段得知对应的敏感词库为淫秽强敏感 词库、 博彩强敏 感词库或商广强敏感词库, 即可知道待检测文本中的词语属于 强敏感词数据库, 且敏感种 说明书 5/6 页 8 CN 110727766 A 8 类为淫秽强敏感词库、 博彩强敏感词库或商广强敏 感词库。 若属于强敏感词数据库, 则可 以直接将检测结果返回到前端界面展示。 例如根。

33、据所属段得知对应的敏感词库为淫秽弱 敏感词库、 博彩弱敏感词库或商 广弱敏感词库, 即可知道待检测文本中的词语属于弱敏感 词数据库, 且敏感种 类为淫秽弱敏感词库、 博彩弱敏感词库或商广弱敏感词库。 若属于弱 敏感词数 据库, 则进行弱敏感词的进一步检测。 0066 进一步的, 若待检测文本属于弱敏感词数据库, 则将待检测文本输入弱敏 感词的 检测模型进行检测, 包括以下步骤: 0067 将待检测文本进行拆分和过滤, 用于过滤掉噪音词或停用词等无实际语义 的词 语, 以得到每条待检测文本中具有语义的所有词语, 从而得到待检测文本 单元; 0068 将待检测文本单元进行向量化, 例如可以采用wo。

34、rd2vec模型将待检测文本 单元 转为dm维度词向量; 0069 将向量化后的待检测文本单元输入弱敏感词的检测模型, 由所述弱敏感词 的检 测模型输出敏感可疑度分值; 0070 定义一个预设阈值, 所述预设阈值可以是根据安全专家经验预设的, 若敏 感可疑 度分值大于预设阈值, 则反馈待检测文本所属的弱敏感词数据库的类型 和敏感可疑度分 值, 若敏感可疑度分值小于预设阈值, 则反馈待检测文本不包 含敏感词。 0071 优选的, 所述敏感词的检测方法还包括误报处理, 所述误报处理包括以下 步骤: 0072 用户反馈出现误报; 0073 复核误报是否真实, 若误报真实, 则将误报词语采用建立训练模。

35、型的步骤 进行二 次训练; 若误报不真实, 则不再进行训练, 结束误报处理。 0074 综上, 在本发明所提供的敏感词的检测方法中, 通过建立训练模型中的预 判模 型, 对待检测文本实现最初步的判断, 判断待检测文本所包含的词语是否 属于敏感词数据 库, 判断其属于强敏感词数据库还是弱敏感词数据库, 并且还 能判断其属于强敏感词数据 库或弱敏感词数据库中的哪一种类; 进一步通过建 立弱敏感词的检测模型, 将预判为包含 弱敏感词的待检测文本进行进一步的检 测和辨别, 从词语或语句的语义上进行检测判断, 从而实现了在不同语义下具 有不同解释的词语的检测, 增加了检测的准确性和灵活性, 降 低了误判。 0075 上述仅为本发明的优选实施例而已, 并不对本发明起到任何限制作用。 任 何所属 技术领域的技术人员, 在不脱离本发明的技术方案的范围内, 对本发明 揭露的技术方案和 技术内容做任何形式的等同替换或修改等变动, 均属未脱离 本发明的技术方案的内容, 仍 属于本发明的保护范围之内。 说明书 6/6 页 9 CN 110727766 A 9 图1 说明书附图 1/2 页 10 CN 110727766 A 10 图2 说明书附图 2/2 页 11 CN 110727766 A 11 。

展开阅读全文
内容关键字: 敏感 检测 方法
关于本文
本文标题:敏感词的检测方法.pdf
链接地址:https://www.zhuanlichaxun.net/pdf/10950383.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1