基于AI的运维故障确定方法、装置、设备和存储介质.pdf

上传人：宁*** 文档编号：14524403 上传时间：2024-05-19 格式：PDF 页数：24 大小：3.36MB

收藏版权申诉举报下载

第1页 / 共24页

第2页 / 共24页

第3页 / 共24页

下载文档到电脑，查找使用更方便

30 金币

下载文档

文档描述：

《基于AI的运维故障确定方法、装置、设备和存储介质.pdf》由会员分享，可在线阅读，更多相关《基于AI的运维故障确定方法、装置、设备和存储介质.pdf（24页完成版）》请在专利查询网上搜索。

1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202410015545.3(22)申请日 2024.01.05(71)申请人北京神州泰岳软件股份有限公司地址 100089 北京市海淀区海淀大街34号8层818室(72)发明人黄朝明刘鹏郑欣欣何冉(74)专利代理机构北京超凡宏宇知识产权代理有限公司 11463专利代理师冯倩(51)Int.Cl.H04L 41/0631(2022.01)(54)发明名称基于AI的运维故障确定方法、装置、设备和存储介质(57)摘要本发明提供了一种基于AI的运维故障确定方法、装置、设备和存储介质，涉及人工智能。

2、技术领域。其中，该方法包括：确定故障现象网元和故障时间，确定故障现象网元对应的相关网元；获取故障现象网元和相关网元对应的待分析运维数据；对待分析运维数据进行预处理，得到向量化要素信息；将向量化要素信息输入预先训练好的故障根因分析模型，输出待分析运维数据对应的故障根因；通过对历史运维数据进行处理确定标准化训练样本，基于标准化训练样本训练获得故障根因分析模型，再基于训练完成的故障根因分析模型分析运维数据确定故障根因，提高了运维数据的处理能力，提升了故障根因挖掘的准确性。权利要求书3页说明书15页附图5页CN 117544482 A2024.02.09CN 117544482 A1.一种基于AI。

3、的运维故障确定方法，其特征在于，包括：确定故障现象网元和故障时间，获取所述故障现象网元的标识信息；基于预设的资源关系数据库和所述故障现象网元的标识信息确定所述故障现象网元对应的相关网元；其中，所述资源关系数据库中包括网元间的网络拓扑数据；获取所述故障现象网元以所述故障时间为基准的第一预设时间段内的第一运维数据，以及所述相关网元以所述故障时间为基准的所述第一预设时间段内的第二运维数据；将所述第一运维数据和所述第二运维数据确定为待分析运维数据；对所述待分析运维数据进行结构化处理，得到结构化要素信息；将所述结构化要素信息进行向量化表示，得到向量化要素信息；将所述向量化要素信息输入预先训练好的故障根因。

4、分析模型，输出所述待分析运维数据对应的故障根因；其中，所述故障根因分析模型基于历史运维数据运维数据训练得到，所述历史运维数据包括历史运维报告和历史故障分析报告。2.根据权利要求1所述的基于AI的运维故障确定方法，其特征在于，所述第一运维数据包括：第一日志数据、第一告警数据和性能指标时间序列数据；所述第二运维数据包括：第二日志数据、第二告警数据和所述性能指标时间序列数据；获取所述故障现象网元以所述故障时间为基准预设时间段内的第一运维数据，以及所述相关网元以所述故障时间为基准预设时间段内的第二运维数据的步骤包括：基于预先设置的自然语言算法模型对所述第一告警数据和所述第一日志数据进行语义化分析和关键。

5、词提取，获得第一目标运维信息；将所述第一目标运维信息基于所述性能指标时间序列数据序列化表达，确定所述第一运维数据；基于预先设置的自然语言算法模型对所述第二告警数据和所述第二日志数据进行语义化分析和关键词提取，获得第二目标运维信息；将所述第二目标运维信息基于所述性能指标时间序列数据序列化表达，确定所述第二运维数据。3.根据权利要求1所述的基于AI的运维故障确定方法，其特征在于，所述故障根因分析模型通过下述步骤训练得到：获取第一历史运行数据；所述第一历史运行数据包括历史运维数据和历史故障分析数据；获取所述第一历史运行数据中的历史第一目标信息；获取所述历史故障分析数据中的历史第二目标信息和历史故障根。

6、因；将所述历史第一目标信息和所述历史第二目标信息作为历史要素信息；将所述历史要素信息和所述历史故障根因一一对应后作为训练样本数据；对所述训练样本数据进行标准化预处理得到向量化训练样本数据；基于所述向量化训练样本数据训练故障根因分析基础模型，直到达到预设的训练结束条件，得到所述故障根因分析模型。4.根据权利要求3所述的基于AI的运维故障确定方法，其特征在于，获取所述第一历史运行数据中的历史第一目标信息的步骤包括：确定历史故障现象网元和历史故障时间，获取所述历史故障现象网元的标识信息；其权利要求书1/3 页2CN 117544482 A2中，所述历史故障现象网元的标识信息包括：所述历史故障现象网元。

7、的名称和/或所述历史故障现象网元的ID标识；基于所述预设的资源关系数据库确定历史故障现象网元对应的历史故障相关网元；其中，所述资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据；所述规范化要素信息包括网元的规范化命名和网元的规范化ID标识；获取所述历史故障现象网元以所述历史故障时间为基准的第二预设时间段内的第三运维数据，以及所述历史相关网元以所述历史故障时间为基准的所述第二预设时间段内的第四运维数据；将所述第三运维数据和所述第四运维数据确定为历史第一目标信息。5.根据权利要求3所述的基于AI的运维故障确定方法，其特征在于，获取所述历史故障分析数据中的历史第二目标信息和历史故。

8、障根因的步骤包括：基于自然语言算法提取所述历史故障分析报告的关键词并进行结构化处理，得到目标关键词；其中，所述目标关键词包括：历史故障时间、历史故障地点、历史故障现象网元、历史故障相关网元、历史故障根因网元和历史故障类别；将所述历史故障时间、所述历史故障地点、所述历史故障现象网元和所述历史故障相关网元确定为所述历史第二目标信息；将所述历史故障根因网元和所述历史故障类别确定为所述历史故障根因。6.根据权利要求3所述的基于AI的运维故障确定方法，其特征在于，基于所述向量化训练样本数据训练故障根因分析基础模型，直到达到预设的训练结束条件，得到所述故障根因分析模型的步骤包括：将所述向量化训练样本数据按。

9、照预设的比例分为训练集和验证集；基于所述训练集训练所述故障根因分析基础模型，得到故障根因分析中间模型；基于所述验证集验证所述故障根因分析中间模型，如果验证通过，将所述故障根因分析中间模型作为所述故障根因分析模型；如果验证不通过，基于所述训练集继续训练所述故障根因分析中间模型，直至验证通过。7.根据权利要求3所述的基于AI的运维故障确定方法，其特征在于，获取所述第一历史运行数据中的历史第一目标信息的步骤之后，所述方法还包括：获取第二历史运维数据；提取所述第二历史运维数据中的异常告警信息；通过所述异常告警信息从所述历史第一目标信息中将所述异常告警信息对应的历史第一目标信息剔除，得到更新后的历史第一。

10、目标信息。8.一种基于AI的运维故障确定装置，其特征在于，包括：故障响应模块，用于确定故障现象网元和故障时间，获取所述故障现象网元的标识信息；相关网元确定模块，用于基于预设的资源关系数据库和所述故障现象网元的标识信息确定所述故障现象网元对应的相关网元；其中，所述资源关系数据库中包括网元间的网络拓扑数据；运维数据获取模块，用于获取所述故障现象网元以所述故障时间为基准的第一预设时权利要求书2/3 页3CN 117544482 A3间段内的第一运维数据，以及所述相关网元以所述故障时间为基准的所述第一预设时间段内的第二运维数据；待分析运维数据确定模块，用于将所述第一运维数据和所述第二运维数据确定为待分。

11、析运维数据；要素信息结构化处理模块，用于对所述待分析运维数据进行结构化处理，得到结构化要素信息；要素信息向量化处理模块，将所述结构化要素信息进行向量化表示，得到向量化要素信息；运维故障根因确定模块，用于将所述向量化要素信息输入预先训练好的故障根因分析模型，输出所述待分析运维数据对应的故障根因；其中，所述故障根因分析模型基于历史运维数据运维数据训练得到，所述历史运维数据包括历史运维报告和历史故障分析报告。9.一种设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现上述权利要求1至7任一项所述的基于AI的运维故障确定。

12、方法。10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至7任一项所述的基于AI的运维故障确定方法。权利要求书3/3 页4CN 117544482 A4基于AI的运维故障确定方法、装置、设备和存储介质技术领域0001本发明涉及人工智能技术领域，尤其是涉及一种基于AI的运维故障确定方法、装置、设备和存储介质。背景技术0002在网络运维领域，引起网络故障的原因很多。随着网络规模的扩大，故障的原因分析越来越困难。故障往往表现在：甲设备被发现故障现象，但故障本身是由于乙设备所发生的事件或性能变化所导致。

13、；简单排除甲上故障往往不能彻底解决网络中存在的问题。因此，在运维领域，需要透过表面现象，揭示故障发生的根节点原因。0003现有技术尝试用计算机算法来挖掘运维故障根因。这种方法对多次某类故障发生前的告警进行分别统计，通过构建频繁项集的方法，并人为设定置信度等阈值，去试图发现故障与告警是否存在较强的关联关系。由于运维过程中数据量太大，人工难以处理大量数据并从中发现故障和故障发生之前各种现象之间的逻辑，使得挖掘结果往往难以和运维经验相匹配，数据挖掘的指向性不明确，使得问题得不到收束，故障根因挖掘准确率差。发明内容0004有鉴于此，本发明的目的在于提供一种基于AI的运维故障确定方法、装置、设备和存储介。

14、质，通过对历史运维数据进行处理确定标准化训练样本，基于标准化训练样本训练获得故障根因分析模型，再基于训练完成的故障根因分析模型分析运维数据确定故障根因，提高了运维数据的处理能力，提升了故障根因挖掘的准确性。0005第一方面，本发明提供了一种基于AI的运维故障确定方法，包括：确定故障现象网元和故障时间，获取故障现象网元的标识信息；其中，故障现象网元的标识信息包括：故障现象网元的名称和/或故障现象网元的ID标识；基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元；其中，资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据；规范化要素信息包括网元的规范化。

15、命名和网元的规范化ID标识；获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据，以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据；将第一运维数据和第二运维数据确定为待分析运维数据；对待分析运维数据进行结构化处理，得到结构化要素信息；将结构化要素信息进行向量化表示，得到向量化要素信息；将向量化要素信息输入预先训练好的故障根因分析模型，输出待分析运维数据对应的故障根因；其中，故障根因分析模型基于历史运维数据运维数据训练得到，历史运维数据包括历史运维报告和历史故障分析报告。0006在本发明一些较佳的实施例中，第一运维数据包括：第一日志数据、第一告警数据和性能指标时间序列数据。

16、；第二运维数据包括：第二日志数据、第二告警数据和性能指标时间序列数据；获取故障现象网元以故障时间为基准预设时间段内的第一运维数据，以及相关网元以故障时间为基准预设时间段内的第二运维数据的步骤包括：基于预先设置的自然说明书1/15 页5CN 117544482 A5语言算法模型对第一告警数据和第一日志数据进行语义化分析和关键词提取，获得第一目标运维信息；将第一目标运维信息基于性能指标时间序列数据序列化表达，确定第一运维数据；基于预先设置的自然语言算法模型对第二告警数据和第二日志数据进行语义化分析和关键词提取，获得第二目标运维信息；将第二目标运维信息基于性能指标时间序列数据序列化表达，确定第二运维。

17、数据。0007在本发明一些较佳的实施例中，故障根因分析模型通过下述步骤训练得到：获取第一历史运行数据；第一历史运行数据包括历史运维数据和历史故障分析数据；获取第一历史运行数据中的历史第一目标信息；获取历史故障分析数据中的历史第二目标信息和历史故障根因；将历史第一目标信息和历史第二目标信息作为历史要素信息；将历史要素信息和历史故障根因一一对应后作为训练样本数据；对训练样本数据进行标准化预处理得到向量化训练样本数据；基于向量化训练样本数据训练故障根因分析基础模型，直到达到预设的训练结束条件，得到故障根因分析模型。0008在本发明一些较佳的实施例中，获取第一历史运行数据中的历史第一目标信息的步骤包括。

18、：确定历史故障现象网元和历史故障时间，获取历史故障现象网元的标识信息；其中，历史故障现象网元的标识信息包括：历史故障现象网元的名称和/或历史故障现象网元的ID标识；基于预设的资源关系数据库确定历史故障现象网元对应的历史故障相关网元；其中，资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据；规范化要素信息包括网元的规范化命名和网元的规范化ID标识；获取历史故障现象网元以历史故障时间为基准的第二预设时间段内的第三运维数据，以及历史相关网元以历史故障时间为基准的第二预设时间段内的第四运维数据；将第三运维数据和第四运维数据确定为历史第一目标信息。0009在本发明一些较佳的实施例中，。

19、获取历史故障分析数据中的历史第二目标信息和历史故障根因的步骤包括：基于自然语言算法提取历史故障分析报告的关键词并进行结构化处理，得到目标关键词；其中，目标关键词包括：历史故障时间、历史故障地点、历史故障现象网元、历史故障相关网元、历史故障根因网元和历史故障类别；将历史故障时间、历史故障地点、历史故障现象网元和历史故障相关网元确定为历史第二目标信息；将历史故障根因网元和历史故障类别确定为历史故障根因。0010在本发明一些较佳的实施例中，基于向量化训练样本数据训练故障根因分析基础模型，直到达到预设的训练结束条件，得到故障根因分析模型的步骤包括：将向量化训练样本数据按照预设的比例分为训练集和验证集；。

20、基于训练集训练故障根因分析基础模型，得到故障根因分析中间模型；基于验证集验证故障根因分析中间模型，如果验证通过，将故障根因分析中间模型作为故障根因分析模型；如果验证不通过，基于训练集继续训练故障根因分析中间模型，直至验证通过。0011在本发明一些较佳的实施例中，获取第一历史运行数据中的历史第一目标信息的步骤之后，方法还包括：获取第二历史运维数据；提取第二历史运维数据中的异常告警信息；通过异常告警信息从历史第一目标信息中将异常告警信息对应的历史第一目标信息剔除，得到更新后的历史第一目标信息。0012第二方面，本发明提供了一种基于AI的运维故障确定装置，包括：故障响应模块，用于确定故障现象网元和故。

21、障时间，获取故障现象网元的标识信息；其中，故障现象网元的说明书2/15 页6CN 117544482 A6标识信息包括：故障现象网元的名称和/或故障现象网元的ID标识；相关网元确定模块，用于基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元；其中，资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据；规范化要素信息包括网元的规范化命名和网元的规范化ID标识；运维数据获取模块，用于获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据，以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据；待分析运维数据确定模块，用于将第一运维数据和。

22、第二运维数据确定为待分析运维数据；要素信息结构化处理模块，用于对待分析运维数据进行结构化处理，得到结构化要素信息；要素信息向量化处理模块，将结构化要素信息进行向量化表示，得到向量化要素信息；运维故障根因确定模块，用于将向量化要素信息输入预先训练好的故障根因分析模型，输出待分析运维数据对应的故障根因；其中，故障根因分析模型基于历史运维数据运维数据训练得到，历史运维数据包括历史运维报告和历史故障分析报告。0013第三方面，本发明提供了一种设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述任一项的基于AI的运维故障确定方法。0014第四方面。

23、，本发明提供了一种存储介质，存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述任一项的基于AI的运维故障确定方法。0015本发明带来了以下有益效果：本发明提供了一种基于AI的运维故障确定方法、装置、设备和存储介质，该方法包括：确定故障现象网元和故障时间，获取故障现象网元的标识信息；其中，故障现象网元的标识信息包括：故障现象网元的名称和/或故障现象网元的ID标识；基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元；其中，资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据；规范化要素信息包括网元。

24、的规范化命名和网元的规范化ID标识；获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据，以及相关网元以故障时间为基准的第一预设时间段内的第二运维数据；将第一运维数据和第二运维数据确定为待分析运维数据；对待分析运维数据进行结构化处理，得到结构化要素信息；将结构化要素信息进行向量化表示，得到向量化要素信息；将向量化要素信息输入预先训练好的故障根因分析模型，输出待分析运维数据对应的故障根因；其中，故障根因分析模型基于历史运维数据运维数据训练得到，历史运维数据包括历史运维报告和历史故障分析报告；通过对历史运维数据进行处理确定标准化训练样本，基于标准化训练样本训练获得故障根因分析模型，再基。

25、于训练完成的故障根因分析模型分析运维数据确定故障根因，提高了运维数据的处理能力，提升了故障根因挖掘的准确性。附图说明0016为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前说明书3/15 页7CN 117544482 A7提下，还可以根据这些附图获得其他的附图。0017图1为本发明实施例提供的一种基于AI的运维故障确定方法的流程图；图2为本发明实施例提供的一种故障根因分析模型训练方法流程图；图3为本发明实施例提供的一种。

26、训练数据的构建方法流程图；图4本发明实施例提供的一种故障根因分析模型应用流程图；图5为本发明实施例提供的一种基于AI的运维故障确定装置的结构示意图；图6为本发明实施例提供的一种设备的结构示意图。0018图标：310故障响应模块；320相关网元确定模块；330运维数据获取模块；340待分析运维数据确定模块；350要素信息结构化处理模块；360要素信息向量化处理模块；370运维故障根因确定模块；400存储器；401处理器；402总线；403通信接口。具体实施方式0019为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显。

27、然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。0020因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。0021应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”。

28、、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。0022此外，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。0023在本发明的描述中，还需。

29、要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。0024在网络运维领域，引起网络故障的原因很多。随着网络规模的扩大，故障的原因分析越来越困难。故障往往表现在：甲设备被发现故障现象，但故障本身是由于乙设备所发生的事件或性能变化所导致；简单排除甲上故障往往不能彻底解决网络中存在的问题。因此，说明书4/15 页8CN 117。

30、544482 A8在运维领域，需要透过表面现象，揭示故障发生的根节点原因。目前根因分析主要依赖于：人工分析和关联规则挖掘方法。0025人工分析是指运维人员在故障发生并且故障后果被感知到以后，依赖人工手段，通过阅读大量的告警信息、设备日志信息和操作日志，并查看性能指标，下发设备探寻指令，返回设备状态报告，并且派遣运维人员到达可能是故障根节点的位置，人工逐级排查，并采取相应措施。但是，人工分析时间历时长，造成故障不能快速恢复，造成巨大损失，多个科室跨专业安排多个运维专家共同排查，人员成本，存在不同专业科室相互推诿责任的现象，造成大量重复运维工单下发不同专业科室，排障成本高，准确率低。0026现有技。

31、术尝试用计算机算法摆脱人工分析的困境。由于运维过程中数据量太大，人工难以处理大量数据并从中发现故障和故障发生之前各种现象之间的逻辑。另外，面临大量原始运维数据如性能指标数据、告警、日志，却没有可以用于有监督机器学习算法进行模型训练的标注数据，人们只能采用无监督学习算法中的关联关系挖掘算法来解决这一类问题。这种方法对多次某类故障发生前的告警进行分别统计，通过构建频繁项集的方法，并人为设定置信度等阈值，去试图发现故障与告警是否存在较强的关联关系。其缺陷在于：局限于采用准确率较低的无监督的机器学习方式。不能利用有监督的机器学习优势，没有利用已经积累的运维经验，挖掘结果往往难以和运维经验相匹配，挖掘出。

32、大量规则，须运维专家通过人工方式进行认可，工作量巨大，人工成本高，存在大量客观存在合理性但暗含复杂内在逻辑的规则输出，但因为运维人员处理大数据所含的复杂逻辑和隐含逻辑的能力限制，造成在人工认可环节不被接受从而未被采纳部署的情况，数据挖掘的指向性不明确，问题得不到收束，存在大量不必要的计算量，准确率差。0027现有故障根因分析的人工智能算法应用缺乏行之有效的标注数据，以往运维经验积数据积累有限，即便有少量经验非正式经验知识也未能形成人工智能机器学习的训练数据，因标注数据的缺乏，难以采用准确率较高的有监督学习的机器学习人工智能算法。同时，由于运维过程中数据量太大，人工难以处理大量数据并从中发现故障。

33、和故障发生之前各种现象之间的逻辑，使得挖掘结果往往难以和运维经验相匹配，数据挖掘的指向性不明确，使得问题得不到收束，故障根因挖掘准确率差。0028有鉴于此，本发明提供了一种基于AI的运维故障确定方法、装置、设备和存储介质，通过对历史运维数据进行处理确定标准化训练样本，基于标准化训练样本训练获得故障根因分析模型，再基于训练完成的故障根因分析模型分析运维数据确定故障根因，提高了运维数据的处理能力，提升了故障根因挖掘的准确性。0029下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。0030实施例一本发明实施例提供了一种基于AI的运维故障确定。

34、方法，参见图1所示的本发明实施例提供的一种基于AI的运维故障确定方法的流程图，该方法包括：步骤S102，确定故障现象网元和故障时间，获取故障现象网元的标识信息；其中，故障现象网元的标识信息包括：故障现象网元的名称和/或故障现象网元的ID标识。0031具体的，运维系统发生运行故障时，往往表现在某一网元出现故障，比如退服、断连等现象，但是并不一定是该出现故障现象的网元出现了故障，因此将出现故障的网元称说明书5/15 页9CN 117544482 A9为故障现象网元；故障网元的标识信息用来在资源关系数据库中检索信息，故障网元的ID标识是统一标准化的标识；同时运维系统会记录故障现象网元出现故障的时间。。

35、0032可选地，确定故障现象网元后，可以对故障现象网元的标识进行规范化处理，获取故障现象网元的标识信息。示例性地，可以通过语义匹配对故障现象网元的标识进行规范化处理。可以解决网元命名、ID标识不够精准的问题，提高运维故障确定准确率。0033步骤S104，基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元；其中，资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据；规范化要素信息包括网元的规范化命名和网元的规范化ID标识。0034具体的，预设的资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据，规范化要素信息是将在不同系统中的不同。

36、的网元名称和网元ID标对应在一个同意的标准之下的网元名称和ID标识，也即，同一个网元在不同的管理系统中可能有自己的名称和标识，资源关系数据库将多个不同系统中的名称和ID标识对应在一个标准的名称和ID标识下也即网元的规范化命名和网元的规范化ID标识，网元间的网络拓扑数据是指描述网络中各个元素的对应关系的数据。网络拓扑结构是指用传输媒体互连各种设备的物理布局，即用什么方式把网络中的计算机等设备连接起来。常见的网络拓扑结构有星型结构、环形结构、总线结构、网状结构、树型结构和混合结构等。0035步骤S106，获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据，以及相关网元以故障时间为基准。

37、的第一预设时间段内的第二运维数据。0036具体的，第一运维数据包括：第一日志数据、第一告警数据和性能指标时间序列数据；第二运维数据包括：第二日志数据、第二告警数据和性能指标时间序列数据；通过下述步骤A1至A4确定第一运维数据和第二运维数据：步骤A1，基于预先设置的自然语言算法模型对第一告警数据和第一日志数据进行语义化分析和关键词提取，获得第一目标运维信息。0037步骤A2，将第一目标运维信息基于性能指标时间序列数据序列化表达，确定第一运维数据。0038步骤A3，基于预先设置的自然语言算法模型对第二告警数据和第二日志数据进行语义化分析和关键词提取，获得第二目标运维信息。0039步骤A4，将第二目。

38、标运维信息基于性能指标时间序列数据序列化表达，确定第二运维数据。0040具体的，第一预设时间段可以灵活设定，一般设置为两小时，获取预设时间段内的告警数据和日志数据；在运维场景下，告警数据主要包括性能指标和业务日志数据两种类型；性能指标以数字形式呈现，可聚合并持续稳定输出，数据直观、精确，通常用于查询和展示，常见的性能指标包括系统性能指标、资源性能指标、中间件指标、数据库指标、稳定性指标、可扩展性指标和可靠性指标等；业务日志数据是以文本形式承载的，不可聚合，输出并不具备周期性，通常数据量较大，需要从海量日志中找到所需要的字段进行进一步的处理。日志数据，它记录了系统或应用程序运行期间的各种事件和状。

39、态信息。在运维管理中，日志数据可以用于分析系统的问题和故障，帮助运维人员更好地了解系统的运行情况并进行故障排除。性能指标时间序列数据，是按照时间顺序排列的性能指标数值序列，这类数据反映了某一事物、现象等随时间的变化状态或程度。说明书6/15 页10CN 117544482 A100041通过预先设置的自然语言算法模型对第一告警数据和第一日志数据进行语义化分析和关键词提取，从大量的告警数据和日志数据中提取出关键信息，这些信息可以帮助我们理解系统的状态和可能存在的问题。这个过程通常包括文本预处理（如去除停用词、词干化等）、特征提取（如TFIDF、Word2Vec等）和关键词提取（如TextRank。

40、、LDA等）。将第一目标运维信息基于性能指标时间序列数据序列化表达，将提取出的运维信息转化为可以用于后续分析的格式，按照时间顺序排列，形成一种时间序列数据。0042故障现象网元对应成第一运维数据，相关网元对应第二运维数据，第二运维数据的确定过程与第一运维数据的确定过程一样，就不再赘述了。0043步骤S108，将第一运维数据和第二运维数据确定为待分析运维数据。0044具体的，将时序化后的第一运维数据和时序化后的第二运维数据确定为待分析运维数据，将两组运维数据按照时间顺序进行对齐，然后将它们合并为一个更大的时间序列数据集。0045步骤S110，对待分析运维数据进行结构化处理，得到结构化要素信息。0。

41、046具体的，对待分析运维数据进行结构化处理。数据结构化处理的主要目的是将原始的、杂乱无章的、非标准化的数据转换为计算机可以识别和处理的、预定义格式的数据。这种处理方式允许对数据进行更高效、准确的输入、查询和分析；结构化数据处理的特点通常包括：固定的字段，就像它存储的方式一样；以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。0047本申请实施例中，根据故障现象网元的名称、故障现象网元的ID标识，查找资源关系数据库确定与故障现象网元存在关系的相关网元，调取故障现象网元以及与故障现象网元存在关系的相关网元的时间序列化的性能指标数据、告警、日志数据；算法根据故障发生的时间戳，调取相。

42、关时间窗口的数据，回溯性能指标、告警数据和日志信息，提取故障发生前多个时间窗口发生的告警、日志等信息。并执行步骤S112及后续步骤对告警、日志等信息进行结构化及向量化，将结构化及向量化的告警、日志等信息输入预先训练好的故障根因分析模型，输出所述待分析运维数据对应的故障根因。其中，资源关系数据库包括网元间的网络拓扑数据。资源关系数据库的构建采用了以运维系统标准的设备资源关系数据作为模板，收集综合设备资源数据或其它设备资源数据或网络拓扑数据。0048步骤S112，将结构化要素信息进行向量化表示，得到向量化要素信息。0049具体的，向量化处理是将文本表示成一系列能够表达文本语义的向量，这是自然语言处。

43、理中的一种重要方式。这个过程主要包含以下B1至B5步骤：步骤B1，分词：无论中文还是英文，词语都是表达文本处理的最基本单元。所以首先需要对原始文本进行分词处理，将文本切分成一个个独立的词汇。0050步骤B2，选择向量化方法：根据具体的任务需求和数据特性，选择合适的向量化方法。常见的文本向量化方法包括基于统计的方法、基于神经网络的方法等。例如，onehot词向量表示，即将每个词表示成具有n个元素的向量，这个词向量中只有一个元素是1，其他元素都是0，不同词汇元素为0的位置不同，其中n的大小是整个语料中不同词汇的总数。0051步骤B3，训练模型：使用选定的向量化方法训练模型，将每个单词转换为一个实数。

44、向量。0052步骤B4，生成向量：使用训练好的模型将每个单词转换为对应的实数向量。说明书7/15 页11CN 117544482 A110053步骤B5，文本表示：通过将所有单词的向量组合成一个矩阵，得到整个文本的向量表示。0054以上这些步骤并不唯一且固定，具体执行时可能因任务的不同而有所调整。0055通过上述步骤对结构化要素信息进行向量化表示，得的向量化要素信息。0056步骤S114，将向量化要素信息输入预先训练好的故障根因分析模型，输出待分析运维数据对应的故障根因；其中，故障根因分析模型基于历史运维数据运维数据训练得到，历史运维数据包括历史运维报告和历史故障分析报告。0057具体的，将向。

45、量化要素信息输入预先训练好的故障根因分析模型，输出待分析运维数据对应的故障根因；预先训练完成的根因分析模型是基于AI训练完成的模型，主要用于网络运维故障的根因分析。0058当故障触发调用故障根因分析系统进行故障根因分析时，根据故障现象网元的名称、故障现象网元的ID标识，查找资源关系数据库，调取故障现象网元以及与故障现象网元存在关系的相关网元的时间序列化并向量化的性能指标数据、告警、日志数据；算法根据故障发生的时间戳，调取相关时间窗口的数据，回溯性能指标、告警数据和日志信息，提取故障发生前多个时间窗口发生的告警、日志等信息，判断故障原因的类别；对目标时间窗口内的告警、日志等文本信息进行语义分析，。

46、结合故障原因判断，进一步确定根因网元是本网元还是其相关网元。0059本发明实施例提供了一种基于AI的运维故障确定方法，包括：确定故障现象网元和故障时间，获取故障现象网元的标识信息；其中，故障现象网元的标识信息包括：故障现象网元的名称和/或故障现象网元的ID标识；基于预设的资源关系数据库和故障现象网元的标识信息确定故障现象网元对应的相关网元；其中，资源关系数据库中包括多个精准表示的规范化要素信息和网元间的网络拓扑数据；规范化要素信息包括网元的规范化命名和网元的规范化ID标识；获取故障现象网元以故障时间为基准的第一预设时间段内的第一运维数据，以及相关网元以故障时间为基准的第一预设时间段内的第二运维。

47、数据；将第一运维数据和第二运维数据确定为待分析运维数据；对待分析运维数据进行结构化处理，得到结构化要素信息；将结构化要素信息进行向量化表示，得到向量化要素信息；将向量化要素信息输入预先训练好的故障根因分析模型，输出待分析运维数据对应的故障根因；其中，故障根因分析模型基于历史运维数据运维数据训练得到，历史运维数据包括历史运维报告和历史故障分析报告；通过对历史运维数据进行处理确定标准化训练样本，基于标准化训练样本训练获得故障根因分析模型，再基于训练完成的故障根因分析模型分析运维数据确定故障根因，提高了运维数据的处理能力，提升了故障根因挖掘的准确性。0060实施例二基于上述实施例的基础上，本发明实施。

48、例提供了另一种基于AI的运维故障确定方法，重点描述故障根因分析模型的训练流程，本发明实施例涉及智能运维（AIOps），智能运维，是一种将人工智能和机器学习技术应用于IT运维工作的领域。其主要目标是通过自动化执行关键运维任务，如性能监控、工作负载调度和数据备份，来简化IT运营工作流程并提高应用性能和响应速度。在具体实施中，AIOps会收集和分析各种运维数据，如日志、监控信息和应用信息等，然后运用机器学习的方式来解决自动化运维无法处理的问题。此外，AIOps在实践中涉及多个角色，包括运维工程师、运维研发工程师、平台研发工程师和运维说明书8/15 页12CN 117544482 A12AI工程师。使。

49、用AIOps的好处是显而易见的，它可以帮助减少检测、理解、调查问题以及解决问题和事件所需的时间和精力，从而提升IT运营效率和质量。0061参见图2所示的本发明实施例提供的一种故障根因分析模型训练方法流程图，该方法包括：步骤S202，获取第一历史运行数据；第一历史运行数据包括历史运维数据和历史故障分析数据。0062具体的，第一历史运维数据包括历史性能指标时间序列数据、历史告警数据、历史日志数据、历史故障分析报告和工单数据。其中，历史运维数据包括历史性能指标时间序列数据、历史告警数据和历史日志数据，历史故障分析数据包括：历史故障分析报告和工单数据。较为重要的故障往往会由经验较为丰富的运维人员汇总并。

50、撰写分析结果报告。这些报告往往能在一定层面上反映故障的分类，以及通过事后大量运维人员较长历时的排障过程和故障结果，甚至处置措施，为故障定界、定位提供了专家经验。0063步骤S204，获取第一历史运行数据中的历史第一目标信息。0064具体的，通过下述步骤C1至C4获取第一历史运行数据中的历史第一目标信息：步骤C1，确定历史故障现象网元和历史故障时间，获取历史故障现象网元的标识信息；其中，历史故障现象网元的标识信息包括：历史故障现象网元的名称和/或历史故障现象网元的ID标识；步骤C2，基于预设的资源关系数据库确定历史故障现象网元对应的历史故障相关网元；其中，资源关系数据库中包括多个精准表示的规范化。

展开阅读全文

内容关键字: 基于 AI 故障确定方法装置设备存储介质