案例中心

    案例中心  >  AI运维助力桂冠电力“数字桂冠”建设
    AI运维助力桂冠电力“数字桂冠”建设
    背景图 2023-09-08 14:38:47

    *转载自《网络安全和信息化》杂志8月刊

    编者:分析了桂冠电力当前面临的运维难题,结合公司实际业务基础和多年运维经验,构建了“智能运维大脑”,助力桂冠电力“数字桂冠”建设。

    随着互联网技术的不断发展和普及,国家出台了一系列政策和文件,鼓励和引导企业进行数字化转型,越来越多的企业开始意识到数字化转型的重要性。当前,国内企业数字化转型已经进入了快速发展的阶段。

    桂冠电力股份有限公司(以下简称“桂冠电力”“公司”)结合企业自身发展,积极布局数字化转型,一直走在数字化转型的前端当前已构建“数字桂冠”基础的工业大数据云平台,为桂冠电力的智慧企业建设提供数据链接能力、数据存储能力、数据计算能力、业务流程能力、数据应用能力。“数字桂冠”云平台底层服务器、存储、网络等硬件设备多,承载的发电业务系统和应用多元;桂冠电力各基层企业差异大,发电设备类型、供应商、运行数据多等现状,均对日常运维提出了高要求。

     

    数字化规模扩大,运维难度增加

    在数字经济持续深化的大背景下,IT运维在公司的基础性地位愈加凸显,对公司管理和业务创新有重要意义。桂冠电力基础设施的稳定性与可靠性离不开IT运维,公司一直特别重视IT运维的投入。当前,桂冠电力IT运维面临几个普遍性问题。

    第一,系统风险发现难。基础设施系统的高复杂性、运维人员技能水平不能匹配、运维监控手段不足等原因,导致很多时候系统问题要靠业务部门和用户问题反馈来进行被动式运维,潜在的风险和安全隐患很难被及时发现并解决。系统风险往往影响各部门正常办公,甚至影响公司发电等核心生产业务,给公司带来严重的损失。

    第二,系统故障定位难。公司数据中心、生产环境设备多,业务系统丰富多元,故障问题经常涉及多个系统、设备、设备供应商等供应链,涉及到的技术和知识领域非常广泛,故障分析高度依赖运维人员专业度。运维人员没有精力深入学习所有知识,无法有效对整个系统进行全面的分析和理解,通常只能依靠经验尝试解决,短时间无法定位问题原因,导致运维效率经常低下。

    第三,系统故障处置难。故障问题往往涉及数据中心硬件设备的核心部件和发电控制系统、电力计算机监控系统、数据采集系统等核心生产软件系统,还有生产管控、财务管理、人事管理等诸多管理系统,此类故障问题繁多,解决过程较为复杂。运维人员需要耗费大量的时间和精力,具备较高的技术水平和专业知识才能够有效地处理设备故障。同时,运维人员面临专业度、解决问题时效等压力,工作难度较大。小故障逐步积累成为大问题,最终影响到公司的办公业务和生产业务。

     

    打造“智能运维大脑”,AI助力运维

    桂冠电力认为,企业竞争不再是单靠发电能力就能取胜,而是依托平台的数字化生态系统之间的竞争和管理。“三分建设、七分运维”,运维是全天24 h的,是每时每刻都不能缺少的,智能、高效、专业的数字化运维承载着关键作用。结合公司实际业务基础和多年的运维经验,桂冠电力决定基于以下几个理念全新建设公司运维能力。

    第一,被动运维转变为主动运维主动运维可以有效地降低系统故障率,提高系统的可用性和可靠性,大幅降低业务风险,也可以减少运维工作量和管理成本,提高运维效率和质量,改变传统“救火式运维”的困境。

    第二,线上值守释放线下运维精力。通过远程监控和管理系统,及时发现和解决线上运行问题的工作,实现快速响应、减少意外故障、降低运维成本、定期维护和优化IT基础设施。

    第三,在系统发生故障时,为运维人员提供有效处置思路和建议。通过AI对故障特征、日志等数据分析,输出处置建议,帮助运维人员快速定位故障,恢复业务,降低经验依赖,提高故障处置效率。

    第四,数据中心实时掌控,可实时查看IT系统状态。运维人员可以通过Web、钉钉、微信小程序等实时掌控IT资产状态,能全栈监控系统告警信息,包括发电设备、数据中心的服务器、云主机、数据库和应用等。

    第五,能够预测业务故障,主动处置,提前解决。运维体系能够结合业界标准,实时分析底层硬件运行状态、日志,进行AI大模型持续训练,在硬件发生故障前识别告警,减少IT设备故障率。

    当前桂冠电力已构建“智能运维大脑”,工作架构如图1所示。

    “智能运维大脑”工作架构图

    图1 “智能运维大脑”工作架构图

    1.“智能运维大脑”工作流程

    第一,统一数据。智能运维大脑对接桂冠电力的所有IT资产,实现公司多源异构数据的大汇集,形成IT数据湖。涵盖云平台计算、存储、网络和发电设施的精细化日志信息,从网络、应用等多维度支持运维人员快速梳理业务或系统的逻辑。

    第二,AI分析。“智能运维大脑”通过AI引擎对数据湖中的IT数据进行统一分析和编排,识别正在发生的问题,比如为什么会发生?将来会发生什么?从而实现IT问题检测、溯源、处置和防范。

    第三,AI处理。“智能运维大脑”通过AI引擎模型训练,持续学习,积累问题库,该问题库可由运维团队进行配置。故障发生时,“智能运维大脑”会根据问题库的处置策略线上自动处理大部分问题;对于一些危险处置操作或者新问题,“智能运维大脑”第一时间主动推送故障问题、处置建议至运维人员。

    第四,运维团队介入。运维工程师只需登录“智能运维大脑”,就可对公司所有IT资产状态全局可视,并且按照处置向导快速解决问题。对于不能处理的问题,可联动工单系统发起流程,请求运维专家协助。

     

    2.“智能运维大脑”核心能力

    第一,“智能运维大脑”可从系统中抽取各项指标,通过深度学习、小样本学习、迁移学习等,预测系统故障并输出分析报告,准确率可达90%以上。

    第二,对于运维侧常见的告警风暴,“智能运维大脑”可对告警去重,并通过NLP算法对信息进行模板化处理,随后“智能运维大脑”进行分词和熵值运算,根据告警信息熵值分成重要告警和非重要告警两类,从而达到收敛告警信息的效果,帮助用户解决在系统异常时的告警风暴问题,集中管理人员精力,聚焦关键业务。

    第三,对于故障处置,“智能运维大脑”通过对系统指标离线分析构建因果图,在系统发生异常事件时导入因果图谱,并通过随机游走算法计算异常事件根因,1 s定位故障根因并输出处置建议;也可以对故障进行预测和防范,改变传统运维故障后疲于“救火”的困境,预防业务中断。

     

    AI运维保障业务稳定运行,助力“数字桂冠”建设

    “智能运维大脑”是桂冠电力数字化转型的重要组成部分,作用于桂冠电力IT业务全生命周期。它可以对设备数据实时监测和分析,实现对设备异常预测和故障预防,提高设备的可靠性和可用性,降低企业的维护成本,提高生产效率,降低生产成本,为公司的数字化转型提供有力支撑。据统计,“智能运维大脑”覆盖150多个典型故障场景,实现7~30天提前预测,1 min及时发现,3 min快速定位。

    在未来,“智能运维大脑”可以全方位保障桂冠电力生产系统稳定运行,将业务故障率降低60%,将维护成本降低40%,将生产效率提高10%。

    “智能运维大脑”是“数字桂冠”整体规划的重要组成部分,为桂冠电力大数据业务保驾护航,在公司各业务系统的稳定运行中起着关键性作用,提供智能化、高效化、安全化的服务,帮助公司提高竞争力和市场占有率。

    桂冠电力未来将基于工业大数据云平台和本次建设的“智能运维大脑”,逐步打造包含智慧运营中心、设备状态诊断中心、安全应急中心、智慧营销中心与智慧电厂的核心智慧化平台,实现数字化业务管控、智慧化企业经营和生态化运维服务的完整生态,加强企业的数字化转型。