9月28日,信服云托管云运维专家Jason在信服云《云集技术学社》系列直播课上进行了《云运维概况与注意事项》的分享,详细介绍了在云化大趋势背景下云运维分工、职责和核心点。以下是他的分享内容摘要。
看点一 云的演进为运维带来了哪些挑战?
随着信息技术的不断发展,云演进经历了硬件化、虚拟化、超融合和云四个历程。数据中心也从传统数据中心、虚拟化数据中心、软件定义数据中心到云化数据中心。企业对信息系统的需求定位也在不断变化,信息系统从成本驱动、成本和效率驱动、管理驱动、管理和效率驱动最后到业务创新驱动。
随着企业业务规模不断扩大,信息系统基础架构也从超融合、多资源池软件定义数据中心、私有云、同架构混合云再到现在的多云中台。信息系统和云服务复杂化的趋势越来越明显,平台的安全和运维可靠性成为了云计算的关注重点之一,对云安全和云运维的要求在不断提高。
云的演进给运维带来了多重挑战:
一是管理复杂。节点数量成千上万,存储、计算、网络、PaaS、SaaS各种类型业务复杂。如何管理这么多的资源、平台和业务对运维而言是一项挑战。
二是自动化要求高。在如此大的业务规模和服务场景下,自动化程度是运维效率的关键。
三是稳定性要求高。云作为一个服务主体,直接承载不同用户业务,对稳定性要求极高。
四是变更频繁。云作为客户服务载体,需要经常根据用户所需开发云产品或新功能,由此带来频繁的升级事项。
五是排查问题难度增加。复杂的技术栈、复杂的业务场景,对于问题排查要求增加。
看点二 云化趋势下运维工作如何分层?职责边界是什么?
关于云运维,信服云对整个运维体系做了梳理,将运维分成了IDC、云平台、云资源、应用层四个层级,每一个层级都会有对应的运维人员进行维护。
应用层包括应用系统和Guest OS的运维;云资源层级运维包括日常响应和专家服务。对于信服云而言,云资源层级是用户服务目录的保障。日常响应包含了PaaS、SaaS等多项服务,专家服务包含了安全服务、DBA服务、迁移服务等。
云平台层级运维包括持续运维、IT设备安装部署、IT设备运维三部分内容;IDC运维主要是基础设施的维护,包括对供配电系统、空调与制冷系统、制冷自控系统、动环监控系统等多方面的维护,日常会对机房进行定期巡检。一般来说,T3及以上的机房都有非常完整的服务保障。
看点三 如何摆脱“救火式运维”的困境?
业界对运维人员一直有个戏称是“背锅侠”,这个戏称也反映了目前运维人员面临的“救火式运维”困境。“救火式运维”困境即当事件已经发生并造成业务影响时,运维人员才能发现和着手处理。如何化被动为主动,突破困境?让主动运维、持续运维成为常态,就需要详细拆解云运维核心体系,厘清运维重点,寻求技术突破,跳出运维管理怪圈。
站在管理的角度,运维的核心主要是人员、流程、技术、数据四个方面。人员是运维操作的执行者,流程是运维操作的既定范围与边界,技术是运维的武器,数据能够更好地赋能运维。
在人员层面,任何公司做好运维的第一步是拥有一个负责运维职责的团队。运维体系组织构成主要有技术支持中心、专家支撑中心、平台运维中心和职能组。以平台运维中心为例,人员组成有IDC物理环境维护、基础设施维护、网络运维工程师、平台运维工程师和工具开发组。这些人员保障着云平台的日常运行。
在流程层面,随着云时代场景下的系统规模不断扩大、目录日趋复杂、运维管理的无序工作状态日益加剧,这对运维管理水平也提出了更高的挑战。运维管理流程建设完备程度成为了运维效率的重要决定因素。运维流程管理设计遵循国际ITIL标准,整体流程从设计、转换、运营等角度出发,对日常运维工作中的目录管理、可用性管理、容量管理、变更管理等等进行规范和定义。
在技术层面,包括CMDB、监控指标项及模型、告警平台这几类运维工具和运维自动化、持续运维等技术。他们推动着运维的发展,帮助运维人员从简单重复的运维问题中解放出来,让运维人员能够更快处理重要问题。
在数据层面,数据是运维很关键的部分。它包含的不只是运营的工单流程或者是事件告警,还包含了知识库、平台所有的监控数据。很多公司或者说很多运营人员并不是很重视数据,实际上,数据在发现问题、解决问题和优化方案的时候起了非常大的作用。
看点四 云运维的实际过程中有哪些注意事项?
本次直播课上,Jason根据信服云深耕云计算多年的经验,给出了四点建议:
(1)传统运维的自动化转型
企业数字化转型的前提是企业需要有IT基础信息化建设以及IT基础信息的保障。在云化的大趋势下,中小企业更应该专注自身发展和数字化转型。在运维层面,可以通过服务化采购,托管式云服务的方式将平台运维交由云服务商来做。大型企业则应加强投入,组建高质量运维团队,建立完备流程、分工职责,利用技术和工具实行主动运维,向自动化演进。
(2)落地和执行
在落地的执行阶段,应以人员为根本,流程为基线,CMDB、监控、告警为三大基石,坚定不移走自动化战略。同时给予更多资源让运维有发展的空间。
(3)数据安全
企业要敬畏生产环境,流程设计一定要规避低级错误,而且要保证数据的一致性,数据的防篡改等。
(4)拥抱风险
任何产品都会存在问题,拥抱风险。企业可以跨部门、跨体系建立一条快速解决通道以及自动化高效修复作业程序,保障运维安全。