技术博客

    技术博客  >  可靠性实践细节曝光:某智能制造集团,以深信服分布式云承载核心业务系统
    可靠性实践细节曝光:某智能制造集团,以深信服分布式云承载核心业务系统
    背景图 2024-10-08 11:24:03

    领跑AI品牌banner

    本期焦点

    某智能制造集团以智能制造、工业互联网为主攻方向,正构建端到端的数字化体系,打造国家级智能制造示范工厂。在集团数字化转型过程中,传统架构难以满足业务连续性要求、无法支持敏捷的数字化业务,同时运维管理复杂。为了实现新型数字化业务的高可靠承载以及云IT基础设施的统一运维管理,集团决定使用深信服分布式云解决方案构建统一的IT基础设施底座,承载各个生产基地的生产数字化业务,及总部的经营管理业务,尤其是对MOM系统的承载

    应用场景介绍

    制造运营管理(Manufacturing Operation Management)指通过协调管理企业的人员、设备、物料和能源等资源,把原材料或零件转化为产品的活动。MOM主要覆盖生产制造过程中12种类型的业务活动,通常也被认为是MOM系统应该具备的功能模块,其中包括:基础资源管理相关业务(资源分配与控制、文档控制、人力资源管理三类)、与生产计划及组织相关的活动(详细工序排程、生产派工、工艺过程管理、数据采集、生产跟踪、质量操作管理、物料管理及跟踪、绩效分析)。

    ISA95—2010 定义的 MOM覆盖业务活动

    ISA95—2010 定义的 MOM覆盖业务活动

    传统MES更多的是以生产线为中心,围绕追溯和防错等板块,满足单工厂、单组织的需求,而MOM作为一个集成化软件平台,在集成标准化、开放性和云部署方面都比MES更强,MOM系统主要关注订单的计划、管理和执行、生产批次的可追溯性、与ERP系统的连接、质量管理和制造智能等。从MOM概念提出的初衷来看,其目的确实是为了解决MES的局限性,是制造执行系统 (MES) 的演变,MES的工作是MOM的一部分

    MOM系统适用行业包括:汽车制造、电子制造、半导体制造、装备制造、药品制造、食品和饮料加工等。

    应用架构介绍

    典型MOM系统的功能及技术架构如下图所示:

    MOM功能架构

    MOM功能架构

    MOM系统的常见部署场景包括:全物理机、虚拟化+数据库一体机、虚拟化+外置存储、私有云等,此前用户在各个工厂的MOM系统主要通过:物理服务器、或VMware虚拟化+数据库一体机的方案来承载。

    需求与痛点

    • 高可靠需求:

    MOM通过整合企业内外部资源,实现生产过程的全面优化和精细化管理,对可靠性与可用性要求非常高,IT部门需要保障MOM系统全年无宕机,持续稳定的提供服务,但是目前MOM系统的部分组件服务(如MOM报表服务、MOM文件服务等)为单体应用,无高可用机制,因此,当底层IT硬件发生故障或机房发生故障时,MOM无法正常提供服务。用户希望底层IT基础设施平台在硬件或机房层面故障时,MOM系统的业务不受影响,保障RPO为0,RTO为分钟级

    • 建设维护成本高:

    MOM等生产系统存在大量的组件服务,使用物理服务器承载时需要使用很多个主机节点,主机间资源无法复用,无法根据各物理机负载情况调节资源分配,服务器资源存在浪费,希望提高资源利用率

    • 传统架构运维管理复杂:

    各个机房的物理服务器数量多,资源就绪时间长,无法弹性。而生产基地位置分散,传统架构下无法在总部进行集中管理,运维、安全等方面存在挑战

    • 生产基地IT运维能力不足:

    生产基地物理位置多在三、四线城市,远离集团总部,配置专业的IT运维团队成本高,运维人员能力相对较弱

    方案设计

    基于用户生产制造基地数量多、物理位置分散、远离集团总部的业务分布现状,以及总部和各个基地已有的专线网络,以用户总部数据中心为核心建设总部中心云平台,在各个生产地的机房部署分支云平台,在中心云平台上部署统一云管理平台,构建“总部+工厂”以超融合架构为底座的统一分布式云,替换传统IT架构,实现IT基础设施的统一管理、统一运维。同时,为满足生产基地MOM等应用系统的高可靠承载,规划建设园区级的双活云平台,保障生产基地业务的稳定运行。

    统一云管理平台

    总部中心云平台和各个生产基地分支云平台主要承载的业务系统如下表:

    云平台主要承载的业务系统

    在分布式云方案中,基于不同的业务承载需求,主要云平台的集群节点数量规划如下:

    集群节点数量规划

    可靠性设计效果验证

    效果验证的验证目的

    测试的主要目标是验证深信服超融合双活方案可以对MOM系统提供高可靠的承载,在集群、网络、数据中心发生故障时仍能够保障MOM系统正常提供服务。

    本次测试在用户现网中采用“超融合双活架构+物理机”的方案来承载MOM系统,4台超融合服务器(2+2)组成双活架构承载MOM应用服务及异步从数据库,2台联想服务器承载MOM主数据库及同步从数据库。延伸集群上业务部署位置规划原则如下:

    • 数据中心机房的主故障域优先承载对外提供访问的业务;

    • 生产机房的备故障域优先承载生产终端需要访问的业务;

    • 不同网段业务分别通过不同机房进行访问。

    验证测试环境说明

    MOM系统组件的可靠性要求、RTO、RPO,以及部署资源需求如下表所示:

    MOM系统组件的可靠性

    本次测试主要以MOM报表服务器作为测试业务验证,测试在网络、集群等发生故障后的高可靠保障机制。

    整体的测试组网架构如下:

    • 数据中心机房服务器交换机和生产机房服务器网关交换机通过配置VRRP虚拟网关(单网关主备模式)给业务,同时配置NQA/BFD联动VRRP切换。

    • 网络拓扑中,通过两个物理AD建立主-主双活(主心跳走二层,备心跳走三层),物理AD做应用负载和业务发布。

    • HCI仲裁连接到生产机房交换机(说明:生产机房交换机不能故障,否则影响生产和超融合)。

    • HCI业务网络、管理网络、存储网络都通过数据中心机房和生产机房之间的光纤专线网络打通。

    • 生产中心应用和外部应用访问通过域名访问MOM系统,通过AD对外发布业务。

    对外发布业务测试组件资源需求表测试环境超融合集群服务器配置表

    验证测试过程与结果

    场景1:数据中心机房防火墙故障

    数据中心机房防火墙故障场景

    1. MOM报表服务器运行在主故障域,需要对外部应用和生产应用提供访问。

    2. 服务器交换机配置BFD探测到出口核心(交换机上配置探测时间间隔50ms,探测超时时间150ms)。

    3. 当数据中心机房的防火墙故障时,外部用户无法通过数据中心机房网络访问主故障域上的应用,此时服务器交换机上配置的BFD探测超时,服务器交换机LAN口主动DOWN掉,VRRP执行主备切换(VRRP生效约200ms),备用网关迅速切换为Master,主故障域上的业务通过生产机房对外提供业务,外部用户通过生产机房的网络访问主故障域上的业务。 

    4. 因此,当数据中心机房防火墙故障时,主故障域上承载单体应用MOM报表服务器的虚拟机不需要HA即可对外提供高可靠的服务。

    5. 现场测试网络整体切换时延小于1s,满足RTO 5分钟的要求。

     

    场景2:服务器交换机故障

    服务器交换机故障场景

    1. MOM报表服务器运行在主故障域,需要对外部应用和生产应用提供访问。

    2. 当服务器交换机故障时,外部用户无法通过数据中心机房网络访问主故障域上的应用,这种情况相当于VRRP网关的Master故障,此时VRRP执行主备切换(VRRP生效约200ms), 备用网关变为Master,主故障域上的业务通过生产机房对外提供业务,外部用户通过生产机房的网络访问主故障域上的业务。

    3. 因此,当数据中心服务器交换机故障时,主故障域上承载单体应用MOM报表服务器的虚拟机不需要HA即可对外提供高可靠的服务。

    4. 现场测试整体切换时延小于1s,满足RTO 5分钟的要求。

     

    场景3:业务交换机故障

    业务交换机故障场景

    1. 数据中心的服务器交换机配置BFD探测AD,当探测不到AD时,把上联口down掉,此时网关VIP切换到生产机房的服务器网关,出口路由的OSPF会重新寻址到生产服务器网关这台交换机。

    2. 业务交换机故障时,旁挂的AD探测不到主故障域上的MOM报表服务器业务,无法对外提供业务访问,外部用户访问业务中断。此时相当于超融合集群的物理出口连接的业务网口故障,因此承载MOM报表服务器的虚拟机需要HA,超融合平台的网络离线响应检测时间设置10s。

    3. 主故障域上承载MOM报表服务器的虚拟机通过HA机制在备故障域拉起 ,由于AD配置的是双活,因此当承载MOM报表服务器的虚拟机HA到生产机房的备故障域后,生产机房的AD探测到备故障域上MOM报表服务器的业务正常时,生产机房的AD会对外发布业务并提供访问服务。

    4. 现场测试虚拟机HA后重启恢复时间小于2分钟,满足RT0 5分钟的要求,同时延伸集群通过副本机制实现业务数据跨站点同步,实现RPO=0。

     

    场景4:主故障域整体故障

    主故障域整体故障场景

    1. 当数据中心主故障域整体故障时,主故障域和备故障域之间的管理网/业务网都会异常,与“业务交换机故障”的场景一样,主故障域上承载单体应用MOM报表服务器的虚拟机通过HA机制在备故障域拉起。

    2. 承载MOM报表服务器的虚拟机HA成功后,数据中心机房的AD探测到MOM报表服务器的业务恢复后,正常提供服务,网络设备无需切换。

    3. 现场测试虚拟机HA后重启恢复时间小于2分钟,满足RT0 5分钟的要求,同时延伸集群通过副本机制实现业务数据跨站点同步,实现RPO=0。

    针对MOM系统中的主/备应用,分布式应用,分别将主备应用、分布式应用部署在主故障域和备故障域,参考单体应用的故障场景进行故障模拟测试,验证应用的高可靠承载能力,均能满足业务对底层虚拟机所要求的RPO、RTO指标

    云平台运行效果与最佳实践

    异地多资源池统一管理运行情况

    统一云管理平台管理10个物理位置分散在全国各地的超融合架构的集群资源池,纳管一个VMware集群。

    云平台运行云平台运行

    MOM系统资源池运行情况

    针对电子制造MOM系统数据交互频繁、并发数据量大、时延要求高的特点,采用SSD构建全闪资源池进行承载,从实际运行情况来看,在业务高峰期间平均IO读数据量:0.8GB/s,平均IO写数据量0.3GB/s的高吞下,平均IO读时延3ms,平均IO写时延2ms,实现MOM系统的高性能、高可靠承载。

    MOM系统资源池运行情况MOM系统资源池运行情况MOM系统资源池运行情况

    MOM系统应用最佳实践配置

    制造基地园区双活云平台不同应用的可靠性提升建议方案总结如下:

    可靠性提升建议方案总结

    方案价值

    生产业务稳定承载,消除单点故障

    生产基地云平台的双活架构实现MOM等生产业务系统的稳定可靠承载,保障生产业务连续性。

    敏捷弹性的数字化转型IT底座

    分布式云构建资源整合、数据共享、业务协同的IT服务新模式,资源就绪时间从几小时缩短到几分钟。

    大幅提升IT运维效率

    云管理平台进行统一管理,利用分布式云的智能运维能力,实现总部对各个生产基地云平台的集中监控、运维管理,运维效率提升40%

    减少IT设备数量,降低成本

    通过云平台替换物理服务器,以及基于云管理平台的精细化运营管理能力,极大提升资源利用率,减少服务器采购和能源消耗,减少20%

     

    分割线

    云话技术是深信服打造的一档云技术内容专栏,将定期为大家推送云计算相关的技术解析、场景实践等内容,为大家深度解析深信服在云计算领域的创新能力、技术动态、场景应用及前瞻分析。