文章

高可用及可靠性备份系统在PLM项目的应用

2024-10-12向松涛

485阅
为保障公司PLM系统长期可靠有效运行,我们借助超融合平台、HA高可用软件和备份一体机实现了系统高标准的部署及运维需要,满足了系统运行可靠性、可用性及数据完整性和安全性的要求,助力公司的数字化转型和智能制造不断前行。
前言

       四川华丰科技股份有限公司坐落于中国科技城-四川绵阳,是国家“一五”时期重点建设企业之一,隶属于四川长虹电子控股集团有限公司。公司是全球光电连接器及互连方案提供商,2023年正式在科创板上市。公司近年来一直在进行智能制造数字化转型,原有的PLM系统在功能和应对快速研发方面已不能适应公司的发展和数字化转型要求,故在2023年至今启动实施了新的PLM项目建设。为保证新建PLM系统的运行可靠性和数据安全,我们在项目建设中完成了系统的热备高可用和可靠性备份的规划及实施

一、现状及需求

       随着PLM的不断发展,规划和实施的功能及核心数据对运维的要求也越来越高。长期以来,公司依赖于2014年建成的原系统server+DB+control+store的虚拟机部署方式,一旦物理机、虚拟机及系统出现故障,近千用户只能等待运维人员的修复,耗时最长曾达到7日。另一方面,恢复的系统会丢失定时备份时间间隔期间的数据,这些问题严重影响到设计、生产和销售的正常开展,也无法满足客户快速高效响应的需求。借助新PLM建设契机,在总结痛点的基础上我们提出如下需求:

       1、需要可靠的基础硬件平台承载,出现单个硬件故障仍然能保证物理设备的正常运行。

       2、建设两套系统同时运行并实时同步数据,切换策略触发时,故障系统自动切换到正常系统,RTO控制在分钟级。故障系统修复,双系统进行数据热同步后继续运行。

       3、需要正式系统和测试系统数据一致,保证功能开发、版本升级、业务验证的可用性和可靠性。

       4、实时的数据库和业务备份恢复能力,故障损失数据RPO趋近于0,系统恢复时间RTO控制在2小时内,定时备份仅作为数据存档。

RTO和RPO示意图

图1 RTO和RPO示意图

       5、测试系统不做常备。需要验证功能、软件测试或灾备演练时,短时间拉起一套与正式系统相同的测试系统,用完即释放资源。

二、蓝图规划

       配合新的PLM建设,我们通过与PLM服务商和高可用服务商的三方协作,规划实现上述需求的方案。

       1、采用华为fusioncube超融合虚拟化平台解决系统承载稳定性和软硬件可靠性问题。

       2、采用HA高可用软件实现并行系统的实时同步和热备,固化切换策略和触发机制。

       3、采用备份一体机进行系统整机、APP、store和DB的备份且具备实时/定时备份、CDP持续数据保护、CDM数据副本管理、智能闪回、挂载恢复、裸机恢复等功能。

       规划拓扑图如下:

高可用和备份恢复规划图

图2 高可用和备份恢复规划图

三、解决方案

       1、生产端:高可用热备集群方案 

       为了避免应用、数据库和文仓系统单点故障,采用HA高可用解决方案,在不改变现有软硬件架构情况下,主备机部署相同的操作系统、应用软件和后台数据库,构建1-1架构的高可用集群。主服务器产生的数据将由HA软件实时复制同步到备用服务器中,实现数据冗余备份。客户端通过虚拟IP访问业务,当主服务器节点出现故障且短时间(如60秒内)未自行恢复,如:操作系统宕机、应用服务异常、数据库异常、网卡故障等情况,触发切换策略,HA软件会自动将应用系统切换至备用服务器节点,以实现应用系统的连续不间断运行。主服务器故障恢复后,手动/自动从备用服务器向主服务器进行数据同步并恢复到主服务器运行。

       2、备份端:备份一体机方案

       在本地机房部署备份一体机,对生产系统(单机和集群)进行整机及数据备份保护,将生产主机的操作系统、应用数据包括存储中数据集中备份至备份一体机。当生产主机故障,触发切换后,设备自动对热备机进行数据备份,保证数据完整性和连续性。

       备份一体机提供了数据层面的保障,持续实时保护生产主机的数据,以卷设备为备份对象,备份主机磁盘上的完整数据,可降低备份交付和运维难度。CDP持续数据保护,实时记录每一个IO的数据和日志,以提供任意时间点的数据恢复粒度。

       如遭遇硬件故障、软件异常、感染病毒、人为误操作等意外事故导致数据不可用时,备份系统结合需求提供了多种数据恢复方式,以卷级快速恢复业务数据,以裸机备份快速恢复整机系统,以导出恢复按需选择数据恢复、查询使用历史数据。

       同时,备份一体机能在2小时内通过备份数据创建与正式系统一致的测试系统,在代码验证、系统升级测试、补丁测试、容灾演练等方面实现运维需求,因在测试完成后释放资源,故节约了软硬件的投入成本和运维成本。

       3、实时备份:CDP备份

       利用备份系统基于块的复制技术和主流文件系统解析,第一次全备时只备份生产卷中有效数据,后续备份采取增量的方式,可以是实时备份,也可以是定时备份,其中实时备份利用CDP功能实现,可以配合快照计划定时生成快照;计划备份每次完成时即刻创建一个快照;可基于快照克隆数据副本,将副本数据卷提供给生产主机或第三方主机直接使用,实现即时恢复和挂载使用。

CDP备份原理图

图3 CDP备份原理图

四、部署实施

       根据蓝图和解决方案,我们从软硬件购置、软件部署、策略固化和落地实施等方面开展了多项工作。

       1、部署框架

       ●系统环境

系统环境图

图4 系统环境图

       ●网络环境

       网络类型:局域网

       带宽:服务端光纤万兆,客户端千兆

       ●软件环境

       操作系统:Windows Server 2016/2019 Datacenter、cenos7

       数据库:MYSQL数据库

       应用:应用、Web应用等

       2、落地实施

       (1)双系统热备集群

       ●创建生产端业务、数据库和文仓双系统虚拟机热备集群。每台虚拟机安装适配操作系统的HA的客户端,配置心跳线并设置IP漂移。

       ●安装控制台,建立并固化基于硬件、应用系统、操作系统、数据库、网络等故障触发策略和自动(手动)处理策略。

       ●初始化生产机和热备机,测试数据同步、心跳、IP漂移是否生效,验证故障条件下自动触发报警和启用切换策略是否正确。

       ●初始化完成,利用控制台实时监测系统运行状态,正式上线并实现业务7x24小时连续运行,整个切换过程不需要系统管理员人工干预。

       (2)备份恢复系统

       ●部署备份一体机,安装服务端和客户端应用程序并配置应用环境。

       ●制定APP服务器定时备份策略:每月1号所有虚拟机完整备份并自动删除2个月前的备份数据;每日晚上22:00定时增量备份。

       ●制定DB、Store服务器实时备份策略并启用CDP功能,实现到秒级的细颗粒度抓捕效果,将备份窗口降至可以实现的最小值,数据丢失的间隔误差达到秒级,保证重要数据几乎无丢失。另根据具体情况设置了每月1号的全备,全备后自动删除2个月前的备份数据。

       ●配置CDM数据副本管理功能,从生产环境通过快照技术获取有数据一致性保证的数据副本,这个“黄金副本”数据格式是原始的磁盘格式,实现了再虚拟化成多个副本直接挂载给服务器,分别用于备份恢复、容灾或者开发测试等,不用恢复即可直接调用,有助于快速的系统恢复。

备份及恢复示意图

图5 备份及恢复示意图

       3、实现的功能

       (1)主备系统HA管控

       实时数据镜像‌:生产主机的数据实时同步至备用主机,保证了数据源和数据备份的一致性‌。

       资源故障自动切换‌:实时监测应用、服务器等资源运行状态,一旦发现故障,自动切换至备机,确保业务连续运营‌。

       全方位的监测与预警‌:深度监控CPU/内存资源使用率,进行智能预警和策略切换;持续监测网络资源,确保业务不中断‌。

双机热备切换

图6 双机热备切换

       (2)支持任意时刻数据恢复

       随时恢复任意时间点数据,可应对病毒感染、逻辑错误等事故,最大化降低数据丢失量(RPO≈0)。

任意时间点数据恢复

图7 任意时间点数据恢复

       (3)多种高效数据恢复方式

       智能闪回:只恢复生产主机数据破坏点和恢复数据(快照)之间的差异,闪回方式会自动侦测是否启用,分钟级即可恢复完成。

       挂载恢复:快照副本通过ISCSI输出为磁盘设备,直接挂载使用,可快速恢复业务最大化缩短停机时间;挂载恢复也实现了异机恢复功能。

       裸机恢复:实现将整机的快照副本直接恢复至原生产机、第三方主机,目标主机无需预先安装操作系统。可在P2P、P2V、V2V、V2P多种方式下进行数据恢复或整机迁移。

三种恢复方式

图8 三种恢复方式

       (4)PLM业务在线恢复

       实现了无需关注要恢复的数据量大小,优先恢复业务,后台恢复数据的功能,RTO达到分钟级。在应急挂载恢复、裸机恢复等情况下,结合业务在线恢复功能,避免了恢复数据期间,业务长时间停机不可用的情景。

业务在线恢复

图9 业务在线恢复

       (5)PLM系统的容灾演练

       在不新增软硬件投入的情况下,满足了PLM容灾演练需求。在备份一体机内启动演练虚拟机实例,用于容灾演练、数据验证、开发测试、数据抽取等场景且业务模拟时对生产机无任何影响,无须关闭。

容灾演练

图10 容灾演练

       (6)Web管理运维简易

       基于Web浏览器的用户管理界面,友好的向导式配置方式和恢复方式,报表式界面,管理员能更加清晰掌握运行状态,实现了跨平台远程集中管理备份。

运维控制台

图11 运维控制台

五、达到的效果

       1、PLM双系统热备安全可靠

       生产端业务和数据库双机热备集群,实现基于物理机架构的双机热备集群,实时监控容器应用系统运行状态,实时复制主机数据至备机;主机故障自动切换,整个切换过程不需要系统管理员的人工干预,实现业务7x24小时连续运营。

       2、轻松备份及恢复数据

       轻松实现对生产机数据备份,备份端提供了可靠有效的最新实时数据、CDP数据和快照数据。备份支持数据压缩、数据加密、多链路传输和带宽管理等技术,采用文件系统有效数据解析方式,只备份卷中有效数据,极大提高了备份效率。数据恢复功能实现了2小时内快速恢复系统及应用环境的需求,避免了极端情况下的系统长时间停运。

       3、适配PLM双系统热备环境

       无缝适配现有PLM系统的单机、双系统集群、虚拟化集群等混合IT环境,在不改变双系统热备集群架构基础上实现集群环境数据的定时/实时备份。实现了双系统集群和数据整机备份双重保护,安全有效的保障了PLM系统运营的连续性和数据安全,满足行业法规信息化建设对数据安全等级要求。

热备环境

图12 热备环境

结论

       为保障公司PLM系统长期可靠有效运行,我们借助超融合平台、HA高可用软件和备份一体机实现了系统高标准的部署及运维需要,满足了系统运行可靠性、可用性及数据完整性和安全性的要求,助力公司的数字化转型和智能制造不断前行。
责任编辑:程玥
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。
读者评论 (0)
请您登录/注册后再评论