本文来源于:2019第三届农村中小金融机构科技创新优秀案例评选,作者:湖北农信

湖北农信:基于“策略树构建”的自动化运维管理应用与实践

2019-10-21 关键词:农信/农商行,数据中心,运维管理,数据建模,开发运维5941

项目背景及目标

一、项目背景

湖北省农信社于2012年投产建成新一代银行综合业务系统,该系统在加快全省农商行业务发展,促进管理规范,提升社会形象、地位等方面已发挥了无可替代的积极作用。但随着行内业务的快速发展,数据量的爆发性增长,行内业务呈现数据量大,类型繁多,价值密度低,时效高的特点。这些特点,导致了对行内运维环境的管理难度增加,主要体现在以下几个方面。

 

1、在当前复杂的设备管理环境下,设备管理策略分类仍然依赖个人经验判断,不利于软件标准化安装和更新。湖北省农信社数据中心包含多种类型的软硬件设备,尽管可以自动化强制执行配置基线标准,但是人工对设备管理策略分类的方式,会导致软件的安装和更新标准化过程中极易出现以偏概全,基线标准遗漏的情况。

 

2、分析基线差距,制定基线实际上是一个需要动态跟踪的过程,而传统基线管理并不支持。为了更好的减少基线差距,需要跟踪基线的更改过程,现代软件定义数据的要求下,是可以满足这种需求的。而传统的基线对比分析,只会分析当前基线与理想状态的指标差距,不会记录修改配置项对基线差距的影响,也就导致了不可能为这个基线优化过程提供实践基础。

 

3、软件状态判断标准采用简单静态阀值的方式,不适合对一些监控项随时间周期呈波动曲线变化的实际情况。传统的监控状态判断方式,是给状态项定义两个静态的数值来显示健康状态。在湖北省农信长期的运维过程中发现,有部分运行状态呈波动变化的业务中,静态阀值方式并不能真实反应出软件状态信息。

 

4、业务系统配置项关联性不强,发生故障后,定位相对比较困难。湖北省农信对配置项状态的监控过程中,由于一台服务器包含好几种监控项,当某一个监控项发生告警,往往会触发其它配置项的告警,反而影响到了根本原因的定位。

 

5、业务的日常巡检高度依赖于脚本,形成了脚本泛化。湖北省农信内包含了多个维护厂家,每个厂家都有自己的巡检规则,再加上巡检脚本本身的迭代和脚本内容上的重叠,更加剧了这种非标准的混乱状态。

 

二、项目目标

1、基于“策略树”构建的“集中管理模块”和“智能运维分析模块”。在设备类型众多,软件环境复杂的运维环境中,建立一个按照配置基线标准分类,实现软件自动安装、升级更新,动态跟踪软件状态,定时自动巡检的标准过程。

 

2、建立集中管理体制,方便运维人员集中管理,提升运维工作效率。目前湖北省农信应对基础软件的的安装是采用虚拟机模板或人工安装的方案,这种方式既不利于对软件的统一管理,也不利于对软件状态的跟踪。建立集中管理平台后,可以将软件安装,补丁更新升级,分析基线差距,自动巡检等功能进行统一调度。

 

3、建立一种自动化分类配置策略,以满足行内基线要求。这种分类方式,即可以大缩小基线的重复部分,还可以记录所有的基线配置情况,为行内人员制定规范,标准提供数据依据。

 

4、区别与传统的静态告警阀值方式,建立一套基于“系统性能曲线动态阀值”的状态监测方式。在巡检过程中,帮助行内运维人员对异常检测,预测,容量规划分析结论更为准确。

 

5、建立业务配置的关联关系群。发生故障后,能通过建立的配置关系群,快速定位故障根本原因,缩短故障处理时间,减少故障带来的经济损失。

 

6、实现创新方法的广泛应用和推广。该项目在行内成功运行并取得稳定效果后,将向同业和友行进行推广应用,以取得广泛的社会效益和经济效益。

 

项目方案

一、架构设计

项目框架主要包括两个部分:

 

(1)用于支持及分析标准过程的智能分析模块。智能分析模块主要包括3块内容:配置策略行为收集,配置项检查路径规划,告警阀值动态制定。

 

配置策略行为收集—配置项的确认,是制定“策略树”的前提条件。“配置模式的识别”自动化管理软件安装,自动更新的关键。虽然通过自动化可以通过强制执行配置标准方式来降低管理设备配置的复杂程度,但是关于如何定义配置的管理策略仍然是一个手工的过程。配置策略行为收集就是一种通过监视管理员随时间进行配置更改,以此来自动发现资源管理策略以及根据此类策略对设备进行分类的方法。

 

配置项检查路径规划--通过“配置策略行为收集”,可以确定包含哪些配置,提取并对这些配置项状态的跟踪是一个需要权衡的问题。“策略树”就是通过对配置项的属性数据进行处理,利用归纳算法生成可读的规则和决策树,然后对新数据进行分析,构建了一组对配置项检查的树状的决策图。

 

告警阀值动态制定—告警的结果也是影响到“策略树”生成规则的一个重要因素。根据业务系统随时间周期变化的特点,我们引入了统计过程控制图的思想,在时间序列的历史行为中寻求相似的模式,以便基于周期信息准确设置动态阀值的常态界限。

 

(2)集中管理模块负责执行工单内容,并将智能分析结果实施于具体的客户端上。利用集中管理模块,可实现软件的自动安装更新,分析基线差距,制定日常巡检规则的功能。

 

二、项目建设的主要思想

本项目建设针对省联社实际业务特点,依据目前我社运维管理过程中遇到的难点及困难,以“行内合法合规为标准,动态看待运维资源状态,建立集中运维管理平台”为目标,拟定主要建设思想如下:

 

(1)建立适合湖北省农信社的自动化集中管理平台。湖北省农信社在部分系统上实现了基于自动化脚本的批量安装和自动化部署、但是先前的做法可重复利用化程度很低,每当有项目需要进行自动部署时都需要针对该项目重新进行配置,工作量大且效率低下而且没有很好的版本管理和回退机制,也缺乏一个很好的管理界面来进行管理,通过本项目来实现快速部署海量系统及应用的问题。

 

(2)保证基线的合法合规,并对这种状态保持跟踪。湖北省农信社已经制定操作系统配置基线,针对各种操作系统定义了一系列的标准,这些标准需要人工来实现以及更新。参与服务器运维的人员众多,每个人的能力、对操作系统的理解程度以及使用习惯的不同会造成服务器的配置存在很大的差异。本项目通过一个集中式管理界面,利用社里的运行规范结合“策略树”, “监视管理员行为”的算法来实现基线差距分析的功能,从而找出个体与规范之间的差异来消除不利影响。

 

(3)通过历史工单数据梳理业务配置项管理,以关联的方式来看待软件。本项目中通过“监视管理员配置更改行为”的方式,将所有软件的配置自动进行分类,运用“策略树”方式关联了配置项之间的关系,加强了运维人员对业务系统的管控能力。

 

创新点 

(1) 在传统自动化运维客户端管理上的突破。创新实现无客户端模型,不需要在被管控主机上安装任何客户端,对原有系统没有影响。传统的自动运维管理工具,需要在客户端上安装代理软件,这样做的结果不仅初始化过程工作量大,而且因为代理软件有可能与业务系统软件冲突,影响业务系统的正常运行。本自动运维平台基于ssh协议框架,降低了初始化安装的复杂程度和软件冲突影响风险。

 

(2)基于基线标准的自动分类方式,保证了基线标准制定的全面性,也节省了制定的时间。湖北省农信社大概有1000台服务器,约3000台虚拟机,每个虚拟机都有自己的配置。本项目中采用了基于”管理员配置更改行为“的方式,通过对资源配置使用信息的相关性规则,自动发现配置策略。由于这种方式不是以人的主观臆断为准则,而是通过现有数据的情况制定配置策略规则,因此制定的配置策略更有根据,更为全面。

 

(3)实现了对基线状态变化的持续跟踪。传统的基线管理,只会记录基线状态的终属性值,不会记录基线中配置项的变更过程及配置项更改对基线的影响,而本项目使用的更改,可以记录所有的基线修改过程,从历史的基线修改记录中自动提取基线修改策略。

 

(4)能自动建立配置项关联关系,降低了故障处理时间。本项目使用的“策略树”是附加概率结果的一个树状的决策图,是直观地运用概率分析的图法,表示了对象属性和对象值之间的一种映射关系,树中的每一个节点都表示对象属性的判断条件,其分支表示符合节点条件的对象,树的叶子节点表示对象所属的预测结果。采用该种方法,在故障发生的时候,能够快速,高效地找到故障根源,加快解决问题,在一定程度上降低上降低了故障的持续时间,减少了因故障带来的损失。

 

(5)利用“时间周期的动态阀值”判断系统及应用运行状态。传统的静态阀值简单的将资源的使用情况做一个范围区分,超过阈值范围时通知管理员故障信息,这种方法适合运维性能稳定的业务,但是对于湖北省农信部分性能要求比较高的业务系统不太适合,因为这部分包含批处理的业务系统性能与业务数据有关,而业务数据往往有一个时间周期的规律。所以采用动态阀值的方法后,可以发现运行过程中存在的问题。

 

(6)采用“集中管理”方式优化了运维管理人员的日常巡检流程。建立集中管理平台后,原本日常巡检需要人工进行数据采集,数据分析,编写巡检报告的过程,变成了配置巡检调度,将原本的重复的执行工作交给了软件操作,减少了人力成本投入,提高了工作效率。

 

(7)为行内基线标准的制定及更新,提供了数据基础。以往定义配置基线依据于管理员的经验和行内的规定,这样做产生的后果往往不够全面,或是不沟通精准。本项目采用基于“管理员配置更改行为”的方式自动发现、归类所有的配置策略,管理员以此收集的配置策略为基础,制定的配置策略更具备事实基础。

 

技术实现特点

该项目具有以下几个特点:

 

1、基于“管理员配置变更行为”的配置策略自动生成。我们通过收集管理员所有的配置策略更改过程和配置策略更改结果,将配置策略按需进行分类。新加入的软件或设备都必须处于已做好分类的配置管理策略之下,这样就避免了配置不统一,或配置策略更改不符合行内规定的情况。

 

2、利用“策略树”建立了业务软件配置项之间的关系。我们通过收集历史处理工单的数据,分析在故障发生时,配置项之间的关联关系,梳理了业务逻辑。特别是在分析生产故障上,定位故障根本原因上,大大缩短了时间,减少了经济损失。

 

3、本软件具备随时间变化波动的对设备和软件状态跟踪和运维管理特点。对于告警阀值的制定,除了使用传统的静态阀值方式外,还可以选择依据于业务性能波动的动态阀值监控方式。

 

4、在日常运维管理过程中,实现对日常巡检内容的定制化。可以通过集中管理平台中的playbook功能,依据业务的重要级别,可以裁剪不同的巡检内容。

 

项目过程管理

2018年7月,项目任务书下达。

 

2018年9月,需求分析完成。

 

2018年11月,提交系统详细设计说明书及测试计划。

 

2019年1月,集中管理模块开发完成。

 

2019年3月,智能分析模块开发完成。

 

2019年4月,集成测试及项目试运行。

 

2019年5月,项目上线。

 

运营情况

使用“策略树”整体构造软件配置项管理,基于“监视管理员配置更改行为”、基于“时间周期的动态阀值”的算法打造的跨平台自动化运维管理软件在湖北省农信社开发测试私有云环境里已成功运行4个月,积累了宝贵的实践经验,形成了重要的科技成果。其所包含的“监控管理员配置更改行为”、“策略树”、“基于时间周期的动态阀值”,均有极好的应用效果,主要体现在以下三个方面:

 

(1)项目研究的基于“管理员配置更改”的算法,提供了一种合乎基线标准的自动分类体系,保证的软件安装、软件更新的标准化。针对银行业私有云环境的资源标准化、自动化、合规、安全运维管理目标,软件的安装及更新,都归属于自动分类体系,因为这些分类都来源于基线标准,所以软件的自动安装及更新都无法在标准化的范围外执行。

 

(2)以研究实践成果“集中管理平台”的自动化管理机制,搭建了一个在大型私有云环境资源管理迈向智能化常态化的方法论。它使用“策略树”构建软件配置项关联关系,利用“管理员配置更改”自动分类软件安装与更新的基线类别,利用“时间周期动态阀值”获取业务动态变化的状态,从一个新的角度阐述了对运维的管理工作。针对大型企业尤其是银行内科技金融项目数量爆发性增长、发布变更越来越频繁、运营人员数量少、重复手工工作多的问题,提出了一种按基线标准分类,自动管理的高效方法论。

 

(3)利用“集中管理平台”,控制了巡检脚本泛化的问题,优化了日常巡检流程。这种方式避免了各厂商判断标准不一,隐私保护的问题,将所有的日常巡检工作统一到“集中管理平台”进行黑盒管理,指标判断标准统一化后,过滤掉了不适用的脚本。同时也因为人的工作托管给机器执行,进而节省了大量的人力资源,降低了生产成本。

 

项目成效

1、通过梳理整合,将原有的巡检流程进行优化,提升了行内的巡检效率。通过自动化统一运维平台的流程脚本实现自动化改造,逐步将原有的各类巡检操作实现自动化处理,提高巡检效率。初步统计,湖北省农信约有180多套业务系统需要定时巡检,通过人手操作,从执行到获取结果,需时约90个人时,现在通过批量处理,从执行到获取结果列表,仅需不到3个小时,效率提高30倍。

 

2、基础软件安装工作的效率活动了明显提升,评估每年至少节省了约600人时。从历史数据中统计单台基础软件的手工安装需要至少4人时,湖北省农信基础软件每年的初始化工单约300件。单纯依靠手工操作,大概需要1200人时(4*300),而采用本项目中的集中管理平台方式,单台基础软件安装耗时不到2人时,对比手工操作节省约1200人时,相比脚本化操作节省600人时,基础软件的安装工作明显得到了提升。

 

3、对于一些性能要求比较高,有批处理任务的系统,动态阀值的方式从另一个角度对业务运行状态进行了判断。虽然采用动态阀值的方式,虽然增加了告警的数量,但是我们能提前发现一些性能上的风险,保证运维人员有足够的时间处理新出现的问题,进而提高了业务系统可用性。

 

4、降低经济成本和管理成本。通过IT运维自动化平台,可以使现有系统的运维人员降低,或者以现有人员可应对更多、更复杂的业务系统,间接降低经济成本和管理成本,对比以往数据分析,以前要实施软件更新的效率提升了99%,软件的部署与配置提升了约85%,常规的巡检操作提升了约87%。

 

经验总结

随着企业系统业务的发展和分布式架构体系的盛行,在银保监会“提高运维自动化水平,打造智能化运维体系”的倡导下,本项目建立了以“监视管理员配置更改行为”算法检查配置状态,利用对配置状态与基线的差距,对设备和软件进行配置策略的归类。以集中管理平台为手段,利用自动化运维管理的方式实现了对湖北省农村信用合作社运维环境的优化,予以实践后取得了如下实践成果:

 

(1)集中管理平台—结合行内具体的运维环境,集中管理平台实现了对行内系统及设备的“软件自动化安装管理”,“安全补丁更新”,“基线差距分析”,“日常巡检自动化”等功能,实现了对行内运维环境的统一管理,改善了运维环境的管理混乱状况。

 

(2)基于“监控管理员配置更改行为”的算法,建立了一套严谨的配置基线状态跟踪机制。针对行内合规性检查标准,定期对配置状态进行跟踪,分析状态属性值与基线差距,为行内的标准规范优化提供一套切实可行的数据基础。

 

(3)基于“业务周期性动态阀值”制定了更能贴合业务实际的状态告警标准。虽然制定动态阀值后,不能明显降低告警的数量,但是它在提前发现业务故障,延长运维人员故障可处理时间,改善业务人员满意度上体现了明显效果。

 

(4)收集故障工单处理数据,使用“策略树”整合业务配置项的关联关系。建立这种关联关系,不仅加深运维人员对配置项关系的理解,提升了故障处理的能力,减少了故障影响带来的经济损失。

 

本项目使用“策略树”构建配置项结构关系,建立了“智能分析模块”和“集中管理模块”为两大主体框架。在自动运维的基础上,提出了如何利用集中管理平台调整行内规范性文件与运维环境实际情况差距的思路,并以此展开了深入全面的研发与实践,取得了利用自动化运维落实系统规范性的显著效果,缩小了规范与实践的差异性,并形成了一套长期有效的自动运维环境优化的体制,为同行业从自动运维管理到智能化运维的过渡,提供了一套完整,切实有效的过程跟踪方法论。

 

 

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2019-10-21

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2019-10-21

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2019-10-21

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2019-10-21

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2019-10-21

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2019-10-21

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 农信/农商行
  • 数据中心
  • 数据建模
  • 开发运维
  • 运维管理

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构