本文来源于:2023第七届农村中小金融机构科技创新优秀案例评选,作者:天津农商银行
天津农商银行:安全合规的智能自动化运维体系
2023-10-08 关键词:农信/农商行,数据中心,运维管理
2340
一、项目背景
互联网+和数字化转型已经深入到深化改革的各个方面,成为中国改革提质增效的新变量,是中国经济转型增长的新蓝海。来自IDC的数据显示,到2025年中国80%以上组织都将成为数字化技术组织,数字化转型将成为未来10年所有行业用户的主旋律,目前金融、政务、能源、工业等领域都正在进行积极的数字化布局。
在数字化转型过程中,势必会面临传统信息化业务向数字化业务融合与转型的阵痛,既要确保现有传统核心业务稳健、有序发展,又要敏捷、高效的尝试拓展各种业务创新,并逐步推动传统核心业务的再转化和升级,一个维稳、一个图新,通过螺旋化的迭代发展相互促进,实现业务的持续演进和发展,在业务充满机遇和不确定性的时代,运维工作面临来自业务的巨大压力。
随着互联网技术开拓,云计算、大数据、物联网、微服务、容器等新技术的尝试和应用,IT架构呈现出更加“混合化”的趋势,技术演进带来了更高的复杂度,另一方面数据中心的IT资源规模也在高速增长,互联网+应用导致运维对业务和用户体验支撑的前移,运维工作面临各种技术难度挑战。
传统运维领域经过二十年的发展,已经基本建立了以ITIL为核心的规范化、流程化的运维管理体系,以保障业务的安全性、稳定性和可用性。传统运维“专业化”的组织结构+“流程化”的工作规范,解决了开发和运维之间的职责界定问题,形成了信息化业务稳定运行的基础,但难以满足敏捷数字化业务对IT交付效率、解决速度和运作效能的迫切要求。同时对IT架构快速变化和复杂度的适应能力也比较弱,导致运维的维护成本和协作效率遇到瓶颈。
当前,运维面临更加复杂和快速变化的IT架构和业务,IT运维领域也在不断的演进和创新,并注重三个层面的提升:提升业务稳定性、提升运维工作效率、提升IT架构演进适应性,终为促进业务优化和提升而不断努力。
随着信息技术的快速发展,天津农商银行运维中心的发展经历了如下几个过程:文档化运维、脚本化运维、工具化运维。之前运维团队成员在运维管理手段上还是以分散的工具化产品、结合手工运维为主。由于缺乏一套整体的运维管理平台,导致目前天津农商银行的信息化运维工作多是局部的、分散的,各项运维工作之间缺乏相应的联动性,没有形成整体的运维管理体系。
日常运维人员常常处于“救火”的状态,响应是被动的,哪里有问题就扑向哪里,缺乏科学有效的主动规划与服务流程,服务质量和业绩缺乏量化的标准,缺少相应的流程和经验积累,未能有效地从根本上解决运维工作中存在的基础资源台帐管理不统一、数据不准确,监控手段有限、系统故障发现不及时,问题定位难、解决慢,日常运维管理流程不规范等突出问题。
具体来说,目前针对天津农商银行在运维管理方面主要存在以下几个方面的问题:
1、缺少统一运维管理中台
目前行内已建设的运维管理工具均是割裂开来的,各工具之间未达到有效的统一,包括数据、服务能力和接口层面,使得后续的运维建设工作无法实现可扩展性,数据也无法实现有效统一的收集,很多服务能力(如登录认证服务、统一通知服务)的重复性建设,这样不仅造成了资源的浪费还无法实现统一管理的目的。
2、资产配置信息管理分散
目前行内所涵盖的各类IT软硬件资源的ID、位置、名称、用途、负责人、维保时间等配置项信息,主要还是由网络、服务器和应用系统等方面的运维人员各自分散管理、手工维护,缺乏统一管理。存在资源属性更新不及时、数据不准确、资源间的关联关系无法直观展示等问题。这种现状使得日常运维工作中,在资源信息的统计上存在着耗时、费力以及不准确的情况,导致管理层无法快速、直观地从总体上了解到当前科技部所管理的各类IT资源的总量、分布情况以及使用情况,无法从整体上进行IT资源的合理规划。
3、运行监控能力不足
运维管理平台需要监控的对象涵盖行内各类设备和应用系统,存在着数量多、种类杂、混合化(既有云环境也有传统的物理机环境)的特点。目前天津农商银行运维人员在运行监控手段上能力仍有不足,主要依靠部分运维管理工具和人工日常巡检相结合的方式。面对数量庞大且类型多样的设备与应用,不但故障发现不及时,而且也难以快速定位根源,甚至还会存在一些监控管理的盲区,形成运维管理的隐患。
4、运维管理自动化程度不高
当前IT运维管理方面很多的日常运维操作——例如设备巡检、合规检查等——还是依靠人员手工执行。在当前各类信息系统规模不断扩大,运维对象不断增加的情况下,这种依然以人工运维为主的操作方式,不但会耗时极长,而且还存在着人员误操作导致系统异常的风险。
5、运维流程管理不够规范
在运维管理方面,天津农商银行虽然下发了相关的运维管理规范,但一些日常运维管理工作并没有完全遵照规范执行。部分运维管理流程在执行上还存在一定的随意性,信息系统的变更和日常故障的处理大多是通过口头通知和纸质表单进行零散记录,既无法规范运维人员的运维工作流程,也无法衡量与约束运维工作的效率和质量。
6、运维成果展示不够丰富全面
目前缺少相应的手段,向管理层和运维人员全面、直观、多角度地展示当前各类业务系统的整体运行情况、网络联通情况、资产分类统计、运维工作统计等关键指标。而且一旦系统出现异常也无法在可视化界面上直观地展现和判断问题的严重程度和影响范围,不能从全局的角度进行故障处理的指挥和调度。
二、项目方案
通过对当前全行系统运维管理现状的分析,为进一步提高运维管理的能力与水平,运维中心开发团队规划与部署一套理念先进、功能全面、扩展性强的一体化运维管理平台。该平台在功能上的需求主要包括以下几个方面:
2.1应用拨测管理
完善监控能力、探测应用健康通过增加应用拨测的方式,从多个拨测点对指定的Web应用服务的健康状况和响应时间进行探测,帮助运维人员全面掌握各业务应用在不同环境下的运行情况和健康度,既可以帮助运维人员分析应用问题的原因、跟踪服务运行的稳定性;也可以更加合理地规划各类IT资源的分配,提升应用效率、降低运维成本。
2.2网络监控管理
系统支持自动网络发现能力,能够实现对华为、华三、锐捷、神码、中兴、CISCO等主流品牌设备自动发现,支持局部发现某个设备的邻居设备,并支持自动网络拓扑构建。
系统支持全局网络拓扑与分层网络拓扑,全局拓扑显示所有的网络设备及关系。分层网络拓扑支持通过拓扑逐层建立组合的方式,支持构建骨干网拓扑展示,也可以根据业务管理场景进行拓扑构建。
网络拓扑支持良好的拓扑交互,通过高亮显示指定设备及相关设备,能快速分析设备间的关系;也支持放大、缩小等地图式操作功能。支持在在拓扑上显示设备与链路的性能负荷。支持通过IP、设备名等关键字快速搜索与定位设备。
2.3全面的集中监控管理
实现对管理范围内的网络设备、服务器、操作系统、数据库、中间件、存储和应用系统等监控对象的全面监控。能够发现各类被管对象的异常情况,并及时产生告警,保障各业务系统的健康运行。需要能够对各类关键性能指标进行定期的采集和存储,并对所采集的指标设置相应的阈值,当指标违反阈值时及时产生告警。
需要实现对操作系统、应用的各类日志信息的采集和集中存储,并提供对日志文件的结构化分析功能。支持对日志信息的实时查询,帮助运维人员快速分析日志中特定字段在制定时间内的分布情况;能够在系统中出现特定关键字时,及时产生告警消息。
需要能够通过模拟真实用户访问的方式,对Web应用服务的健康状况和响应时间进行探测,实现从上层应用的层面了解业务应用运行情况的功能。
需要提供灵活的告警集中处理功能,能够实现对各类告警信息的接收、关联分析和处理,并且能够与其它运维管理系统功能进行联动,实现告警消息的闭环处理。
2.4日常运维操作自动化
针对目前日常运维操作自动化程度较低的情况,还需要提供运维操作自动化的功能。需要提供统一的脚本管理工具,支持运维人员进行自动化脚本的在线编辑和管理。提供可视化的脚本编排设计器,使得运维人员可以灵活创建各类自动化操作编排。对于设定好的编排,平台需支持根据情况灵活设定执行策略,从而实现日常运维操作的自动化,减少运维人员的重复操作,提高运维操作效率,降低运维误操作的概率,实现规范运维的落地。
2.5规范运维流程
能够根据行里所制定的运维流程规范,结合运维管理实际需要,在平台中实现功能落地。将各类日常运维流程纳入到平台中实现规范化管理和全面记录。支持在执行特定的流程操作时,或者在指定的时间/时间周期上自动触发相应的流程任务,提升流程处理过程上的灵活性和便捷性。
为了适应运维管理不断发展完善的需要,平台还应提供可视化的流程设计引擎,能够在平台系统界面上通过拖拽的方式实现对现有流程的修改以及各类新流程的创建。
还需要提供值班管理功能,支持灵活的排班管理,实现值班安排的规范化与灵活化,并需要提供交接班管理和值班提醒等功能。
2.6运维知识管理
需提供便捷的知识录入界面、灵活的知识分类和全面的知识检索功能,实现从知识录入、审核、更新到删除的全生命周期管理。实现运维知识的沉淀和共享。
2.7构建智能运维场景
本次建设的一体化运维管理平台需要采用先进的微服务设计架构,以及大数据技术,能够对多种类型、不同来源的数据进行统一接收、高效处理和智能化的算法分析。并在此基础上引入不同类型的只能算法,通过对运维大数据的计算和分析,逐步实现和丰富各类智能化运维场景,实现运维管理工作的智能化。
2.8运维统计分析
能够对平台采集和产生的各类配置、告警、性能和运维流程等各类数据进行处理,并根据需要生成各类日常运维报表和配置项分类统计报表。平台还应该提供可视化的报表设计引擎,能够在可视化界面上实现报表的个性化定制。
2.9运维综合展示
平台应提供可视化展示功能,能够在统一的视图上为管理层和运维人员提供多角度、多层次的展示界面,以图形化的方式展示各类运维统计数据、网络拓扑以及各类系统的应用架构拓扑图。可以直观地展示应用系统的总体健康状况,并能钻取查看特定应用系统的详细状况。除可以展示平台自身数据外,还应提供标准化接口,能够集成和处理包括业务数据在内的第三方系统数据,在视图上进行统一展示。平台还应该提供可视化的视图设计器,支持通过拖拽的方式进行展示视图的个性化定制。
为了实现对数据中心内各类设备、环境信息的统一管理和直观展示,还需要提供所见即所得的3D机房展示功能。能够采用3D可视化模型,根据数据中心的实际情况,建立数据中心机房、机柜及IT设施等各类场景的模型,实现数据中心资产、容量、监测及运维的可视化。
2.10统一运维管理门户
需为平台用户提供统一的入口,并能够提供组织管理、用户管理和权限管理的功能,可以基于平台中每个运维系统的功能以及所能够操作的对象范围,实现权限的灵活分配。平台还需能够将用户登录、退出平台以及所执行的非查询类操作记录到系统日志中,并支持管理人员对日志内容进行查询,方便日后的审计操作。
为了提升日常运维操作的便捷性,需将平台中各系统的常用功能以插件形式提供给用户。用户可以灵活选择自己所关注和常用的功能插件,并将其设置到自己的系统主页上,提升日常运维操作的便捷性。
此外,平台还需要为业务人员提供服务门户,门户上会分类展示系统中所设置的各类服务目录,方便业务部门人员进行服务请求和系统故障的自助提报,并可以实时查看所提报事件的处理进度,并对逾期的事件进行催办。
三、创新点
在天津农商银行运维中台体系建设中,运维开发团队立足于自主开发、自主掌控,研发出用于打通运维中台与天津农商银行OA,邮箱等系统的智能路由服务、进程级别精准监控体系、基于PowerBI的运维数据分析看板、多标签化CMDB自动发现服务、用于故障影响性分析的应用系统拓扑结构图、开放式统一报警接口、故障自动化治愈作业调度等。

图一 CMDB自动发现、自动导入相关配置,增加更加丰富的标签标识

图二报警与对应系统的拓扑关联架构,通过拓扑架构可分析该报警对整体系统的影响范围

图三 提供运维中台标准化报警接口

图四 系统自动化巡检结合智能路由自动发送巡检报告邮件到相关人员

图五 自动化跑批全流程定时调度并实现可视化

图六 日间检查、日常检查全流程自动化处理

图七 应用系统进程级别全指标监控体系

图八 运维大数据分析
四、技术实现特点及优势

通过对运维管理现状的了解,结合运维管理平台的建设需求,要实现运维管理平台的建设目标,需要平台的总体功能架构在设计上既需要从现有的需求出发,又需要面对未来业务和技术发展的要求。整个平台能够确保为用户的信息化建设提供长期的支撑,适应用户IT运维管理的需求不断发展的。这就需要整个平台在架构设计上要在实用性、先进性、稳定性和扩展性方面保持一个良好的平衡,确保整个平台具有良好的发展潜力,适应技术的发展方向。
而传统的运维管理平台在架构设计上往往会针对每类运维管理需求,开发相应的运维功能系统,每个系统均会维护用于存储自身数据的独立的数据库。例如开发用于设备资源管理的CMDB系统,以及用于实现基础设施监控的系统等。然后再将各个竖井化的运维系统进行底层数据库和上层应用的集成终形成整体的运维管理平台。但随着运维管理需求的不断提升,这种传统的设计方案越来越无法适应当前运维管理的需要。其主要存在以下几点问题:
运维数据的碎片化、每个系统都有台帐;
集成融合度低、开发扩展代价大、业务场景能力弱;
受限于工具能力,容易形成单个工具瓶颈点,不能满足架构演进的大规模运维环境。
为解决上述问题,本次所建设的一体化运维管理平台,采用了运维中台的系架构设计理念。这个理念从运维管理的总体功能入手,通过整体规划、统一设计,抽取平台中各个系统的共性功能,并将其整合到运维中台内,为平台中的各系统提供通用的服务。上层各系统则基于运维中台所提供的功能,完成各自的功能逻辑,并负责对中台内存储的数据进行处理。由于运维中台内封装了大量运维管理的通用功能,在后续新增系统功能时,可以在现有中台所具备功能的基础上进行快速开发,而无需重复开发已有功能。
基于运维中台的设计理念,能够将运维共性的采集控制、数据管理、组件服务、开发扩展等功能通过底层的运维中台予以实现,既能够避免重复造轮子,也能够提升平台的易扩展性;从而可以克服传统设计方式所存在的竖井式工具之间数据共享性差、场景割裂等问题。通过不断丰富运维中台的功能,达到平台做厚、产品做薄的效果,让平台上层的运维应用功能更加轻量级、容易迭代改进。
利用运维中台所提供的功能,实现资源打通、数据打通、功能打通,打破工具化运维设计理念中各系统之间的壁垒,实现各类数据的融合与统一管理。从而不但能够满足当前运维管理的需求,也能够通过技术复用或者平台复用的方式,使得管理范围、管理深度和管理功能均可平滑升级和扩展,满足不断发展的运维管理需求。还可以利用中台内数据统一存储、灵活处理的能力,构建运维数据治理、智能化运维的基础,从而能够使得整个平台能够更好地向智能化方面演进,进一步提升整个平台在支撑业务方面的能力。
接口设计
平台具有很好的开放性,平台中的每个系统/功能模块都提供了扩展接口,便于和第三方产品集成,提供整体化的平台功能,同时提供丰富的二次开发接口,以满足运维管理的要求。

在系统提供平台扩展接口的同时,运维开发团队还开发了丰富的SDK二次开发包、二次开发说明文档和集成代码示例,便于第三方厂商和客户完成系统扩展开发。
运维中台高性能设计
运维中台高性能设计主要考虑到用户高速发展、且越来越大的业务规模对支撑工具所提出的更高的性能要求,无论是从银联本身的业务连续性要求,还是业务规模所带来的性能压力,都要求自动化执行架构系统具备优秀的性能设计,新一代自动化执行架构应从以下几个方面开展设计以满足高性能需求:
1.分布式服务化设计
整个自动化架构使用服务化设计理念实现,并实现平台服务化治理。
下图显示一个服务化启动后,它在平台中的启动步骤与通信步骤:

附图1. 服务化通信流
2.运维工具应用架构高可用设计
运维工具应用架构支持采用集群服务架构,通过部署多个服务节点集群,保障基础平台、运维应用服务的不间断运行,避免节点故障导致运维服务不可用,从而实现应用层的高可用。
系统采用服务化架构,由服务管理中心对基础平台、运维应用等的相关服务进行统一注册、消费、监控、配置、路由等,可实现服务级的高可用切换。
系统使用两种典型数据库,并通过对应的技术实现数据服务的集群部署,可避免数据库节点故障导致服务停用以及数据丢失。
3.数据库高性能设计
采用不同的队列、缓存、存储搭配,实现对异构数据的保存,所有接入的数据首先进入Kafka队列,通过队列进行流式或批量消费,当天的热数据和热点访问数据进入Redis进行缓存,不经过磁盘IO,大大加快访问速度,对于不同的数据特点,采用不同的数据库进行搭配和管理。
结构化大数据主要通过时序数据库进行存储,时序数据库底层推荐采用ElasticSearch进行存储,通过时序线性进行处理,优化写入和读取性能,实现多维度的联机实时分析。结构化的日常数据采用MySQL或其他关系数据库进行保存,事务一致性保障,对开发优化,可以作为自动化作业等交互的结构化数据存储。
半结构化大数据主要通过ElasticSearch进行保存,具备优秀的吞吐量和访问性能,也易于水平扩容,对于事实性无需修改的半结构化数据,如日志、事件等,采用ElasticSearch保存,可以很好的利用索引能力进行快速多维的查询和分析。
4.接口异常处理
1)通讯异常
在接口调用过程中,如果由于通信异常导致连接中断,由服务使用者负责重新发起连接请求,发送方和接收方需要对报文有重传、查重等异常处理机制。
2)数据异常
接口数据的异常,由数据提供方负责发送数据校验、数据接收方负责接收数据校验,重新发送或者修改相应数据内容,必要时修改相应的数据发送程序,并重传出错的接口数据。
3)服务异常
服务提供方应具备服务状态监控,当其服务异常时能提供相应报警、日志,即时重启或恢复服务,或由其他备用服务节点提供服务。
五、项目过程管理
为实现整个平台功能的有序落地,切实提升天津农商银行信息科技部的运维管理水平,本次一体化运维管理平台采用分阶段建设的方式。每个阶段所建设功能的先后顺序,应以先解决科技部在运维管理方面迫切的需求,再进行功能完善;先建设易见效的功能,再建设深化功能的理念为指导,整个平台的建设工作分为以下三个阶段:

安全合规智能自动化运维体系于2022年1月启动,6月完成系统编码、测试和上线准备,于7月在天津农商银行生产与数据中心完成投产上线。
六、运营情况
一.建立面向数据中心资源的统一管控资源交互层能力
通过统一抓手建立多数据中心的采控机制,使其具备可扩展性,实现统一的数据采控管理,帮助用户实现跨节点、多数据中心资源采控纳管,实现天津农商银行6000余个节点在CMDB中自动发现、配置自动采集,并在多个消费场景落地。
二.建立运维数据治理、打通、计算、运维场景支撑和智能化的持续演进能力
数据中心通过建设运维大数据平台,多源异构数据的接入、清洗、存储、治理、消费、分析的智能化运维数据计算大脑,利用大数据计算、数据治理、智能算法的整合能力,实现运维数据的价值挖掘和场景服务,建立可持续的智能化运维演进能力。
以配置数据为根基,以数据治理为思路,围绕运维对象构建配置模型的配置管理思路,实现监、管、控、营、服一体化闭环管理。
三.搭建模块化、组件化、共性化的敏捷业务服务能力
帮助数据中心建立组件服务标准和公共基础组件服务,不断建设、下沉共性组件,以便上层运维场景应用可以聚焦于实现业务功能,复用底层公共组件,避免重复能力建设,提高运维标准化能力,易于运维场景联动。
四.构筑可持续运维积累能力
提倡“整合场景、融入场景、自建场景”的可持续运维积累策略,使得数据中心用户不断积累运维能力、丰富运维场景、迭代化发展,走向运营模式的能力。
五.运维架构去中心化
应对业务极速发展和IT规模飞速增长所带来的挑战,持续优化技术架构,强化面向大规模环境支撑能力,将原各自动化工具剥离,建立统一的、先进的先进平台架构,满足高并发、大规模管理能力,支持万级并发运维操作能力。同时,充分考虑未来发展,设计多中心部署架构与无中心管理模式,以提升运维效率,实现高效稳定运维。
七、项目成效
通过此项目使天津农商银行获得以下能力与经验:
看的见
“可见”,才是可管理的。
将分散的数据以直观、动态、可定义的可视化视图,直观呈现业务、系统运行、日常工作等信息的综合呈现,从全局到具体、从顶层到底端、从前端到后台,将有关业务、系统和日常运维工作等方方面面,通过直观、丰富、灵活的可视化视图呈现出来,帮助决策、管理层直接看见整体IT运行态势、运维工作处理情况,实现运维态势看得见。
说的清
整合运行监控、构建资源配置等工具及量化指标,来对资源运行、运维过程相关的关键指标和数据进行统计分析,将用户各个层次管理人员所关心的指标量化、整合并直观呈现出来,通过一组组数字直观的呈现出当前管辖范围内网络、系统的运行情况、运维工作的执行情况、资源资产的使用情况等,通过多维度、多层次的报表或视图即可说清整体运维工作的技术态势和管理态势,通过一系列统计分析报表,帮助运维人员,大到业务系统运维趋势、小到技术组件运行状态,静到运维家底有多少、动到人员资源有哪些变化,清清楚楚,实现运行家底说的清。
管的住
管的住主要从三个角度出发,一是建立面向设备资源的集中资源管控体系;二是整合面向资源运行的监控管理体系;三是对接现有流程工具,并建立自动化操作机制,实现管控审核与操作执行打通;通过上述三者的建设,能够实现从技术到管理、从资源到项目的全面管控,资源进出、运维过程、是否异常,统统管的住。
行的快
自动化手段赋予了运维人员新的管控利器,通过梳理运维场景、运维工作和SOP,并以脚本、编排的方式,将人工的运维任务转为自动化作业,提高运维效率,规范操作规程,降低误操作风险。
通过自动化工具建设,实现日常运维操作、应用持续发布快人一步,通过构建自动化运维体系,在精确梳理的前提下,甚至实现无人值守,按照策略,实现运维操作、服务交付的无人、自动化处理,处处先行一步。
坐的稳
未来,逐步演进以智能化运维手段为支撑,纳管各类资源和各类运维工具,构建全新的、智能化的运维入口,不必局限与工位、机房,通过运维机器人,实时查看运行态势、分析故障根源、下发操作任务、实现运维工作智能交互,无论在什么场景,让运维工作高枕无忧。
管理效益分析
面向决策者的建设收益
运维领导主要关注信息中心的整体运维情况,也就是需要通过运维平台提高运维的洞察力,通过平台能了解整体业务资源的健康情况、风险情况、人员工作效率和瓶颈等综合信息,需要对全网的运行状态进行大屏展示,直观展示企业形象和IT运维能力和水平,体现IT运维的价值,为运维改进规划提供决策依据。
整体上面向领导的建设收益主要包括:
1、资源全面纳管
对信息中心政务内网和政务外网所有的软件硬件资源全面纳管,掌握运维家底。
2、运维态势感知
通过可视化展示视图全面掌握运维态势与运维数据,实现运维数字化管理,提升运维管理决策水平。
3、终用户满意
信息中心是对外提供服务的服务型部门,外部用户满意度的提高是根本要求,需要建立对应用访问用户的感知与分析,提前发现应用性能瓶颈与故障,实现真正意义的“主动运维”。
4、过程规范高效
运维是一个需要同时注重过程与结果的工作,通过运维服务流程与自动化工具的建立,实现运维工作过程即规范又高效。
面向运维管理者的建设需求
对纳管的基础环境、云环境、平台软件、业务应用进行监控、巡检和持续优化,保障基础环境和所管业务应用高效稳定运行,并基于运维平台提供运维标准化能力为运维人员提供支撑。
整体上面向管理者的建设收益主要包括:
1、资源全面纳管
对信息中心政务内网和政务外网所有的软件硬件资源全面纳管,掌握运维家底。
2、全方位监测
建立面向信息中心从基础设施、应用、用户端的全方位监测能力,实现及时预警与故障处置,提升主动运维能力。
3、过程规范高效
运维是一个需要同时注重过程与结果的工作,通过运维服务流程与自动化工具的建立,实现运维工作过程即规范又高效。
4、运维指挥调度
对所辖业务、资源的等运维指标进行综合分析,通过可视化展示视图全面掌握运维态势与运维数据,研判故障与变更响应,提升运维指挥调度的准确性。
5、应急保障能力
建立一系列的应急保障预案的自动化落地,提升应对“勒索病毒”类似的突发事件的应急响应能力,提供政务信息化的业绩连续性与服务满意度。
面向运维人员的需求
运维人员的主要工作是对所负责的IT资源进行定期巡检,根据告警信息或者业务人员提出的故障单进行分析,及时恢复系统的运行。同时,也针对业务人员提出服务请求就行处理,满足业务使用要求。
整体上面向运维人员的建设收益主要包括:
1、系统/设备上线处理
根据业务上线申请,进行系统上线处理,以及进行资源配置完善、监控和自动化纳管等管理维护事项处理。
2、告警监控处理
监控所管业务应用的告警或业务人员的报单信息,当出现重要告警时及时进行关注,进行综合分析和排障处理,当无法处理时将故障工单转至二线寻求处理。
3、系统巡检
对所管的业务应用进行定期巡检,了解业务应用及资源的运行情况,当出现异常时及时处理,避免故障发生。
4、服务请求处理
对业务人员提出服务请求就行处理,比如创建账号、服务开通等,通过平台工具或者手工进行,满足业务需要。
5、常规运维管理
对所负责的业务和资源进行常规运维管理,比如磁盘日常清理、系统巡检、操作系统补丁升级、系统备份恢复、配置合规检查等日常管理。
八、经验总结
应用开发团队基于自主开发能力建设了一体化运维管理平台,以运维数字中台理念为核心,帮助数据中心的运维模式从工具化向运维中台化转型,打破固有的烟囱式建设模式,夯实数字化运维的基础能力,在满足数据中心现有资源的运维管理需求基础上,通过中台能力赋能数字化转型,建立工具平台化、平台化组件化、组件服务化、应用生态化的共享交互能力,并且借助运维中台能力、数据及知识沉淀、组件复用、算法积累方式,实现运维能力的可持续演进发展,终将技术能力转换为标准化服务输出,完成数据中心从运维到运营的演变,终推动数字化转型及落地佳实践。实现新数据中心运维数据标准化、管理规范化、运维决策科学化,全面提升新数据中心运维能力和安全保障,确保天津农商银行业务系统安全稳定、可持续化运行。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2023-10-08
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2023-10-08
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2023-10-08
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2023-10-08
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2023-10-08
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2023-10-08
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构