本文来源于:2023第七届农村中小金融机构科技创新优秀案例评选,作者:辽宁农信

辽宁农商银行:智能运维平台

2023-09-27 关键词:农信/农商行,运维管理,智能运维2153

一、项目背景、目标及建设规划


(一)项目背景


随着辽宁省农村信用社(以下简称我社)业务的快速发展,信息系统规模与日俱增,系统数量越来越庞大, IT架构也由原有的单一系统、单一设备的单纯环境转变为分布式架构、云化、云原生等多样、复杂架构的融合体。因此数据中心运维管理难度和重要性也日渐凸显,同时对业务连续性要求、运维服务质量、智能化的手段的要求也不断提高,迫切需要建设一套科学、高效的智能运维分析体系。


面对这些困难与挑战,IT运维管理服务工作需要从过去的人工被动响应,转变为更主动、更高效、更智能的运维体系化管理, 为新形势下的IT系统稳健运行保驾护航。在数据大集中背景下,如何使组织和机构的IT数据进行有效整合、高效管理、便捷维护和快速分析并使之再生效益成为了运维管理的新挑战。 


(二)项目目标


我社通过建设智能运维平台,实现对基础设施监控、业务监控、应用监控、日志、系统变更等多维度数据的统一收集,并通过与CMDB结合形成运维数据的有效串联,实现运维数据的高效整合分析。同时,借助智能机器学习算法,通过学习动态阈值、预测数据趋势、搭建故障预测以及故障根因定位等智能运维场景,强化动态指标异常管理能力,帮助运维人员提前发现业务运行的故障问题、快速故障排查定位、实现业务性能优化提升,引领中小金融机构向高级智能运维方向发展。


(三)建设规划


项目整体架构设计分为数据源、数据中台、数据管理和数据应用场景。数据中台包括了:数据接入、数据处理、数据服务。数据管理包括了:数据服务管理、数据搜索引擎、数据存储、存储模型管理、数据视图。数据应用场景包括:指标异常检测、趋势预测、事件集中管理、故障关联、固定阈值设置、指标关联检测、告警规则/AI压缩、全息排查等场景。


51.png


(1)实现数据全量接入、统一归集。一是收集运维数据,将应用系统监控系统、交易监控系统、数据中心资源监控系统、统一日志分析管理系统、全量的基础数据(包括机房、网络、主机、应用、存储、日志、流程、运维工具等信息)按标准整合。二是实现运维数据治理,将不同标准、不同类型、不同监控间隔的数据进行统一整理、归类、分析和变形,提供标准对内对外接口和服务。


(2)实现数据统一清洗、告警多路展示。统一展示数据中心运行信息,针对痛点,贴近需求,实现运行告警多路线通知。一是将所有告警信息进行清洗、筛选、整合、统一分析处理。结合归类的运维数据分析,数据经过多重清洗后,做到格式统一;同时根据数据筛选规则,筛选找出高价值数据;后多渠道系统的有价值数据精准整合、萃取、提炼后,形成真正高价值的预警、告警信息,实现告警信息准确定位。二是实现运维情况及告警多渠道展现推送,包括大屏、移动办公端、运维工单、短信、微信公众号和自动化运维系统。


(3)实现场景分析、问题精确定位。采用智能算法,进行场景化分析,实现横向问题场景的运行情况分析、故障全面定位和纵向问题根因分析。实现场景分析、问题精确定位。采用智能算法,进行场景化分析,实现横向问题场景的运行情况分析、故障全面定位和纵向问题根因分析。平台物理部署架构如下图:


52.png


二、项目创新点


1.建立领先的运维理念体系


参照智能运维、运维数据治理等多项国标、行标的先进理念,指导我社运维组织建设、系统架构设计和智能运维场景应用,构建了一套行之有效的智能运维管理体系与组织管理规范。


2.采用AI智能化算法


平台集中多种算法能力,包括:异常检测类、预测检测类、聚类算法、告警智能标签算法、频繁项集、社区算法、告警智能分类算法、智能压缩算法等。同时,通过机器学习算法辨识和学习归类把海量的多来源的运维数据组成实用多维度立体运维场景,提高复杂运维数据辨识度,有效判断故障根因,问题归类,保障信息系统的可用性和业务连续性。


53.png


3.信创全栈支持


服务端运行系统采用完全自主可控的国产系统-中标麒麟,中间件采用tongWeb、tongRDS,以及南大通用GBase国产数据库,实现国产化全面落地。客户端全面支持各类信创操作系统、中间件、数据库信息的采集和运行状态的监控。


4.运用大量先进的开源技术


平台通过Hadoop/Flink、Spark、Hive等大数据相关组件技术,实现运维数据的实时处理,使用Redis缓存数据库、Neo4j图数据库,实现运维数据的快速展现。使用ClickHouse及ElasticSearch进行大批量运维数据的管理和存储。平台支持大批量、高并发的数据操作,数据写速度可达162万条/秒,数据读取速度超过十亿行/秒。


54.png


5.利用先进技术构建前后台分离等服务架构


ClickHouse按向量进行处理运维数据,通过自研流(流处理)、批(批处理)实现运维数据中台快速集成JAX后台服务。采用Hadoop/Flink、Spark、Hive等技术实现相关数据实时展现前台,为告警、日志、性能指标等功能做数据处理上的支撑。同时使用Nacos实现配置中心、服务注册及发现、配置管理、服务管理等权限管理。整个平台实现了分布式任务编排、智能算法处理、海量数据聚合、数据采集和存储等核心运维数据综合处理。


6.实现灵活、稳定的分布式架构设计


平台SpringCloud分布式前后端分离的微服务架构,架构灵活可扩展,在高并发和高业务连续性保障的前提下,实现稳定的服务作业能力。数据处理层分为路由层 -> 队列缓冲层 -> 流处理引擎三个阶段,数据路由层直接接收采集客户端上送的数据,根据不同数据源对应的路有策略,转发给不同的消息队列,流处理引擎从消息队列直接拉取数据,处理成功并且持久化到数据库后更新数据消费偏移量,确保了数据至少被处理一次,数据零丢失。通过流批一体数据处理引擎调用Kafka Topic中的数据进行实时解析和聚合,支持对导入的数据进行一定程度的清洗和转换,如按时间聚合、去重等。并把结果数据写入持久化数据库。处理能力可以通过增加并发线程的数量来快速提升。平台内置丰富的数据解析功能,解析任何格式的数据。数据采集的过程中,同时会对数据做清洗及分类,一站式完成数据采集、处理及存储。管理数据在整个生命周期的流动,支持从热数据到温数据、冷数据的迁移,后过期被删除。支持数据定期备份到HDFS或NFS中,同时可将备份后的数据还原回存储数据库,监管对数据的安全性要求。同时在数据的保密性上进行了数据脱敏配置或不采集脱敏数据,基于数据流级别,按字段、按黑白名单用户进行敏感数据配置。


7.采用全流程透明的可视化组件


提供轻量级可视化配置中心,实现了从数据采集、数据处理、数据分析、数据协作于一体的完整数据流转闭环,大幅提升数据应用的效率。


8.实现全量运维数据集中


平台适配TCP、UDP等协议采集、实现http、https、restful等API采集、agent采集等方式,实现对应用服务、全业务报文、基础硬件资源、各类日志资源、应用变更明细、CMDB等全量运维数据的集中采集和分析,消除运维数据孤岛现象。数据采集分为有代理采集以及无代理采集两种方式,其中无代理采集为在服务端采集,支持DATABASE, TCP/UDP, SYSLOG等主流采集协议,对于一些无法安装代理的被采集对象,可以采用这种方式。有代理采集采用多进程方式,即:守护进程+工作进程的方式,既保证采集代理的稳定性,又可以对工作进程的资源消耗进行控制,避免代理客户端对被采集对象的资源消耗过大。


9.所查即所得的可视化能力


内置大量的展示组件,展示方式灵活多样,生动,可交互。可高度个性化定制的数据可视化图表。支持柱形图、折线图、饼图、面积图、散点图、百分比、仪表盘、四象图、雷达图、漏斗图、区域图等10多种的图形展示支持。实现基于应用场景及建设拓扑分析,将不同组件不同维度的视图进行整合和管理。实时展示和监控业务视图中所有服务的整体健康状态,快速定位问题异常及寻找问题根因。直观展示IT运维环境的运行的业务系统及环节及服务组件之间的访问关系和关键指标,多种维度指标深入分析,在故障发生时能更加直观的呈现故障关联信息、故障根源情况,极大地提升故障解决效率。运维人员可以从视图*****时间得到提示,并快速通过统计分析、异常检测、预测等手段实现快速定位故障。


三、技术安全性及优势


1.安全监管


平台符合安全监管要求,行内架构规范要求,符合行内各项安全要求,符合行业监管要求。


2.系统安全高可用


在主机安全性方面,平台相关的服务器部署环境具备安全性。应用服务器和数据处理应用服务器、两台数据库服务器均采用双机方式,有效消除了单点故障的隐患,保证了系统在主机层面的高可用性。

在操作系统安全性方面,根据审计检查需求,已通过漏洞扫描检测,满足安全要求。


3.应用安全性


实现多用户权限管理,包括:权限级安全控制,根据用户,角色,权限三级控制。将可操作权限赋予具体的角色上,将角色赋予每个具体用户上,用户根据账号和口令登录后,根据所属角色决定能查看或者操作哪些具体功能。用户的认证通过域服务器进行认证。数据库权限管理方面,系统会对数据库操作权限进行管理,防止一般用户通过修改数据库操作指令,越权操作。在日志审计管理方面,系统日志保存到各个应用服务器上,根据设置的日志类别,分为一般日志、错误日志、调试日志。操作日志保存到各个应用服务器上或数据库上,提供用户管理相关的日志。访问日志保存到应用服务器上,记录了用户访问的资源的信息。


4.数据安全


数据存储安全:平台底层数据存储采用分布式引擎(ElasticSearch),每条数据都存储为多个数据备份,当单个数据节点出现故障时,数据可以及时从其他节点恢复,保证数据在存储阶段的安全可靠。ElasticSearch层面则可以针对索引Index针对不同的人员进行访问控制管理。


数据查询安全:基于权限配置的数据查询脱敏规则配置。可指定到人配置可查看脱敏前或脱敏后的数据。支持脱敏规则的设计。


55.png


56.png



5.角色安全


平台具有以下预定义角色进行权限控制:


57.png

58.png



四、项目过程管理


我社于2023年1月启动智能运维平台项目,1月末组建完成项目团队,2月末完成需求分析和设计阶段,4月末完成开发测试阶段和上线准备,5月完成、安装部署、测试和上线准备,5月底开始试运行。于6月中旬正式投产使用。


五、运营效果提升情况


智能运维平台以我社系统运维监控数据的实际应用故障场景为驱动,数据治理为手段、技术平台为支撑,挖掘运维数据价值为核心目标,增强业务连续性保障、提升软件交付效率、提高IT服务质量、辅助提升用户体验,建立了以数据治理为核心的智能运维管理平台。在全省推广,省、县两级机构全科技人员覆盖使用,全面提升科技运维工作。


1.实现运维数据初步治理


将不同标准、不同类型、不同监控间隔的数据进行统一整理、归类、分析和变形,整体数据展示与实际业务发生时间的延时不超过30秒。


59.png


2.集中告警分析能力的大幅提升


对告警信息进行统一清洗、筛选、整合、分析处理。根据数据筛选规则,筛选找出高价值的数据;实现多渠道系统的有价值数据精准整合、萃取、提炼,形成高价值的预警、告警信息,进而提升运维告警的质量。


60.png


3.实现系统运行隐患的快速发现、趋势预测和性能优化


平台通过对业务系统运行情况的历史数据分析得出初步基带,同时对营销活动设置、变更情况、业务趋势分析等实现数据中心运行指标的预测,得到当前数据的预测值、预测上基带、预测下基带,并将该点的真实数据与其预测上下基带进行比较,由此判断出该点是否存在异常。


61.png


62.png


4.实现根因定位和问题回溯


通过对历史数据的学习,平台实现了对同一时间段各类告警和系统运行指标的智能化分析,实现了业务系统运行故障的多维分析,以及精准定位故障根因。


63.png

64.png


5.厘清系统间、组件间的调用关系


平台通过对业务交易数据的分析,利用IP、全流水号等关键信息,建立了系统及组件间的调用关系,形成业务交易拓扑及交易黄金指标的基线,实现业务调用关系的横向分析和纵向分析。


65.png


6.实现可视化运维


借助丰富的可视化组件,通过托拉拽方式快速定义可视化大屏界面、自定义报表、告警等内容,为不同的运维场景、不同的角色用户构建了个性化的运维可观测视角。


66.png

67.png

68.png



六、项目成效


1.显著降低运维服务成本


通过智能化分析能力,实现提前发现问题、定位排障、性能提升、指标优化等服务,极大节省运维工作的人力成本。同时,通过智能化分析对业务系统进行优化和调整,降低了业务系统对于硬件设备资源的需求,降低了硬件设备资源采购成本。


2.提高业务系统的稳定性和可靠性


通过智能化的方式对业务系统进行优化和调整,减少了业务系统因为配置和管理不当而导致的问题,减少了业务系统的停机时间和故障率,提高了业务系统的可靠性和稳定性。


3.生产环境问题发生趋势下降


通过故障预测以及故障根因定位等智能运维场景化服务能力,提前感知设备、组件、业务系统可能发生故障的趋势。使得维护人员可以提前采取运维措施,进行预防性的维护,从而降低了生产环境问题发生的趋势。


4.运维工作效率大幅提升


通过对运行故障的智能化分析和排查诊断,能够辅助运维人员快速判断故障原因,提高运维人员的运维工作效率。


七、经验总结


智能运维平台的建设与设计,是根据我社的运维实际现状和需求,进行有效的结合,以此来满足对业务的发展需要,同时,还建立了运维理念体系,以及对信创的适配和支持。该项目在技术方面,使用到了大数据、AI人工智能、分布式、前后端分离、微服务架构等相关的先进技术。在智能运维场景方面,实现了集中告警分析、运维数据初步治理、趋势预测、异常检测、根因定位和问题回溯、业务交易数据分析以及运维可视化。


未来将根据我社业务的发展情况,夯实底层数据平台支撑能力,不断提升运维数据质量,不断丰富智能运维场景,不断提升故障异常命中效率,从而保障业务长期高效稳定运行。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2023-09-27

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2023-09-27

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2023-09-27

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2023-09-27

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2023-09-27

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2023-09-27

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 农信/农商行
  • 智能运维
  • 运维管理

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构