本文来源于:2025年度农村金融机构科技创新优秀案例评选,作者:甘肃农信

甘肃农信:基于大数据组件微服务架构的智能运维平台

2025-10-16 关键词:分布式,智能运维,微服务3485

一、项目背景及目标


近年来,互联网金融技术加速成熟,推动银行业信息化架构、业务系统建设模式及基础设施体系发生深刻变革。移动互联网、人工智能、大数据、分布式、云计算等新技术的广泛应用,不仅显著提升了银行生产效率与客户服务能力,更对传统运维管理体系提出了全新要求。为适配技术变革、支撑长远业务发展,甘肃农信启动新一代信息工程建设,实现了多项关键突破,建成两地三中心基础架构,数据中心承载数千个IT资源(涵盖网络、安全、服务器、存储、云平台、数据库、中间件、大数据组件及应用系统等),3200余台服务器支撑上百套业务系统运行,信息化建设整体水平大幅提升。


然而,随着IT规模与业务复杂度同步增长,日常运维管理压力持续加大,现有体系的短板逐渐凸显:虽已部署硬件监控系统、日志监控管理系统,可实现基础监控功能,但仍存在三大核心问题,一是监控维度单一,且工具独立建设、缺乏统一运维管理平台,导致运维工作呈“局部化、分散化”特征,各环节联动不足,未形成整体运维体系;二是缺乏科学的主动规划机制与标准化服务流程,服务质量无量化指标支撑,运维效率难以提升;三是缺失流程驱动的运维体系与自动化运维能力,监控指标覆盖不全、基础资源台账管理不统一、数据准确性不足,且日常运维流程不规范、应急事件无法自动处理等问题,无法从根本上得到解决,已难以适配新一代信息工程的运维需求。


基于上述信息化建设现状与运维痛点,结合国家信息技术应用创新政策要求及甘肃农信新一代信息工程建设规划,智能运维平台的建设目标聚焦“补短板、提效能、促转型”。一是破解分散运维困境,构建统一管理体系依托分布式架构与大数据服务组件搭建的一站式运维工作平台,整合现有独立监控工具,打通硬件、日志等监控维度,实现运维数据、流程、资源的全面联动,取代“局部化、分散化”运维模式,形成覆盖IT全栈资源的统一运维管理体系,解决监控覆盖不全、资源台账不统一等核心问题;二是推动运维升级,实现自动化智能化以平台为载体,建立科学的主动规划机制与标准化服务流程,通过量化服务质量指标(如故障响应时长、修复效率)提升运维管控精度,同时落地流程驱动的自动化运维能力,实现日常运维任务(如资源配置、巡检)自动化执行与应急事件快速自动处置,从“被动响应”转向“主动预防”,缓解3200余台服务器及上百套业务系统的运维压力;三是支撑战略转型,夯实数字化根基通过统一IT资产管理、统一数据管理及可视化呈现,为甘肃农信两地三中心架构下的IT资源管控提供精准数据支撑,让运维能力与新一代信息工程建设水平相适配,最终以高效、智能的运维服务,助力甘肃农信完成数字化转型,更好地服务业务发展与实体经济需求。


二、创新点


(一)建立统一的运维门户。将智能运维平台建成为甘肃农信基础运维的统一入口,集硬件监控、应用监控、灾备切换等平台于一体;统一进行用户权限、资源等的分配。通过IP白名单对自动化运维模块进行网络限制,用户登录智能运维平台所展示的模块及资源由用户所属权限以及所登录的网络域决定,极大的解决用户的操作风险以及数据安全泄露等问题。


(二)建立流程驱动的作业场景。以ITSM流程为基础触发自动化作业完成流程的内容。新业务系统投产经过流程审批,流转到相应的负责人通过自动化分配IP地址以及主机名、创建虚拟资源、安装基础监控、安装日志采集、更新资源配置CMDB,关联业务系统分组添加标签。高效的解决了流程繁琐,资源创建迟缓以及人工运维极大的工作量。具有丰富的自动化场景,场景涉及到日常业务系统的应用运维操作有单节点、单模块、单中心、双中心维护,数据库运维场景;多种多样基础运维操作。随着业务系统引入分布式微服务等多种架构,支撑业务运行的服务器激增,主要业务系统都有上百台虚拟机,智能运维平台开发了自动化巡检功能了,将巡检结果通过报表通知到业务负责人,极大的提高了运维的效率。


(三)联动ITSM流程与告警管理。智能运维平台作为甘肃农信的统一运维门户,接入和监控了所有系统的告警。新产生的告警智能运维平台自动进行告警的识别和判断对部分告警将自动转化为工单到服务台,通过服务台发起流程选择不同的流程走向,及时处理了告警并留痕。流程设计灵活,满足多种审批要求。争对不同的要求对工单敏感内容进行加密,并对每个阶段设计流程记时,动态对工单进行提醒。


(四)实现与多平台数据互通校准资产台账。实时动态进行CMDB配置管理的资源更新,资源的上线下通过流程进行资源的更新。CMDB配置管理可进行个性化的资源配置,通过多种维度进行资源分组,直观的查看资源的归属情况以及资源的使用情况。联动多个配置项可查看每个资源之间的关系,通过资源关系可以查看业务系统的架构部署等情况。


(五)建立多维度分析报表。从多种维度(负责系统的告警数量、工单的及时处理率、处理工单的数量等)对平台用户进行分析,统计出用户平台的使用情况通过报表直观展示。报表平台还开发有涉及容量、告警、工单等实时查看报表、周报、月报等。


(六)提供丰富的内部办公模块。项目管理模块对项目的生命周期进行管理,具体到申报材料、合同、后期付款;运营管理模块对部门的会议等进行记录附件的上传;另建设有知识库、文件存储系统等,方便平台用户进行日常办公使用。


三、项目技术方案


甘肃农信智能运维平台采用“平台+数据+应用”的中台化建设模式,以工具平台化、平台组件化、组件服务化、服务场景化,下沉公共服务能力,为IT服务综合平台持续提供延延不断的发展能力、创新能力。平台在总体架构设计应上采用目前先进和成熟的微服务和大数据等互联网架构,系统中各个模块支持水平扩展以及集群化的部署方式,确保整个系统的高性能和高可靠性。当整个系统中被管节点增加时,可以通过水平扩展相应模块的方式提升整个系统的性能表现。此外,为了使得整个系统在数据存储和处理方面获取较高的性能和可靠性,系统在数据库选择方面除了传统的关系型国产化关系型数据库以外,还采用了诸如MongoDB和ElasticSearch等非关系型数据库提高运维数据存储、处理和查找等方面的性能表现。并对系统中经常被访问的数据,通过Redis数据缓存的方式,提升数据访问响应的及时性。


被管资源层主要包含采控代理,包括部署在最终被管主机上的本地代理和部署在特定服务器上的监管代理。代理上可通过部署不同的模块和插件实现相应的功能,本地代理主要负责所在宿主机的配置信息、运行指标采集,以及自动化操作的执行;监管代理主要提供远程监控和远程脚本执行能力,在多局域网环境上,监管代理也提供跨网汇聚能力,以便实现多个网络的统一管理。


数据接入层包括数据服务网关和数据缓存队列两个主要的组件。数据服务网关由LVS+Keepalive+Nginx组成,LVS提供4层网络的高效负载均衡,Keepalive保障LVS的高可用,保证不会出现单点故障;Nginx实现7层应用数据传输负载均衡,其负责将数据均衡传输给数据缓存队列。数据缓存队列采用Kafka实现,Kafka是一个分布式、多分区、多订阅者模式的日志和消息系统,支持比较好的冗余备份,其具有处理速度快、高吞吐、可分布式部署等特点。Kafka将接入的数据缓存起来,并能及时通知数据处理层、应用层进行数据处理。


数据服务层提供数据处理、分析及存储能力,数据的处理、分析主要通过SparkSteaming和SparkMlib,数据存储由Redis、国产化关系型数据库、MongoDB和ElasticSearch实现。Redis是一个分布式高速缓存库,其通过内存进行数据存储,并通过网络允许多个应用共享缓存;MongoDB主要存储配置数据、告警数据和工单数据,这些数据通常有灵活的数据结构,适合使用MongoDB这种文档型数据库来存储;ElasticSearch是一个基于Lucene的搜索服务,它提供分布式多用户能力的全文搜索引擎,是一种流行的企业级搜索引擎,平台使用ElasticSearch存储监控指标、日志和知识等体量大、需高效检索的数据。


组件服务层主要为平台提供公共的基础服务能力,包括规则引擎、流程引擎和可视化引擎组件。规则引擎主要基于JBoosDrools实现,其提供声明式的规则设定和计算能力,告警规则、工单处理规则等通过它来实现。流程引擎基于Activiti实现,它是一个BPMN2.0完整实现,提供强大高效的工作流引擎,工单和自动化处理基于它实现。可视化引擎组件提供统一的数据可视化展现能力,提供可视化视图设计器、组件数据关联和视图大屏展现能力。


应用层包含各平台和上层运维应用,运维管理平台的应用都基于SpringBoot框架开发,它是一个微服务架构应用的最佳实现框架。在应用层还提供了三种接入网关:Web访问接入网关、OpenApi接入网关和移动端接入网关,这些网关都是基于Nginx实现。Web访问接入网关主要用于浏览器访问接入;OpenApi接入网关用于与第三方系统的集成,为第三方系统提供OpenApi对接服务;移动端接入主要为移动端提供接入服务。


展现层为系统用户提供最直观的人机交互界面,包括PC浏览器和移动端,主要通过React技术开发,PC端和移动端尽可能保持交互统一,为用户提供良好的用户体验。


imageimage1_1760585295.6031291.png

智能运维平台应用架构



imageimage2_1760585295.897786.png

智能运维平台技术架构



imageimage3_1760585295.9458935.png

智能运维平台业务架构


四、项目过程管理


需求分析阶段:2023年6月,需求分析完成。


设计阶段:2023年10月,系统详细设计完成。


开发阶段:2024年1月,系统编码、测试及上线准备完成。


测试阶段:2024年3月,试点上线。


系统上线:2024年6月,全部推广应用完成。


五、运营情况


甘肃农信智能运维平台于2024年3月完成大部分功能的投产,现系统已稳定高效运行一年时间,现已实现130+套应用系统、3200+台操作系统、150+套数据库、10个虚拟化平台的纳管和监控;2024年度总计监控异常并告警2W+以上、准确通知到相关人员1.8W次以上。配置管理库目前软硬件资源已达到14000+以上。ITSM流程管理变更发布工单量已达到1000+,服务请求工单量已达到6000+。自动化管理实现54套应用系统一键启停编配,63套自动化巡检,另已实现日志易的自动化安装、NAS的自动化挂载等。并有效支撑各类监控报表和数字大屏的设计开发。为业务系统的安全稳定运行做好支撑保障工作。


六、项目成效


1.经济效益


甘肃农信智能运维平台作为支撑科技运行的基础平台,不同于业务系统,没有实际的业务运行。但平台为甘肃农信业务安全稳定运行提供了重要保障和支撑。及时发现并解决业务系统运行中的问题,很好的避免了业务中断损失。为甘肃农信的口碑和监管要求做出了巨大的贡献。产生了巨大的经济效益。


2.社会效益


通过本项目的建设,一是逐步完成我行基础运维平台的国产信创的替代,实现自主可控和安全可控,不再受制于国外厂商;二是保障了甘肃农信的业务稳定运行,提升了客户资金的安全以及金融服务能力,为区域发展贡献了科技力量;三是本项目的建设为行业基础运维提供良好实践和转型路径。


七、经验总结


一是通过统一运维门户与分级管控相结合,有效提升了整体运维的便捷度和安全性。整合硬件监控、应用监控、灾备切换等分散平台为统一运维入口,集中管理用户权限与资源,避免多平台切换繁琐,提升运维便捷性。同时,通过IP白名单限制自动化运维模块网络访问,结合“用户权限+登录网络域”动态匹配展示模块与资源,从源头规避操作风险与数据泄露。该创新解决传统运维“多入口、难管控”问题,平衡便捷性与安全性,为基础运维提供稳定载体。


二是通过流程驱动自动化作业,可有效适配复杂运维场景需求。平台以ITSM流程为核心触发自动化作业,新业务系统投产经审批后,自动完成IP分配、虚拟资源创建、监控部署等操作,解决人工运维工作量大、资源创建迟缓问题。同时覆盖单节点至双中心维护、数据库运维等场景,适配分布式架构下服务器激增需求,自动化巡检功能还能将结果定向推送业务负责人,大幅提升运维效率,有效缓解上百套业务系统的运维压力。


三是通过多模块协同联动,实现运维精细化与办公一体化。平台联动ITSM流程与告警管理,告警自动转化工单并灵活流转,搭配敏感内容加密、流程计时提醒,实现告警处理“闭环留痕”。同时,CMDB动态更新校准资产台账,多维度报表直观呈现运维数据,还建设项目管理、知识库等办公模块,既实现运维全流程精细化管控,又为日常办公提供支撑,形成“运维+办公”一体化服务能力。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

光大银行:鹰眼系统

光大银行作为全国性股份制商业银行在5G、移动互联网时代,市场发展迅速,业务创新不断,业务量快速增长,后端支撑体系管理的WEB应用服务器实例有几千个,覆盖云上云下、容器、微服务等复杂场景。依赖现有运维人员人工监控和分析,故障解决手段单一、低效。引入鹰眼系统,构建业务视角、端到端和立体化的监控体系,实现业务调用链的可视化,帮助运维人员基于业务链条快速定位问题,处置故障,提升了复杂环境下,故障的处理能力和效率。

2024年“鑫智奖”第六届金融数据智能优秀解决方案评选 北京宝兰德 2025-10-16

长亮科技:分布式银行核心系统解决方案

长亮分布式核心系统采用全新的“微服务+单元化”架构,支持服务的灵活组合部署和单元化的无限动态扩容,满足银行未来业务发展的爆发性增长需求,具备开发、业务及技术敏捷能力,能够有效支撑业务的快速创新。

2024年“鑫智奖”第六届金融数据智能优秀解决方案评选 长亮科技 2025-10-16

浪潮云海:基于浪潮云海InCloud Rail超融合云基础设施的金融协同办公环境支撑方案

金融服务机构因分支机构多、层次多、员工数量庞大,而且数据敏感,传统办公协同采用专用MCU视频会议解决方案,但随着视频会议的发生地点逐步由过去的定点会议向不定点会议转变,基于浪潮云海超融合基础设施的云视频会议正成为满足金融机构敏捷办公和业务拓展需求的新兴解决方案。

2024年“鑫智奖”第六届金融数据智能优秀解决方案评选 浪潮云海 2025-10-16

重庆农商行:分布式信用卡核心建设及异构数据平滑迁移项目

项目主要采用分布式微服务技术和异构数据平滑迁移技术。分布式微服务技术方面,主要是通过领域驱动设计(DDD)方法,将原单体应用按照业务模块进行拆解,形成高内聚、低耦合、规模适中的自治微服务。在数据层面,采用分区多活架构设计,数据组织方式从原有以机构维度为主的集中式转变为以客户为主的单元化多分片式,通过分布式数据库支撑上层微服务应用单元化能力。最后通过云原生容器环境,实现了应用全面上云;异构数据平滑迁移技术方面,基于自研异构数据迁移平台,包含去Oracle改造开发、数据技术开发、业务改造开发、架构设计、测试联调等五个模块,建立“人员-规则-工具”的闭环,确保数据迁移高效,业务无感知。

2024年度全国农村金融机构科技创新优秀案例评选 重庆农商行 2025-10-16

晋商银行:新一代手机银行项目

晋商银行新一代手机银行采用分布式微服务,实现了前端动态化楼层管理,以及服务端架构升级的方式,支持按不同用户级进行灰度发布等。从功能布局、视觉感官、流程交互等方面进行深度设计改造,围绕用户财富旅程,对存款、理财、基金等产品进行流程重塑。构建起APP+网点+远程的同源、同频全渠道协同服务体系。打造具备特色生态基因的数字化手机银行App,完成了旅程重构、特色金融、场景生态、协同经营、安全守护五大方面的变革升级。

2023年度城市金融服务优秀案例评选 晋商银行 2025-10-16

辽宁农信:统一日志分析平台

统一日志分析平台围绕用户的核心需求,日志集中管理与搜索分析,为用户提供一个日志集中统一管理平台,提供实时采集、实时搜索、关联分析、故障定位及监控告警、多维度数据分析统计和数据可视化等功能,帮助企业进行运维监控、线上业务实时监控、业务异常原因定位、业务日志数据统计分析、安全合规审计及数据挖掘。

2023第七届农村中小金融机构科技创新优秀案例评选 辽宁农信 2025-10-16

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 智能运维
  • 分布式
  • 微服务

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构