本文来源于:2024年度全国农村金融机构科技创新优秀案例评选,作者:常熟农商银行

常熟农商银行:全场景统一智能告警平台

2024-09-29 关键词:农信/农商行,产品创新,数据平台与数智应用 3127

一、项目背景及目标


(一)项目背景


人民银行、银保监会等监管部门近年陆续发布了《金融科技发展规划(2022年-2025 年)》和《关于银行业保险业数字化转型的指导意见》等规划指导文件,文件中明确提出“加大数据中心基础设施弹性供给”、“加强故障自愈,不断提高运维智能化水平”等要求。


近年来,我行持续响应国家号召并顺应行业发展趋势,积极开展数字化转型工作。随着我行数字化转型的不断深入以及业务的不断发展,也对我行IT架构提出了更高的要求,业务系统和应用数量呈现指数级的增长。随着新型应用也不断涌现,传统的监控平台遭遇了严峻挑战,面临着监控对象的推陈出新、监控指标数量增长、个性化、精细化等更多的需求出现。


(二)项目目标


1、统一告警视图


整合各类监控工具后,能够为管理人员提供一个统一的告警视图。无论告警信息来自哪个监控工具,都能在一个界面上集中展示。目前行内有30多个监控工具,整合后,运维人员可以在一个屏幕上看到所有相关的告警,而不需要在不同的监控界面之间切换查找。


2、告警信息标准化


不同的监控工具可能有各自不同的告警信息设定方式。统一管理告警信息后,通过制定一套标准化的告警规则,将所有监控工具的告警等级、告警对象、告警处置方式等设定为统一的标准,避免因为不同工具告警信息的差异而导致混乱,提高告警的准确性和一致性。


3、告警数据丰富


结合CMDB对告警信息进行丰富,根据告警对象匹配对应的应用系统负责人及运维人员,统一管理告警联系人,避免告警误发、漏发情况;识别告警关键信息添加标签,根据不同标签丰富告警处置场景;通过历史告警信息的告警类型、告警频率等元素与算法泛型结合进行模型训练,生成周期性、突发性、变更等告警标签,进一步增强告警识别能力。


二、创新点


(一)告警压缩


基于规则和智能算法对海量的、持续的冗余消息进行告警压缩和告警合并,抑制告警消息的数量,减少告警消息的频率,降低冗余告警消息对运维工作的干扰,提升运维工作的效率。


144.png


告警压缩:将告警消息按照告警对象、检查项压缩为警报的过程叫做告警压缩。


告警合并:将警报按照应用系统合并为事件的过程叫做告警合并。


示例场景:xx应用有ABCD节点,目前AB两个节点的响应率异常,监控工具每分钟轮询检查AB节点时都会给告警平台推送告警信息,造成大量重复告警。这时告警对象是服务节点“AB”,检查项是“响应率”,节点A和节点B上的所有响应率告警经压缩只会生成A节点响应异常和B节点响应异常两个警报,有效屏蔽重复告警。由于A警报和B警报都属于xx应用,告警合并会将警报A和警报B合并为一个告警事件,运维人员和生产管理员只需跟踪这个告警事件即可快速了解XX系统响应异常的问题处置进度。


(二)告警订阅


摆脱传统运维监控用户被动接手告警的方式,用户可通过指定监控要素,主动订阅或屏蔽相关告警信息。


145.png


如图中配置可订阅核心系统相关中间件告警信息和网管监控平台上的村镇银行相关告警信息。


(三)事件标签


变更标签:联合自动化发布平台,在应用系统发生变更和完成变更时主动推送变更标识给智能告警平台,平台根据应用系统变更状态,将在变更时间段内对应应用系统的告警添加“变更”变签。

周期标签:告警周期时长统计范围为1-31天,并根据周期时长设置不同的buff,当有告警生成时由平台计算过去70天内的告警,给满足周期条件的告警事件添加“周期”标签,同时将该周期内的告警进行关联展示。

   

 146.png

图一中告警添加了“维护完成”标签,根据维护时间可以识别该系统在2023年9月13日凌晨有执行应用变更,相关告警自动取消推送。


147.png

图二中的告警添加了“周期”标签,表明该告警与历史记录中的同类告警信息存在周期关系,协助运维人员识别周期性告警。


(四)移动端运维


平台提供适配移动端页面,通过单点登录技术将其集成在我行内部沟通协作平台(蓝信),用户利用该功能快速进行告警分析和告警处置。


148.png


(五)告警时间线


当告警事件的合并规则为告警压缩/合并时,在事件详情页显示时间线页签。告警事件的时间线展示了事件内警报生命周期内的状态变化情况,可以用来初步判断告警的根因情况。


154.png


事件的时间线展示以下信息:


149.png


警报列表展示每个警报在生命周期内的状态变化情况。不同的颜色分别表示不同的告警等级。


时间线上的点代表告警级别发生变化的点,当告警消息的状态变化时,时间线上展示状态发生变化的点(如果时间线上的告警消息状态相同,则仅会显示一个点)。


单击警报时间线上的点,展示该时间点对应的告警消息的内容。


三、项目技术方案


(一)系统架构


智能告警平台系统整体部署在VMware虚拟平台上,平台基于微服务架构设计,通过应用服务集群化、数据库集群化、中间件集群化,实现平台整体高可用。


150.png


(二)产品架构


151.png


(三)技术架构


152.png


(四)业务架构


153.png


1、原始告警接入:支持API、syslog、SNMP等接入方式。


2、事件丰富:结合CMDB,通过IP地址映射应用系统名、统一告警等级、智能标签等。


3、事件生成:通过应用系统名对告警进行合并,通过告警对象、检查项对告警进行压缩。


4、事件推送:推送规则分为告警开启、告警升级、告警关闭、告警静默,通知分为邮件、蓝信、短信和电话。


5、告警处置:收到告警通知的用户可以进行告警接手、转发、转派、解决等操作。


四、项目过程管理


项目各阶段的实施周期


(一)需求分析阶段:2023-10-09 ~ 2023-11-23


在需求收集过程中一方面在科技部内部发起调研,了解一线运维同事对监控告警方面的需求和痛点,另一方面结合行内智能运维发展战略,全面了解不同用户需求、确定产品功能和性能要求。


(二)设计阶段:2023-11-24 ~ 2023-12-07


结合需求文件,合理进行系统架构设计,通过模块划分确保系统具备良好的扩展性、维护性和高可用性;注重用户体验,在用户界面和交互设计时注重直观性和易用性,同时提供一些个性化设置。


(三)开发阶段:2023-12-08 ~ 2024-02-15


得益于前期良好的需求分析和架构设计,在项目开发过程中未出现需求偏离情况。通过合理分配开发资源、沟通协作版本控制等方式,有效保证了开发进度和质量。


(四)测试阶段:2024-02-16 ~ 2024-02-29


在测试过程中我们通过单元测试和集成测试组合的方式:在前期先进行功能模块单元测试,确保各个模块功能正常;在中期根据实际情况进行功能模块集成测试,对于告警解析、告警处置等关键接口,在集成测试后再次进行单元测试,防止因集成而引入新问题;在后期对单元测试和集中测试过程发现的问题,在问题修复后组织回归测试。


(五)部署阶段:2024-03-01 ~ 2024-03-14


部署阶段主要工作集中在智能告警平台部署后的第三方监控平台告警对接和调试。


(六)试运行阶段:2024-03-15 ~ 2023-05-23


试运行阶段工作主要分为两方面:1、持续观察智能告警平台运行状态,检查各个功能模块性能和稳定性,确保告警事件接收、处置、关闭等环节正常工作;2、为用户提供平台使用培训,收集用户反馈意见,了解他们在使用过程中遇见的问题和建议,积极对平台进行必要的调整和优化。


(七)项目验收:2024-05-24 ~ 2024-06-06


发起项目结项会议,组织相关人员进行项目验收,确保系统满足需求和质量标准。


(八)维护阶段:2024-06-07 ~ 长期


长期进行,以确保系统的稳定性和可靠性。


五、运营情况


智能监控告警平台目前已初步形成涵盖机房环境、主机、存储、网络、数据库、中间件、应用、安全等全方位立体化监控体系,对开源产品支持度友好,集成告警分析,告警处置,告警跟踪,智能标签,个性化告警订阅等功能,支持信创相关软硬件的监控,已具有完善的监控管理生态。


目前平台月均处理告警事件5668项,其中重要级别事件2491项,占比44%,次要级别事件3177项,占比56%。事件平均处置时效约24分钟。工作时段平均处置时效约19分钟,非工作时段平均处置时效约28分钟。


六、项目成效


(一)经济效益


1、成本节约:通过实时监控和告警,能够及时发现和解决问题,避免设备故障或系统故障导致的生产中断,降低维修成本和停机损失。近3月生产问题数量下降10%。


2、提高效率:帮助运维人员快速定位和解决问题,减少故障处理时间,提高工作效率,从而增加整体产出。据统计70%通知时间在10分钟以内,处置效率提升约22.2%。


3、资源优化:基于平台提供的数据分析和洞察,可以合理分配资源,避免资源浪费和不必要的投入,特别是操作系统层面的存储、内存、cpu等。


4、降低风险:及时发现安全威胁和潜在风险,采取措施进行防范和应对,减少可能的经济损失。


5、决策支持:为行内决策提供实时数据和关键指标,帮助管理层做出更明智的决策,提高经济效益。例如产品推广和促销活动时有效监控对应系统运行状态。


(二)社会效益


1、提高服务质量:确保系统的稳定性和可靠性,提升服务质量,增强用户满意度,提升企业在市场中的竞争力。


2、促进信息化发展:推动企业和组织的信息化建设,提高整体运营水平。


3、推动行业发展:为行业提供示范和借鉴,促进相关行业的技术进步和发展。


七、经验总结


在项目初期,深入与各部门(运维、业务、开发等)沟通告警需求是非常正确的做法。这使得我们全面了解到不同角色对于告警的期望,如运维人员关注准确的告警分类以便快速定位问题,业务部门则侧重于对业务影响较大的告警通知。通过这种全面调研,为平台功能设计提供了坚实的依据。


在项目实施周期内,与相关方保持定期沟通至关重要。通过定期的需求沟通会、进度汇报会等,及时解答各方疑问、获取反馈,确保项目始终朝着满足各方需求的方向发展。例如,在开发过程中发现某些告警规则可能影响业务流程时,及时与业务部门沟通调整,避免了后期的重大变更。


未来我们会持续改进智能告警算法,提高告警的预测性。通过对历史告警数据和业务数据的深度挖掘,开发能够提前预测告警发生的算法,从而实现主动运维。加强与其他运维管理工具进行深度集成,如自动化运维平台、配置管理数据库(CMDB)等,进一步提升运维的整体效率。同时根据用户反馈,不断优化平台的用户界面和操作体验,使平台更加易用,更好地满足业务发展需求。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2024-09-29

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2024-09-29

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2024-09-29

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2024-09-29

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2024-09-29

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2024-09-29

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 农信/农商行
  • 数据平台与数智应用
  • 产品创新

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构