本文来源于:第五届农村中小金融机构科技创新优秀案例评选,作者:广东农信

广东农信:基于大数据的立体化监控告警体系建设项目

2021-09-26 关键词:农信/农商行5322

一、项目方案


项目立体化规划设计监控告警架构体系,分离专业化工具信息采集、监控数据管理、监控数据分析与利用服务,实现复杂场景分析和潜在根因分析的用户场景。根据架构体系并对原有监控告警能力进行重构和补全。

内容主要分为监控集成管理系统、IT基础资源采集系统、应用监控分析系统、应用异常检测系统、应用性能采集系统五大子系统建设和配置管理系统优化,其中监控集成管理系统、应用监控分析系统建设在基于阿里云技术底座的金融云上,具体如下图:


229.png


1.监控集成管理系统

汇总、加工整个数据中心的监控告警信息,基于大数据平台数据处理能力分析、定位、收敛告警。以监控告警管理体系规范,落地告警管理流程,实现监控告警全生命周期管理。共享与消费CMDB、流程管理、自动化工具等服务能力与数据。同时也是各系统流转与运行的数据支持与服务提供方。

2. 应用监控分析系统

以应用系统角度建立日志分析模块,实现日志查询与检索中心,对大集中重要系统的重要日志进行聚合、分析、展示,解码配置规则简单,具备高效的日志检索功能,按交易场景进行日志关联分析,串联同一笔交易在不同节点的链路分析,通过关键字可以方便快捷地查询到对应日志信息,提供数据输出接口,满足性能要求,不对原业务系统产生过重影响。

3.应用异常监测系统

通过HTTP/HTTPS协议方式探测应用端口,解决难以发现应用处理耗时长、进程僵死的问题,以及对集群应用系统进行有效监测。

4.应用性能采集系统

通过以旁路数据的方式分析交易量、响应时间、成功率、响应率等指标,串联业务交易场景,对交易链路上各节点系统的应用性能做到及时采集、报警,出现故障后,可以迅速定位到服务器、端口、交易码等有异常的指标数据,尤其是支持对响应时间的深度分析,可以清晰的展示业务中各节点的时间消耗数据。

5.IT基础监控采集系统

实现基础监控信息的采集,满足传统资源、云化资源等不同类型的基础监控对象的信息采集、信息聚合分析和监控告警等需求。

6. IT运维配置管理

IT运维配置管理(简称CMDB),通过对硬件、软件和应用服务配置关系管理,扩大常用的硬件、软件和应用服务配置数据以及配置关系的发现范围,构建动态化的生产运行系统关系图谱,从而实现在运维管理体系中提供基础数据支撑服务能力。


二、创新点


1.秒级实时监控

通过每秒级TPS和响应时间监控,实时监控交易运行情况,为“6·18”、“双11”、“春节红包”等业务高峰场景提供实时监控,保障广东农信业务稳定运行,在满足实时监控需求基础上,呈现更多的科技自信。


230.png


2.分层解耦设计

监控告警体系各能力层建设具备开放性,不局限于某类产品工具或某些厂商,发挥不同工具产品与厂商在不同IT资源领域监控数据采集、数据集成等方面的优势。

3.生命周期管理

构建监控告警管理体系规范,落地告警管理流程,实现监控告警申请、审批、部署、运行、回收的全生命周期管理。确保监控新增需审批注册、异常处理责任到人、乱报误报将溯源回收。

4.多维分析定位

通过对各类监控工具信息综合分析,实现告警信息总览全貌。纵向刻画:总览全貌,步步深挖,各层的运行信息。分层监控:专业化视角,关注运行服务影响。


231.png


5.海量数据处理

项目采用微服务架构,支持容器方式部署,具备处理性能快速横向扩展和高可用能力。同时项目基于云平台能力上的实时计算平台和基础数据平台建设,充分利用云平台大数据计算能力,整个平台具备每秒处理140,000条记录的能力。


三、技术实现特点


1.大数据计算

项目基于云平台能力上的实时计算平台和基础数据平台建设,充分利用云平台大数据计算能力。

监控数据作为的运维数据主题融入大数据平台。衔接智能运维建设,在服务、推动运维业务的同时,挖掘更多、更有价值的新运维数据使用场景。


232.png


2.微服务框架

运维业务数据采用了水平切分的方式,每个维度使用一个独立的系统,保证了专业监控数据的独立性和数据安全性。使用微服务框架建设,将各个模块划分成多种微服务,实现容器化部署。

3.基于图数据库的底层数据存储

通过图数据库对CMDB数据进行存储管理,相对于关系数据库中的各种关联表,图形数据库中的关系可以通过“关系能够包含属性”这一特性来提供更为丰富的关系展现方式。

CMDB需要从过去面向资源管理走向面向应用管理,由应用的管理能力驱动底层的资源管理能力服务化。


四、项目过程管理


本项目涉及多套子系统,系统间相互关联。因整体采用分层解耦设计,使得子系统并行开发,分阶段建设。以持续性迭代补充方式,丰富监控数据采集的范围,细化监控管理分析模型,多维度持续构建监控管理应用场景。

*****阶段:完成应用异常监测系统建设;完成应用监控分析系统核心功能建设;

第二阶段:应用监控分析系统持续优化;开展CMDB优化改造;开展IT基础资源采集系统建设;完成应用性能采集系统建设。

第三阶段:应用监控分析系统持续优化改造;开展CMDB运营管理;完成IT基础资源采集系统建设;完成监控集成管理系统建设。


五、运营情况


在投产运行至今,项目各系统运行稳定。实现监控信息采集能力建设之上的运维监控数据沉淀能力和运维数据分析管理能力,强化监控管理标准化、补足目前监控管理中存在的短板。

设置了300多条告警策略进行全方面监控,确保系统内应用出现问题时都能*****时间反馈并推送至技术人员。目前,项目每日处理监数据记录1.2亿条,告警准确率达90%以上。


六、项目成效


项目系统接入了业务交易、应用系统、基础软件、操作系统、基础资源等多个维度运维数据,真正实现立体化管理,为广东农信提供了全方位、高精度、实时的监控告警工具。构建新型监控信息采集方式,解耦分离信息采集、告警管理、信息输出与利用,同时梳理与实施监控的全生命周期管理体系,并且完成监控管理理念转化,从手工监控、脚本监控转化监控信息运营分析。


233.png


234.png


235.png


七、经验总结


充分利用私有云平台、大数据能力,自主研发核心监控告警组件,成功实现立体化监控告警体系建设。实现运维监控数据沉淀能力和运维数据分析管理能力;强化监控管理标准化、补足原先监控管理中存在的短板;对接多维监控数据来源,构建基于数据分析的多元化、富场景化的监控运营管理体系,突出监控服务于业务的价值。

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2021-09-26

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2021-09-26

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2021-09-26

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2021-09-26

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2021-09-26

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2021-09-26

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 农信/农商行

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构