本文来源于:2022年第六届农村中小金融机构科技创新优秀案例评选,作者:江西农信
江西农信:智能化“云+AI”运维监控项目
2022-10-01 关键词:农信/农商行,运维管理,业务系统建设
2189
一、项目背景
随着我行业务规模不断增大,关键交易类系统业务量越来越大,业务系统架构快速更新迭代,业务云化转型持续推进,云上环境(阿里专有云)和云下传统环境运维监控面临新的挑战。一方面,云上业务无法实现精准有效的业务级监控,云上云下业务监控数据也难以在统一视角下,实现全链路业务关联监控分析。同时,各监控节点的业务、应用与网络指标也无法实现深度融合和统一展现,实现全链路指标关联监控分析;另一方面,采用传统的阈值监测方式,在当前海量、多维度的监控指标数据情况下,难以充分挖掘数据价值,从而提升异常检测和快速定位的能力。
江西农信迫切需要有效手段,能够对关键业务系统性能进行深度管理和监控,覆盖云上阿里专有云和云下传统环境,敏捷应对业务变化,真正做到端到端的业务交易性能监控与分析,同时能对每个应用下的业务指标(包括交易量、交易类型、渠道、响应率、业务成功率等)、网络指标(交易比特率、网络延迟、网络重传率、建连成功率、ACK延迟等)进行深度融合性展示及分析。当故障发生时,监控平台能够根据各组件或节点的各项指标参数,自动化定位故障根源,提高故障处理速度,保障云上和云下环境业务系统的业务连续性、可用性以及稳定性。
二、项目目标
通过智能化“云+AI”运维监控项目建设,实现以下目标:
1.全链路业务可观测性。通过端到端、全链路监控,实现物理服务器、重要防火墙、负载均衡、云下虚拟机实例、云上阿里ECS实例等不同环境下的全链路业务监控保障,实时感知业务变化,统一业务性能观测视角,提高问题发现和定位的效率;通过微探针引流的方式,将云环境中的网络数据进行全量采集、解码分析与处理,通过分析网络指标和业务指标,构建对云网环境的全景、立体式监测,保障云上业务连续性、保障新业务上云。
2.智能化AI诊断分析。通过AI算法学习,实现自动化学习阈值、自动调参,自动、实时、提前、准确地从海量数据中发现异常隐患,提高告警的精度,大幅降低人工配置成本。通过配置关系、专家经验、历史规律、指标数据确定故障的范围,识别表现异常的系统、交易等,基于配置关系、历史规律,实现AI智能关联分析,锁定故障根源。
三、项目方案及技术实现
根据现有的实际情况,一方面首先需要实现云上云下流量的采集和管理,实现应用层和网络层指标立体化监控;另一方面将部分重要业务系统进行多维度精细化分析,针对交易类型、交易渠道、机构、返回码等多个维度进行指标分析,让指标数据更具价值。
1.云上云下流量采集。全链路业务性能监控平台通过对网络流量的采集和解码,提供业务层的监控分析功能,对于业务运维必不可少。通过建立云上云下业务全链路的可观测性,基于服务水平、可用性、异常事件、紧急事件、TCP连接等类型的告警,做到智能故障定位。监控零侵入、零风险、高精度、实时。

一是传统环境流量采集。传统环境网络流量的采集,采用交换机镜像的方式,做到零风险、高实时、可信等特点。传统环境的网络流量,均会通过物理交换机,所以在物理交换机上,可以捕获到完整的东西向、南北向网络流量,且物理交换机的镜像功能是一个存在在数十年的成熟技术,硬件级处理,零风险。

二是云上流量采集。对云上的重要业务系统。通过在ECS中部署微探针,进行业务流量采集,由CPM对所有微探针进行集中控制,微探针采集的流量采用Vxlan/GRE隧道的方式,发送给监控服务平台和vTAP平台,vTAP平台作为云内流量池,可将云内流量一对多的复制给其它消费方。

2.智能化数据分析。本次项目中,分批的获取了服务器接入层交换机、大二层交换机、外联、互联网、DMZ等各个区域交换机的流量。根据项目需求,将分两种方式进行独立的数据解析。
一是在对云环境和传统环境的网络流量进行捕获之后,在原有的采集设备上,对流量进行全量解码。原始流量是以01的二进制方式存在,如需要对流量数据进行使用,数据包解码是为关键的一步。
在本项目中,数据包的解码不仅仅停留在TCP/IP通用包头的解析上,还对报文的全量业务字段进行了深度解析,例如金额、流水号、账号、交易类型等等关键字段。

二是搭建大数据处理平台,对解码后的报文,以流量输出的方式,进行二次分析。对业务性能重要数据指标数据,如交易量、响应率、响应时间、成功率等数据,进行算法指标异常检测,建设业务指标异常检测和根因定位算法引擎,实现的算法包括变分自编码器、渐进梯度回归树、差分指数滑动平均、极值理论、周期性中值检测、 LightGBM、蒙特卡洛搜索树等。识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现与恢复时间。当业务指标出现异常波动、或者出现劣化迹象时,自动触发故障根因定位功能,从故障业务系统异常时间段的大量交易明细中,分多种属性维度统计后进行异常检测,并且根据候选根因集的指标变换率和包含关系等进行排序,终确定异常根因。
四、创新点
智能化运维监控项目的建设将云上与云下流量、网络与应用、应用与业务等数据进行融合,通过智能化深度分析,实现统一视角,全链路监控分析。
1.云上云下流量统一汇集。从传统环境到云环境,数据采集的难度大幅上升。一笔交易的流转,会经过云上云下各个环节,那么在进行故障分析时,采集数据和手段的不一致、指标口径不一致、数据时间戳不一致等问题,都会对故障发现和定位带来影响。

一是云上云下网络流量数据的汇聚。首先我们通过微探针来采集每个ECS的流量,并将流量统一汇聚至vTAP,由vTAP来完成云网流量的汇聚;传统环境的流量采集,通过网络交换机镜像功能,将镜像流量汇聚至物理TAP设备,物理TAP设备完成传统环境流量的汇聚;然后vTAP的流量,全量转发至物理TAP,由物理TAP设备完成云上云下流量的汇聚,由vTAP和物理TAP共同组建了流量池。
二是云下云下数据包统一时间戳。在本项目中,我们由BPC监控集群统一对数据包打上纳秒级时间戳,确保交易响应时间、网络延迟等关键指标的精度和准确性。
2.网络与应用、业务性能指标融合。本次项目汇聚多节点网络数据源进行网络指标计算和业务应用性能指标计算。当某个渠道的交易发生问题时,业务性能指标能快速的定位到交易响应慢的节点,系统能根据组件级别的网络性能指标,快速的自动判断网络通信是否有问题。例如是否是由于流量大导致拥塞、网络链路质量差导致丢包、网络延迟高、TCP连接问题等,这一切网络指标,都会自动关联到业务链路中的具体IP节点,从而实现从业务的视角观测网络,解决了以往运维中网络性能分析和业务应用性能分析视角不一致的问题。例如下图中,我们可以一目了然的看到业务全路径中,每个环节的网络通道状况,真正做到了从业务的视角观测网络。

3.应用与业务指标深度解析。基于智能运维算法,提供时序数据管道和持久化,通过对业务性能黄金指标数据,如成功率、交易量、响应率、响应时间等具备时间间隔固定,有时序规律或周期性特点,并且可以反映业务系统健康度的指标数据,自动提取多种曲线特征,自动选择优算法,利用聚类算法缩减训练开销,进行实时异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现和恢复时间。

五、项目过程管理
整个项目计划分为以下几个阶段实施:
1.需求分析及同业调研。
时间:2021年12月1日—2022年1月10日
2.建设方案设计。
时间:2022年1月11日—2022年2月20日
3.定制开发。
时间:2022年2月21日—2022年4月20日
4.系统上线。
时间:2022年4月21日—2022年4月25日
5.系统试运行。
时间:2022年4月26日—2022年5月26日
6.系统功能验收测试。
时间:2022年5月27日—2022年6月27日
六、运营情况
在项目建设投产运行后,基于金融行业对系统可用性、连续性要求,我们选取了核心、ESB、农信银支付、手机银行等10套系统着重进行验证,并不断的优化流量数据采集、数据接入维度、异常检测分析、根因定位分析等,从而更加精准地提升异常检测和快速定位的能力。
案例1:ESB后端适配器与核心交易异常的故障,通过实时监控,秒级发现问题并定位问题,例如下图红色为故障节点,通过告警一键分析,可以自动关联业务指标和网络指标、报错等信息,快速的定位和解决问题。


案例2:农信银来账(防火墙外)平均响应时间异常,通过业务指标明细多维定位,定位导致此次告警发生的若干维度组合,给问题根因定位提供方向。

七、项目成效
智能化“云+AI”监控运维平台自上线以来,在提升系统可用性方面成效显著,近三个月发现潜在异常和风险点共计50余个,将可能的故障问题消弭于无形,切实提升系统连续运行能力,有效降低运维成本。
1.全行端到端业务监控覆盖,通过项目的建设,覆盖传统环境和云环境重要应用节点,建立云上云下业务全路径流量数据的全面采集、集中处理、统一观测,保障业务连续性、保障业务上云。
2.网络与业务指标融合,将故障分析定位范围扩大到了网络层,统一了业务应用和网络运维的监控视角。自动关联业务层和网络层指标进行告警成因分析,判断问题出在应用层还是网络层,并存储并举证原始故障数据的交互过程。
3.基于AI智能化告警,为在大量数据中及时准确发现存在问题提供可能。传统业务指标和机器指标监控需要人工设定固定阈值,等指标值达到设定的阈值才会报警。自研指标异常检测算法既能省去了固定阈值的运维经验、海量设定的工作,又能适应现实数据的复杂状况,给出精准的报警效果,减少漏报误报。
4.业务指标多维根因定位,在复杂业务及海量数据中精准定位问题根因,为问题排障争取时间,为服务连续性提供给保障,提升运维效率和节约运维成本。

5.便捷清晰的可视化界面,对业务指标数据进行归纳分类,方便事后进行统计分析,为运维人员在复杂数据中寻找关键信息提供方便。
告警列表
一条告警信息中包含这些字段:告警触发时间、场景名称、告警对象、告警状态、告警描述、告警定位、告警级别、持续时间、触发方式、反馈和操作等字段。

异常指标详情查看
详细查看异常指标波动情况,包括动态基带、指标异常波形和异常点、异常程度等信息。

八、经验总结
智能化运维监控项目的投产,很好的解决江西农信现有的云上云下运维困境,降低了生产系统安全事件的发生和处置成本。接下来,江西农信将继续严守安全底线,同时积极主动拥抱变化,主动学习、应用新技术助力发展,将以前完全依赖人工经验的运维模式逐步向“智能判断为主,人工复核为辅”的新模式转变。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2022-10-01
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2022-10-01
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2022-10-01
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2022-10-01
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2022-10-01
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2022-10-01
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构