本文来源于:2024年度全国农村金融机构科技创新优秀案例评选,作者:广东农信
广东农信:自动排障网络定位工具项目
2024-10-09 关键词:农信/农商行,运维管理,风险监测
3563
一、项目背景、目标及相关规划
1.项目背景
网络运维人员排查故障存在五大痛点:
(一)依赖技术和经验。银行网络中的设备品类繁多,功能各不相同;网络设备的品牌也多种多样,命令语法各不相同。这对排查故障的人员来说,虽然具备大量的技术和经验积累才能驾驭。
(二)依赖环境熟悉度。银行的网络拓扑比较复杂,与此同时各系统之间的交互关系又盘根错节,这就要求排查故障的人员要非常熟悉环境才能找到排查方向。
(三)存在数据孤岛以及信息碎片化。首先银行内不同平台的数据相互隔离,比如CMDB和网络流量分析系统的数据都是分别独立存储的。其次,报障人提供的信息通常是零散、片面的,排障人员在不能及时看到故障全貌的情况下容易被误导排障方向。
(四)银行业务系统之间关联性复杂。首先单个业务系统本身就存在多层架构,其次不同业务系统之间又交叉访问,增加了故障排查以及关联分析的难度。
(五)排障时间紧迫。发生故障时,首要任务就是进行业务恢复,在争分夺秒抢修业务的过程中,排障人员还需要承受来自各方催促的压力,需要具备较高的心理素质。其次,现有的排查工具属于专业工具,操作的门槛较高,对人员的技术要求也较高。
2.项目目标
自动排障网络定位工具旨在让故障定位自动化、简单化、高效化。
(一)自动化。自动排障网络定位工具整合了银行内部的数据、场景、技术。用户仅需输入一个IP或一个链接,工具与CMDB、网络流量分析等系统融合,自动从海量的静态配置数据和动态流量数据中获取相关信息,自动整合分析。采用全局故障概览图的方式,展示相关的网络拓扑和应用交互关系,并用显眼的颜色标注故障点和异常指标,实现一键式诊断,秒级定位故障源。
(二)简单化。自动排障网络定位工具的使用非常简单,无需专门培训就能使用。用户只需要将仅知的碎片信息填入输入框,工具就自动从海量数据中找出关联数据自动画图,指出异常位置。该工具对排障人员的技术和经验要求大大降低,也不要求排障人员提前熟悉环境,做到新员工也能马上上手排障。
(三)高效化。自动排障网络定位工具运行时间短,工具的运行过程包括了数据查询、关联分析、前端渲染,总体耗时达到秒级,大大节约了排障人员的时间,使故障业务得以迅速恢复,为银行业务连续性保驾护航。
3.建设规划
在智能运维体系的指导下,通过数字化技术进一步实现减负释能。我社网络室人员从实际情况出发,规划通过自动化手段替代人工排障过程,提高排障效率。同时,基于自主可控的思路,采用自研的模式,探索和发展出我社网络运维自主研发的道路。
第一阶段:数据收集。
我社网络设备数量庞大,品类繁多,同品类设备也存在多个品牌,不同品牌的命令语法各不相同,这对配置信息管理造成了较大难度。一方面在设备的品类上有DNS、防火墙、负载均衡、SSL、WAF、路由交换、NAT64等等。另一方面,各个品类都有若干个品牌,使用不同的配置命令。同时这些配置还会随着每天的变更需求不断变化。为了实时管理配置信息和自动画拓扑图,我社网络室人员通过自主研发,将不同品牌的配置命令自动翻译成统一的表格数据,且每天自动录入CMDB,形成域名解析表、防火墙策略表、负载均衡调度关系表、SSL代理关系表、WAF代理关系表、交换机ARP与MAC表、互联网资产表。

第二阶段:自动画拓扑图。
我社网络室遵循第一性原理,从网络排障最基本的元素——IP出发,提出“一个切入点,两种关系网”的排障拓扑设计思路。一个切入点即以IP为切入点;两种关系网指IP之间存在两种关系,即映射关系和访问关系。因此排障拓扑也分两部分绘制并拼接,一是映射关系拓扑;二是访问关系拓扑。映射关系拓扑的数据来源于CMDB的配置信息,通过一个IP顺藤摸瓜,对CMDB各个表格进行关联分析,自动绘制出映射关系拓扑。访问关系拓扑来源于网络流量分析系统,通过分析网络流量分析系统的会话表自动绘制访问关系拓扑。

第三阶段:指出故障源。
在得到故障全局拓扑后,就有条件用显眼的方法标注出异常位置。自动排障网络定位工具通过查询每段路径的流量指标,将超阈值的位置标红,从而达到指出故障源的效果,这些流量指标包括:建连失败率、丢包率、网络时延、服务响应时间、SYN重传率。

第四阶段:修剪拓扑。
银行内部各系统间的交互关系盘根错节,导致自动排障网络定位工具输出的拓扑非常庞大,一方面不方便排障人员查看;另一方面由于工具反复递归查询IP关联关系也会增加拓扑输出的时间,从而影响排障时间。为了解决以上问题,修剪拓扑是有必要的。一是通过修剪非异常部分来精简拓扑,只绘制异常的访问关系和所有的映射关系,从而使得网络拓扑得以完整展示,而系统互访拓扑则只展示异常部分;二是适当限制递归查询的IP关联关系维度数。
4.业务功能
自动排障网络定位工具具体实现以下功能:
(一)仅输入一个链接就能秒级查询该业务的网络拓扑和访问关系拓扑,并同时指出故障源,达到窥一斑而知全豹,一键式诊断,秒级定位故障源的效果。一是排障人员无需熟悉各种网络设备各个品牌的命令语法,就能迅速理清网络映射关系;二是排障人员无需提前熟悉系统间的交互关系就能理清系统交互拓扑;三是由于工具已经指出异常位置,排障人员无需在正常的设备上排查,大大节约排障时间。


(二)仅输入一个IP就能秒级查询该业务的网络拓扑和访问关系拓扑,并同时指出故障源。当报障人员仅提供一个IP的时候,排障人员也可以通过这个仅有的线索迅速知道相关网络拓扑和交互拓扑,同时秒级找到异常位置。工具的使用大大降低了对排障人员的技术经验和环境熟悉度要求,也明显节约了排障时间。


(三)回溯过往故障。当技术人员想对过往故障做回溯分析时,可以使用自动排障网络定位工具的自定义时间功能,查询故障时段的拓扑和异常流量指标,让排障人员重返案发现场。该功能有助于运维人员复盘故障,分析疑难杂症,积累排障经验和制作相关培训材料。


二、创新点
银行业数字化转型的三大要素分别是场景、数据和技术。我社网络室牢牢围绕该三大要素进行创新,使得运维排障工具做到适用、好用、易用。
1、场景上的创新
过往采购的运维排障工具没有切身考虑运维人员经历的真实场景。
场景一:解决报障信息碎片化问题。
市场上一些运维排障工具要求用户输入多而全的故障信息才能查询,忽视了报障人提供的信息碎片化问题。一些故障场景中,报障人员并非技术人员,能够提供的信息非常有限,大部分的信息都需要运维人员顺藤摸瓜地调查。自动排障网络定位工具充分考虑了这种场景,贴心地将调查过程自动化,大大降低了与报障人员的沟通成本,明显地节约了故障排查时间。
场景二:解决新员工缺乏技术经验问题。
市场上一些运维排障工具操作复杂,专业术语多,没有经过专门培训难以使用,并没有考虑到新员工独立值班排查故障的场景。自动排障网络定位工具操作简单,无需培训即可上手,大大降低了排障人员的技术门槛。用户只需要输入一个点的信息,工具就能自动分析和展示一个面,比用户想得更多,解决了新员工缺乏技术经验的场景问题。
场景三:解决新员工不熟悉环境问题。
网络流量分析系统虽然统计了大量的流量指标,但是却不能展示拓扑,这种工具假定了用户熟悉环境,清楚网络拓扑,忽视了新员工不熟悉环境的场景。自动排障网络定位工具充分考虑了这种场景,无需用户了解环境,自动完成拓扑分析和异常位置分析,大大降低了排障人员对环境熟悉度的要求。
2、数据上的创新
网络运维数据虽然庞大,但存在两大问题使得数据的使用效率低下。一是格式不统一,网络设备的品类和品牌繁多,命令语法各不相同,在配置信息的展示上出现了七国八制的情况。二是静态数据和动态数据相互隔离,比如静态配置信息存放在CMDB,而动态的网络流量指标存放在网络流量分析系统,排障人员需要在不同平台上切换并进行人工缝合分析,操作繁琐且耗时。
数据上的创新点一:统一配置数据格式。
我社网络室人员通过自主研发,将不同品牌的配置命令自动翻译成统一的表格数据,且每天自动录入CMDB,形成域名解析表、防火墙策略表、负载均衡调度关系表、SSL代理关系表、WAF代理关系表、交换机ARP与MAC表、互联网资产表。该举措使得不同品牌的数据之间实现了可比性,同时也提高了数据查询的效率。
数据上的创新点二:打通静态数据和动态数据。
自动排障网络定位工具融合了CMDB和网络流量分析系统的数据,自动完成静态数据和动态数据的相关性分析和缝合,实现了一加一大于二的效果。该举措使得数据的利用效率大为提升,明显节约了故障排查的时间。
3、技术上的创新
自动排障网络定位工具在可视化方面没有因循守旧绘制物理拓扑图,而是创新性提出“一个切入点,两种关系网”的逻辑拓扑绘制方式,更加贴合故障排查的需要。在流量指标设计上,又创新性设计出SYN重传率指标,即(SYN-SYNACK)/SYN,从而增加了审视服务健康程度的检查维度。
三、项目过程管理
广东农信于2023年1月启动自动排障网络定位工具项目,2024年12月完成系统编码、测试、优化和试运行,于2024年3月在运维管理部推广使用。
四、运营情况
自动排障网络定位工具投用后,实现了运维排障的自动化、简单化、高效化。
自动化方面,自动排障网络定位工具将用户以前手动的数据查询和分析工作自动化,节约了90%以上的时间。用户仅需输入一个IP或一个链接,工具与CMDB、网络流量分析等系统融合,自动从海量的静态配置数据和动态流量数据中获取相关信息,自动整合分析。采用全局故障概览图的方式,展示相关的网络拓扑和应用交互关系,并用显眼的颜色标注故障点和异常指标,实现一键式诊断,秒级定位故障源。
简单化方面,自动排障网络定位工具操作简单,无需培训即可上手。用户只需要将仅知的碎片信息填入输入框,工具就自动从海量数据中找出关联数据自动画图,指出异常位置。该工具对排障人员的技术和经验要求大大降低,也不要求排障人员提前熟悉环境,做到新员工也能马上上手排障。
高效化方面,自动排障网络定位工具运行时间短,工具的运行过程包括了数据查询、关联分析、前端渲染,总体耗时达到秒级,大大节约了排障人员的时间,使故障业务得以迅速恢复。
五、项目成效
自动排障网络定位工具投用后在运维排障工作中取得了多项成效。
(一)节约查询时间。
使用工具前,排障人员想理清相关拓扑需要手工查询CMDB、网络流量分析系统、登录网络设备检查配置。理清拓扑后又需要手工拓扑查询各段的流量指标。以上操作需要花费用户约20分钟的时间
使用工具后,以上操作的时间只需要花费5-100秒,节约时间90%以上。
以下面新员工值班排障的场景为例,新员工技术经验不足,对环境也不够熟悉,但其将报障的链接输入工具后,工具自动完成35次查数据查询,分析拓扑和异常位置,输出故障全局概览,全程耗时仅11秒左右。而这些工作如果由新员工手工操作,保守估计需要花费20分钟。


(二)全面性提高。
使用工具前,排障人员无法及时看到故障全局概览,容易被报障信息误导排障方向,浪费了宝贵的应急时间。
使用工具后,排障人员能够及时看到故障全局概览,自动排障网络定位工具用显眼的红色指出异常位置,排障人员不需要在正常的设备上浪费时间,同时可以根据异常指标追根溯源找到故障的源头,避免被表明的故障现象所蒙蔽。
以下面连锁反应的场景为例,报障人反应C系统服务响应慢,这是故障的表象,根据拓扑上的异常指标追踪可以发现,C系统服务响应慢是由于D系统给C系统的响应慢导致的连锁反应。排障人员及时获得此信息可以避免头疼医头脚疼医脚,从而采取更及时有效的应急措施。

(三)复盘便捷。
使用工具前,设备的配置可能会因为故障应急而发生变化,对运维人员复盘推演过往故障造成一定难度。
使用工具后,用户通过自定义时间绘制故障时段的故障概览图,查看当时的异常位置和异常指标,大大提高了故障复盘的便利性。
六、经验总结
对自动排障网络定位工具的探索和实践,让广东农信在运维数据、场景、技术等方面的创新能力得到提升。
(一)数据方面。我社进一步整合了数据提升了数据的治理能力,深化了对数据的理解和应用,构建了数据驱动运维创新的能力基础。
(二)场景方面。我社贴合运维排障实际情况,将更多的现实场景纳入到工具开发的考虑中,提升了数据服务场景的能力。
(三)技术方面。我社结合运维排障经验创新性地提出“一个切入点,两种关系网”的逻辑拓扑绘制方式,更加符合运维排障人员故障定位和应急需要。
接下来,我社将持续围绕银行业数字化转型的三大要素构建一套更贴合运维需要的排障系统,为银行业务连续性保驾护航。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2024-10-09
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2024-10-09
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2024-10-09
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2024-10-09
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2024-10-09
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2024-10-09
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构