本文来源于:2022年第六届农村中小金融机构科技创新优秀案例评选,作者:重庆农商行
重庆农商行:新一代智能运维系统
2022-10-02 关键词:农信/农商行,运维管理,数据智能
1972
一、项目背景
近年来,随着业务线扩展以及物联网的发展,银行的服务规模和业务系统在不断扩大。与此同时,信息科技系统的应用架构也在快速演进,架构复杂性与日俱增。面对双重挑战,重庆农商行原有运维体系已经捉襟见肘,存在诸多问题。一是运维指标方面,部分重要应用系统缺乏监控、预警指标单一或缺失、预警阈值为固定值;二是预警内容方面,格式未统一、未进行等级划分、预警信息未进行集中收集和处置,易产生预警风暴等。
基于此背景,如何在数字化新形势下打造更为高效、准确、智能的运维体系,是科技运维部门面临的主要问题。在广泛汲取国内外同业成功经验的同时,结合自身科技发展,重庆农村商业银行启动和实施了基于微服务架构的新一代智能运维系统项目。
二、项目方案
新一代智能运维系统旨在解决传统运维系统人工干预多、监控手段单一、无法适应技术快速迭代等问题,打造一个自动化、智能化、可持续升级的全能型运维平台。基于微服务架构,该平台实现了日志统一管理与查询、应用程序自动化部署、一键检查、恢复与切换、自动化变更、交易监测、智能预警、运维工具箱等多种运维场景,形成了应用发布、应用监控、应用告警等十余个能力中心,涵盖了日常运维工作的各个方面,极大地提高了运维人员的工作效率,加快了应用发布的速度,保障了系统和应用的安全稳定运行,为重庆农村商业银行金融科技的持续快速发展奠定了坚实的基础。系统总体架构如图所示。

图1 智能运维系统总体架构图
三、创新点
1.主动出击,应用质量拨测
重庆农商行在智能运维系统项目建设过程中敏锐地发现运维系统的智能化不仅体现在对系统、应用的被动监控上,还应主动出击,对应用进行质量拨测。这样就能避免只从服务端视角进行监控,发现内部监控体系显示设备状态正常,但却收到了客户端的报障和投诉的情况。我们通过应用主动拨测技术来模拟各业务环节的访问流程,化被动处置为主动感知,实时洞察客户端存在的各类风险,并进行有效干预。现阶段,我们主要对应用及数据库的健康状态进行拨测,包括基于http协议的RestFul请求,以及基于tcp的心跳指令。下一阶段,计划对重要业务关联系统进行适配改造,结合RPA机器人流程自动化,实现基于业务流程的定制化拨测。例如针对内网应用,通过结合逐段探测与业务画像,快速确定影响业务整体可用性的具体环节;针对外网应用,通过多地区网点主动拨测,模拟域名解析、网络建连和复杂的业务访问,获取终端用户的使用体验。后,将主动拨测和智能运维相结合,能够实现故障自动定位、服务质量优化、自动化验证等场景,极大地提高运维效率。应用拨测架构如图所示。

图2 应用拨测架构图
2.智能巡检,业务安全防护
尽早发现故障、处置风险是智能运维系统建设的目的之一。我行通过融合多维度业务安全指标实现对应用的智能防护,主要包含三个方面:一是交易链路时序分析,对于重要渠道,特别是线上应用系统,通过分析重要交易流程调用链节点、执行步骤和时序,进行针对性的检测和告警,防止不法分子通过系统漏洞,跳过关键性的交易验证逻辑,发生非法交易。例如:开户时跳过人脸识别等。二是用户异常交易检测,针对用户通过编写脚本或程序恶意攻击、非法请求应用接口等场景,为避免应用遭受攻击和数据外泄,系统对单位时间内用户、交易、交易频率等信息进行监控,对于数量异常的交易进行告警。三是敏感交易监控,针对重要交易系统的敏感交易,如开户交易和转账交易等,对线上等特殊渠道进行的交易笔数、交易金额等指标进行监控,防止用户通过系统漏洞进行非法交易。所有的业务安全指标既可自定义固定阈值,也可以基于智能运维系统生成的动态基线,实现智能化业务安全告警。
四、技术实现特点及优势
1.面向云原生,基于微服务架构
本系统在底层依托开源的Spring Cloud框架,对搭建在其上的应用按照业务范围划分为十余个能力中心。每个能力中心成为一个高内聚的微服务,能力中心之间是低耦合的组织形态,通过高性能的Restful API进行调用。由此构建智能运维的技术中台和业务中台,在其上持续建设运维门户、可视化展示、自动化操作、智能预警等管理应用,体现中台为上层应用能力提供消费调用的价值,方便了后续功能的扩展以及架构的持续升级。另外,划分的每个微服务可以方便地以容器方式进行部署,采用Kubernetes进行容器编排,能够实现微服务的动态扩容和自动运维。
2.全方位多形式数据采集
本系统支持对数据中心所有的系统和IT设备的各种格式数据进行全面的日志采集,包括但不限于应用系统、主机、网络设备和安全设备的日志采集等,保证日志的连续性、完整性。采集方式支持Agent方式、Syslog方式、API接口方式、脚本上传、SNMP等,支持目录作为对象的采集能力,监听目录下新的文件,将所有新的内容上传至本系统,可以读取子目录的日志文件。同时,日志采集过程是准实时的,可以查询到10秒之前产生的新日志。采集代理Agent具有限速功能和十倍以上压缩传输能力,由平台进行统一的管理,包括安装、升级、报表导出、资源消耗控制等。在日志解析方面,平台支持解析规则库,可通过基于正则表达式的字段解析功能,实现在线预览解析效果。并且利用分布式架构可以实现每秒钟分析百万条日志,每天处理几十TB级的日志量。
3.多功能自动化应用发布
本系统能够实现应用发布全流程的自动化管理,包括程序包下载、备份、更新和一键式部署,可以采用Excel或图形化界面拖拽的方式对部署流程进行编辑,支持串行和并行发布,支持执行前预览,支持完整流程和执行顺序可视化展示,提供部署中对部署流程的终止、暂停、继续的能力,支持接入自动化流水线和私有云,促进了应用运维的标准化实施,加快了应用系统交付速度,降低人工操作风险。同时,平台自带的配置管理数据库,包含了配置项全生命周期信息以及配置项之间的各种关联关系,可自动生成应用关联关系拓扑图,方便运维和开发人员对应用的上下游和数据流向进行把握。
4.基于自适应机器学习的应用预警
本系统梳理各应用系统指标模型,形成标准化的指标拓扑图和指标模板。通过引入AI机器学习,根据历史运行数据建立融合多种异常检测模型,对指标曲线实现高准确率的异常检测,生成各指标动态阈值基线,实现智能预警,并通过邮件、短信等方式将告警信息推送给相关负责人。目前可供融合的算法包括:Ripple、Dtmos、Spider。同时通过建立预警中心,统一收集和处置预警信息,实现了预警压缩降噪。另外,平台根据波动分析、根因量化,能够智能地提供处理建议,有效地提高了问题处理效率。后,应用预警还提供多种友好的可视化视图,能够方便直观地展示历史告警信息。并且通过日志联动,运维人员可以快速准确定位交易告警产生的位置。
5.基于DevOps的软件开发管理模式
在本系统的开发、测试、部署过程中,团队使用了基于DevOps的软件开发管理模式。DevOps是在敏捷开发模式的基础上,将运维并入进来,是软件开发、运维和质量保证三个部门之间的一体化沟通机制。基于持续集成的软件交付方式,编译、打包、发布、测试等行为能够更高效,更稳定。总之,DevOps使得团队能够对平台的各个微服务能力中心实现快速的开发、测试、部署,提高了平台各微服务模块的交付效率和交付质量,加强了人员之间的沟通协作和对需求的理解实施。
五、项目过程管理
项目各阶段的实施周期。
需求分析和概要设计阶段:2019年7月至2019年8月。
系统详细设计阶段:2019年8月至2019年10月。
系统编码、测试和上线准备阶段:2019年10月至2021年5月。试运行阶段:2021年5月至2021年6月。
推广实施阶段:2021年7月起。
六、运营情况
1.实现了自动化作业代理的统一
系统采用统一的自动化作业代理agent,代替了以往为网络、系统运维需求而开发的单一功能代理,实现了日志采集、指标巡检、应用发布、运维工具箱等各业务模块所需的底层能力,减少了因部署多个agent而导致的服务器性能损耗。目前行内已经部署2159台agent,涵盖150个应用系统,制定了107条定制化日志采集规则,平均每日处理日志量为5.5TB。
2.重要信息系统应用发布自动化
自动化应用发布依据传统流水线操作流程,结合定制化的作业脚本进行优化,实现应用版本发布自动化。自2021年9月上线以来的5个月内,接入的9套业务系统,实现了48次上线。固定的上线流程6个,可实现应用服务器的分批备份上线。应用发布时间由之前的90分钟左右缩短至30分钟之内,除去人工检查上线结果所花费的时间外,自动化发布时间可缩短至15分钟左右,发布效率提升了至少3倍,运行至今所有变更流程全部执行成功,0失败。
3.智能预警实践银行AIOPS
应用智能预警服务通过融合多种机器学习算法生成动态基线,目前支持单指标异常检测类算法6个,单指标预测类算法4个,多指标分析类算法2个,已监控464个指标,涉及13个系统。异常检测准确率96%,5分钟内可完成根因定位,速度提升70%。平台准确预警因第三方机构重启服务器导致行内支付交易失败的问题,使我行开发人员迅速定位处理问题,并与第三方机构取得联系,尽快恢复服务,避免了用户的投诉,提升了系统的稳定性。
七、项目成效
1.社会效益
符合国家、央行金融科技发展规划,助力银行数字化转型。本系统在金融业的成功落地,为金融科技发展提供了行业知识范本、落地经验与可借鉴的案例,是行业对AIOPS一次成功的实践,具有较大的行业创新意义。
2.经济效益
本系统的建设实现了以统一日志平台、自动化运维平台、应用智能预警平台为技术中台的新一代智能运维系统,建立起重庆农商行统一且全面的智能运维体系,打通了以往各个系统运维信息孤岛,满足了业务系统的稳定性、持续性要求。同时引入AI机器学习,极大地提高了应用发布和运维的效率,有效地降低了运营人力成本。
八、经验总结
新一代智能运维系统的建设并不是一蹴而就的,在建设过程中需要遵循软件工程原理,科学统筹规划,分阶段分系统进行建设和接入。同时它的建设也不是一劳永逸的,需要结合新技术,吸取新理念持续优化。随着支撑数字世界的软硬件系统越来越庞大、越来越复杂,运维对智能化的要求就会越来越高。在下一阶段,我们还将继续探索RPA机器人流程自动化和智能运维的结合,以及持续用大量真实数据对AI机器学习算法进行训练和验证,筑牢金融科技技术底座,为银行数字化、智能化转型提供更强的助力!
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2022-10-02
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2022-10-02
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2022-10-02
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2022-10-02
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2022-10-02
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2022-10-02
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构