本文来源于:2019第三届农村中小金融机构科技创新优秀案例评选,作者:江西农信

江西农信:基于大数据与人工智能的农信行业智能运维体系建设

2019-10-23 关键词:大数据,人工智能,农信/农商行,运维管理,开发运维4866

项目背景及目标

随着金融科技在银行行业高速发展,给传统IT运维带来了压力,主要表现在金融科技带来的IT建设规模越来越大,IT运维的复杂度越来越高;来自监管的IT运维方面,对可用性、连续性管理提出了更高的要求;两地三中心的部署架构,管理的硬件设备数以千计,TB级的运维数据分散在各个复杂的系统中。另外,大量新技术的引入,迫使银行业的运维模型向稳态和敏态结合的双态模式发展,简化的流程、快速的迭代、复杂的技术都对传统的运维管理方法提出挑战。在高速变化的环境下,系统如何保持可用性要求,这需要有更先进的IT管理思路和更高级的科技手段。

 

面对困难,江西农信近年在运维方面投入了大量的资源,运维水平得以较大提升。比较具有代表性的内容包括:通过ITM和CMDB的建设实现运维标准化;通过自动化运维工具的引入提高了运维效率;通过集中监控和数据采集的建设逐步实现监控和运维数据的统一处理。经过与多家同行以及智能运维厂商进行调研和交流,目前银行在智能运维领域处于探索阶段,建设的进度参差不齐,部分银行已经建设了大数据平台,并实现了运维数据的集中采集分析;部分银行开始将运维数据结合算法的运维场景在大数据平台进行落地,但均处于以实现应用场景落地为目标的方式进行建设,整体架构尚不清晰,无法将运维数据的价值进一步整合和利用。

 

因此,本项目将基于大数据与人工智能的银行行业智能运维体系的建设和研究,构建江西农信AIOps(即智能运维)的实施路径及落地方法,将运维数据的价值进一步整合和利用。

 

项目方案

一、体系架构

智能运维平台的整体系统架构采用Hadoop和Elasticsearch作为存储和计算的支撑平台,开放式的智能模型架构提供智能能力输出,通过基于微服务与分布式消息的运维管理总线为主线,搭建而成。整体架构如下图所示:

 

下面一层是数据源层,提供各种运维数据库包括结构化数据(如关系型数据库)以及非结构化数据(如各种系统日志);

 

数据源之上是运维管理总线,运维管理总线提供数据的接入、缓存、预处理,以及各个系统之间的消息传递、API调用。

 

第三层是数据处理层,首先是大数据平台,大数据平台提供的是数据流式解析(如数据加工、实时告警),数据计算以及存储能力;另一部分是智能算法层,主要提供、训练各种智能算法模型;

 

第四层是接口层,接口层是为了根据不同的智能化运维场景提供接口调用,包括服务总线;

 

上面一层是AIOps场景层,通过调用API层提供的各种能力来实现智能化场景。

 

二、数据架构

系统数据流向包含了数据的接入、数据清洗、数据计算以及数据存储,具体如下:

 

数据接入,提供的数据的采集,根据数据来源的不同进行有代理和无代理方式采集。

 

数据总线层,该层主要提供数据的缓存与处理,数据进入到消息总线(例如kafka)之后,进行数据的ETL处理,过滤、切分、扩展等操作,处理之后的数据进入再一次进入kafka集群进行流式计算如实时计算采用kafkastream,storm等框架,离线运算采用spark。

 

数据计算层,数据计算主要提供数据的实时计算和离线计算。

 

数据存储层,是根据运用场景和数据的不同进行不同的存储方式。

 

三、 基于微服务架构的服务总线

通过微服务平台将应用程序的不同功能单元通过服务之间定义良好的接口和契约联系起来。使用户可以不受限制地重复使用软件、把各种资源互连起来,提供统一的标准接口构建成分布式可扩展又相互独立的服务,以便各应用系统方便使用各种功能服务。

 

微服务的架构设计如下图:

 

四、数据安全设计

1、数据安全。该系统为信息科技部内部使用,不会对江西农信服务业务能力造成损害。

 

2、主机安全。系统相关的服务器部署在服务器机房,物理部署上是安全的。应用服务器和数据处理应用服务器、两台数据库服务器均采用双机方式,保证了系统在主机层面的高可用性。

 

3、应用安全。对用户权限管理,根据用户,角色,权限三级控制;对数据库操作权限管理,防止一般用户通过修改数据库操作指令,越权操作;系统日志保存到各个应用服务器上,根据设置的日志类别,分为一般日志、错误日志、调试日志。

 

4、数据传输安全。传输加密主要通过SSL/TLS加密协议完成,平台的数据从客户端-处理端-数据存储都支持 SSL加密,确保数据在传输过程中的安全,不会被恶意愿改。

 

5、数据存储安全。平台底层数据存储采用分布式引擎(Elasticsearch DataNode + Hadoop DataNode),每条数据都存储为多个数据备份,当单个数据节点出现故障时,数据可以及时从其他节点恢复,保证数据在存储阶段的安全可靠。

 

6、数据访问控制。用户对资源的访问主要是通过全局数据查询,HDFS的文件访问,Hive/Impala的文件访问。

 

五、平台自监控

为确保系统本身的稳定性,平台自检的方面包含:通过心跳机制收集的各组件的基本状态,通过流量监控收集每个组件的负荷,当单个节点出现故障时,其上下游节点会自动切换到其他节点,确保系统可以继续对外提供服务。用户也可以对平台内的每个服务器的硬件资源进行监控,可以以集群组的方式监控同一集群内的所有服务器的状况。

 

创新点

在本项目的实施过程中克服了多个技术难点,实现了一系列的创新点。

 

一、功能创新

1、应用系统交易智能分析: 可视化交易链路上数字化表现,并直观的深入分析运行状态下应用系统平台的动态交易量异常评估、预警和深层次故障定位;

 

2、企业级系统智能感知: 结合Aix,Linux,Windows,HP等操作系统特点,智能评估系统运行稳定性状况;

 

3、企业级数据库智能洞察: 以DBA视角智能评估各项数据库核心指标,并给出数据库性能优化建议,故障定位功能;

 

4、企业级运维智能提升: 在原有监控平台基础上改善优化运维能力,实现被动规则监控+主动AI模型预警。具有综合故障排查和日志综合分析功能;

 

5、企业级存储智能评估: 存储智能运维针对多元,异构,多站点的数据中心,提供一站式,可视化,自动化,易扩展的智能存储运维。

 

二、技术创新

1、为满足业务日志采集实时性、高吞吐量以及系统资源低消耗的要求,对Flume在源码层面进行大量改造和验证,保障数据采集层长期稳定运行。

 

2、应用微服务设计理念,数据解析实现完全的配置化定义,并对外以RESTful接口提供调用,快速响应用户需求的变化。

 

3、结合缓存集群以及Structured Streaming的使用,完成如交易日志合并、异步消息处理等复杂业务逻辑的实现。

 

4、整个运维大数据平台基于虚拟化平台构建,具备完全的资源动态扩容与调整能力。

 

技术实现特点

通过智能运维体系的建设,将日常运维活动产生的运维数据进行采集、整合,引入成熟的算法和机器学习技术,对数据进行全面智能分析的实现过程,探索可行的方法和路径。

 

1、针对运维系统数据来源广泛、多样性复杂的特征,数据采集和持久化建立了以kafka数据管道为核心的数据队列系统,以ElasticSearch等开源数据仓库为持久化平台的数据存储系统。做到实时对多套系统采集的指标和日志等多种数据进行采集汇总,并进行进一步的预处理。

 

2、以运维的业务系统为整体监控单位,对核心业务数据、应用日志数据、机器指标数据进行数据采集、异常发现和异常分析,通过大数据平台的计算能力和算法实现各类运维指标的关联分析,帮助运维人员及时发现问题、定位问题来源。

 

3、在异常发现和分析方面采用流式分析引擎技术,通过无监督异常检测、异常根因定位、自然语言处理等算法,对交易指标和其他关键性能指标进行实时汇聚和异常检测,以定位系统异常时间点。对文本日志则进行了实时索引。

 

4、通过基于微服务架构的服务总线平台将算法api接口和应用程序的不同功能单元通过服务之间定义良好的接口和契约联系起来。服务总线平台提供统一的标准接口构建成分布式可扩展又相互独立的智能服务功能,以便后续各应用系统方便使用服务。

 

5、基于现有的运维体系,通过CMDB等配置信息,结合异常发现提供的异常时段和系统,有效缩小了异常分析的数据范围。

 

项目过程管理

根据项目建设方案,结合江西农信的实际情况,本项目总体周期为9个月,具体实施情况如下:

 

(一)项目背景调研与需求分析

时间: 2018年11月1日—2018年12月31日

 

(二)大数据平台系统架构绘制

时间: 2019年1月1日—2019年2月28日

 

(三)运维大数据业务数据整合

时间: 2019年3月1日—2018年4月30日

 

(四)大数据运维业务开发

时间:2019年5月1日-2019年6月15日

 

(五)测试调试与试运行

时间:2019年6月16日-2019年7月15日

 

(六)专项培训与项目验收

 时间:2019年7月16日-2019年8月31日

 

运营情况

通过智能运维的实施,完成了AIX/Linux平台上日志监控数据类型的采集、解析以及与运维大数据平台的整合,统一采集、管理业务相关的各类运行状态数据和底层机器日志,结合算法对异常点的预警,统一展示给运维人员,对故障根因的分析判断带来了极大便利,整体缩短了故障排查的时间,具体的场景有辅助告警、日志异常检测以及系统运行趋势分析。

 

1、发现问题 - 主动监控。

通过对业务量,响应时间,数据库指标、操作系统关键KPI等单个KPI进行异常检测,来监控指标是否异常;通过对海量日志无监督学习,识别日志的模板序列,以及特征变量的分布来检测日志中是否存在异常。

 

2、定位问题 - 故障定位。

通过分析故障时的所有机器指标的关联性以及相似性,来定位问题发生的节点以及相应指标。

 

3、分析问题 - 业务/机器指标的关联分析。

通过关联业务和机器指标,将业务指标和机器指标进行关联分析,端到端的分析当业务发生故障时,机器指标的是否存在问题,日志是否存在问题。

 

项目成效

一、运维数字化管理。

基于明细、汇总的数据,加入智能化算法进行多维分析和数据挖掘,为运维决策提供了大量数据支持,为运维创新创造了有利条件。

 

二、提升运维效率。

通过对数据进行集中收集、清洗,为管理分析、挖掘预测类等系统提供一致的数据基础,通过无监督的异常检测以及定位,帮助运维人员及时发现异常的影响,在故障发生前可以提前发现隐患,大大提高运维的效率。

 

三 、提升系统可用性。

通过快速发现问题、定位故障的原因、帮助分析问题,实现在故障发生时大幅减少处置的时间,使得业务中断的几率大幅降低。在故障发生时,缩短运维人员分析的花费,使得业务中断时间大幅缩小。

 

四、改善数据质量。

从中长期看,数据平台对分散在各个业务系统中的数据整合、清洗,有助于整体数据质量的改善,提高的数据的实用性。

 

五、促进内部协作。

实现分散在各个业务系统中的数据在大数据平台中的集中和整合,建立统一的运维视图,有效促进业务的集成和协作。

 

经验总结

通过对本项目的研究与实践,我们为此类项目的持续性建设和推广开展提供了如下的经验和教训:

 

一、AI算法具有一定的局限性。

实施的过程中,需制定明确的预期目标。首先目前的AI算法的场景应用并不是万能的,对于每一个运维场景是否有合适的计算模型,都需要运维专家与算法团队进行充分的可行性论证。

 

二、数据的梳理和处理要有合理的规划。

数据是AIOps的基础,在建设之前,需要对运维数据进行梳理。同时,结合实际的场景进行数据采集、处理。

 

本项目中,我们梳理的数据类型如下表:

 

数据类型

描述

对接方式

核心业务数据

业务日志客户行为

Agent采集

天旦系统业务笔数

通过kafka对接

应用运行数据

应用日志监控

Agent采集

功能耗时

对接kafka

ITSM流程数据

CMDB

对接kafka/DB采集

事件/变更/知识库

DB采集

操作系统、数据库

操作系统日志,MAXGAUGE,BMC

API、Agent采集

监控数据

ITM

API

网络流量

网管软件

Kafka对接

三、智能运维体系的持续发展需要平台具备可扩展性。

平台如不具备可扩展性,后续的建设往往受限某个厂商,制约了应用场景的拓展。我们在体系的设计中,选择了基于微服务的平台架构,可以有效的整合不同厂商的算法产品,更容易水平扩展。

 

四、体系建设需要合理规划、分步实施。

智能运维体系的建设不能一蹴而就,需要根据团队的建设、数据的积累、算法的持续优化、AI技术的不断发展,进行分阶段分批次的建设。

 

 

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2019-10-23

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2019-10-23

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2019-10-23

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2019-10-23

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2019-10-23

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2019-10-23

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 农信/农商行
  • 大数据
  • 人工智能
  • 开发运维
  • 运维管理

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构