本文来源于:“鑫智奖”第五届金融数据智能优秀解决方案评选,作者:擎创科技

擎创科技:擎创金融一体化智能根因定位解决方案

2023-03-07 关键词:云运维,运维,智能运维1657

一、解决方案简介


本方案主要通过对业务、中间件、数据库、日志以及性能指标等在内的多维数据,进行统一收集、查询、分析。在流引擎中配置告警规则,通过实时状态来监控系统的健康状况,有效提高告警规则的时效性,有效减少故障的排障时间。充分利用不同运维数据间关联信息,当发生运维故障时,能够以告警为切入点,关联不同的运维数据,直观展示故障发生时刻不同运维数据的健康状况,快速定位故障根因。使用智能基线算法替代传统的静态阈值,根据历史监控数据动态调整不同时刻的告警阈值,能够有效减少无效告警,提升告警质量。


方案的整体架构是根据其要求的功能性要求以及非功能性要求进行设计。平台共分为:数据采集,数据处理,数据存储,查询引擎,告警引擎,智能分析引擎,展现引擎以及平台管理

共计8个模块组成,各功能模块规划如下:



14.png


8大模块都可支持横向扩展,提升每个模块的吞吐量以及处理能力,同时每个模块内部都是多点分布式部署,保证了系统高可用以及数据安全。


物理架构:平台在物理部署时充分考虑了架构的先进性,避免了重复建设以保护客户的已有投资,平台中需要的Hadoop、ElasticSearch、Kafka以及ZK集群都支持用户版本需求,其他节点均支持分布式部署,可以非常容易的调整节点数量,为后期平台的自动智能扩容提供了基础,整体物理架构如下:


15.png


二、应用场景痛点简介


随着银行业务快速发展,运维人员面对的是日益复杂的系统架构以及海量的IT运维数据。数据中心运维管理难度和重要性日渐凸显,对业务连续性要求和运维服务质量的要求也不断提高,迫切需要建设一套科学、高效的、无监督运维支持体系,能够帮助行方运维能力不断提升,发掘运维潜在风险。


当前,运维大数据系统已经采集了来自主机、数据库、中间件、业务应用等维度的海量指标数据,通过智能运维系统的算法引擎来实现对各类指标数据的动态检测和容量预测,并能够在业务的视角上进行组织和展现,是本次项目的核心目标。


数据集中管理:从大数据平台接口收集包括但不限于CPU使用率、内存使用率、文件系统使用率、交易量等指标数据,数据来源包括Tivoli、BPC、Oracle EM、Netcool、CMDB等系统、对采集的指标及配置数据进行统一分析和管理。


智能分析引擎:利用智能化算法实现实时指标异常检测,指标趋势预测等智能化场景。


三、解决方案亮点介绍


本解决方案搭配相应硬件升级,部署的产品包括日志精析中心,指标解析中心和数字中台。通过智能化检测算法能够帮助运维人员更快速的发现异常,更有效的诊断问题根因,更便捷进行运营分析和决策。


1.实现功能点

1)基线算法:检测当前的指标数据是否符合历史轨迹;


2)ripple算法:检测当前的指标数据是否有突增(波动检测)(主机、中间件、业务、数据库、网络指标);


3)多指标算法:从业务维度选取多个关联指标进行综合分析,通过对各个指标的偏离度进行计算,确认业务是否异常,并按照偏离度排名进行根因推荐。(业务、主机、中间件指标,数据库与网络指标暂不包含);


4)预测算法:根据历史数据,预测未来容量使用情况,提供剩余使用时间或建议扩容时间。(表空间、文件系统);


5)智能运维中心:提供总览——单个系统——指标的全局关联展示与状态标志。根据实际需求,选择时间、指标等,查看当时的数据、单/多指标检测结果等信息。


6)告警管理:支持将检测到的异常结果形成告警,并发送至我行统一监控平台,可配置。


7)接口开放:支持接口开放,可以由我行其他平台读取算法运行后的模型、结果等数据。


8)数据分析中心:实现数据采集、解析、聚合、存储、查询等功能,可配置。


9)AI实验室:集成多种人工智能算法,实现场景的构建、训练和结果展示及应用,可配置(如数据聚合、算法选择、算法调参等)。


2.创新点

趋势预测算法:平台内置预测算法,通过分析历史数据,可判断未来一段时间的KPI趋势,如预测未来一段时间数据库表空间的使用量,服务器磁盘的剩余空间预测等。


可在平台的图形化页面中方便的配置算法参数,如预测的天数,数据的处理形式。


预测的结果可以通过报告的形式给出,方便用户的查看与决策。


单指标异常检测算法(基线/Ripple算法);平台内置异常检测算法,针对不同的数据,如业务类指标数据、基础架构类指标数据平台提供不同的异常检测算法来适应不同的数据特征。通过历史数据的特征学习,可以提前对可能出现的异常进行检测和预警。


可在平台的图形化界面中配置算法参数,如上下基线的检测,算法的选择。


异常检测的结果通过不同的标签进行显示,如周期性异常、突增突降异常、持续性异常。


多指标异常检测算法:平台内置多指标异常检测算法,基于深度学习技术实现多指标异常检测以及指标根因定位,用于实现快速发现系统故障及快速定位问题根因的故障诊断。该算法可应用于多个指标的同时检测,如系统的多个性能指标, CPU,磁盘IO,内存的同时检测。也适用于数据库中的多指标检测,如:PGA,SGA,缓冲池IO响应时间,内存排序率等。


3.方案成效


复杂多维分析:将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如主机指标、数据库指标、中间件指标、网络设备指标)进行多维度、多角度深入分析及可视化展现。


快速排障:通过运维数据可视化(业务视角、复杂多维报表)及精细化告警信息,结合多种智能化算法,包括指标异常检测,指标趋势预测,实现精准告警、多维分析等功能,在故障发生时即推荐运维人员问题原因,方便迅速排障。


1)提供多种智能化算法,将有助于运维人员更早地收到更有效的告警(相较与静态阈值);


2)提供容量管理的手段,便于提前制定容量计划,以及发现容量风险点。


3)提供全局多维度视图,在故障处理场景下可以查看告警指标出现问题时的开始时间与当前趋势,以及其他相关联的指标或系统的情况;在定期巡检、风险排查或事后分析等场景下,针对性地告知运维人员运行状态、是否存在异常以及推荐影响程度较高的指标。


4)数据采集、解析,算法训练、调整等均可前台配置,便于后续应用场景的扩展。


四、金融行业客户名单


宁波银行、重庆银行、温州银行等。


五、客户评价


该项目有效地解决了运维人员面临的运维数据分散、排障耗时耗力、分析手段复杂和数据增长迅速四大挑战。通过高效实时多维度采集能力,目前聚合了每日XG以上的数据量,并融合汇聚了现有的各种系统的运维指标数据。根据平台提供的扩展智能算法能力和接口、场景化的支持和算法引擎,逐步实现了主动管理、智能预测、高校精准的根因定位及故障排除效率,进一步提升了我行数据中心的运维管理水平。

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

福建农信:云平台“农信云”项目

随着福建省农村信用社联合社(下称 “福建农信”)规模不断扩大、业务不断增加,应用系统、设备、数据中心空间能耗都不断增加,IT运维各方面都面临种种挑战。

2017首届农村中小金融机构科技创新优秀案例评选 福建农信 2023-03-07

云智慧:金融智能运维解决方案

云智慧金融智能运维解决方案可广泛应用于金融机构数据中心、网络金融中心、消费金融中心等线上交易规模大、对IT效能要求高、需要实时了解IT对业务波动影响的部门,主要应用场景包括智能告警、根因分析、异常检测、故障预测、容量规划等。

“鑫智奖”2019首届金融数据智能优秀解决方案评选 2023-03-07

光大银行:鹰眼系统

光大银行作为全国性股份制商业银行在5G、移动互联网时代,市场发展迅速,业务创新不断,业务量快速增长,后端支撑体系管理的WEB应用服务器实例有几千个,覆盖云上云下、容器、微服务等复杂场景。依赖现有运维人员人工监控和分析,故障解决手段单一、低效。引入鹰眼系统,构建业务视角、端到端和立体化的监控体系,实现业务调用链的可视化,帮助运维人员基于业务链条快速定位问题,处置故障,提升了复杂环境下,故障的处理能力和效率。

2024年“鑫智奖”第六届金融数据智能优秀解决方案评选 北京宝兰德 2023-03-07

九章云极:DataCanvas智能运维AIOps解决方案

DataCanvas智能运维AIOps解决方案其核心是基于大数据和机器学习算法,通过智能监控、智能排障和自动化运维降低运维成本、提高运维质量,全面优化运维效能。包括:质量保障、效率提升、成本优化。所有的场景在分析层运转,通过监控中心,终以全链路拓扑展示和告警列表与分析展现在管理者眼前。

“鑫智奖”2019首届金融数据智能优秀解决方案评选 2023-03-07

浪潮云海:基于浪潮云海InCloud Rail超融合云基础设施的金融协同办公环境支撑方案

金融服务机构因分支机构多、层次多、员工数量庞大,而且数据敏感,传统办公协同采用专用MCU视频会议解决方案,但随着视频会议的发生地点逐步由过去的定点会议向不定点会议转变,基于浪潮云海超融合基础设施的云视频会议正成为满足金融机构敏捷办公和业务拓展需求的新兴解决方案。

2024年“鑫智奖”第六届金融数据智能优秀解决方案评选 浪潮云海 2023-03-07

宏时数据:基于Zabbix开源系统构建新一代运维监控平台,实现对传统商业监控软件的替换

本解决方案主要是利用开源监控系统替换商业监控软件,并配合定制化开发的方式构建新一代运维监控平台,实现对银行业用户IT基础架构对象的全量监控支持,满足银行业用户自主运维和自主可控的要求。

“鑫智奖”2020第二届金融数据智能优秀解决方案评选 2023-03-07

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 智能运维
  • 云运维
  • 运维

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构