本文来源于:“鑫智奖”2020第二届金融数据智能优秀解决方案评选 ,作者:

必示科技:智能运维解决方案

2020-03-30 关键词:人工智能,运维5133


解决方案简介

必示智能运维解决方案的系统应用架构采用多层设计,主要包括展现层、服务层、智能分析层和数据层四个层次。展现层的目的是为运维人员提供前端交互界面,满足其接入数据、调节算法结果、数据可视化展示与理解等一系列运维操作要求;服务层对底层功能进行接口抽象,对上提供查询和控制接口服务,对下进行大数据任务下发;智能分析层是智能运维算法的核心层,为核心智能运维算法大数据组件提供任务、资源和模型管理;后数据层提供时序数据管道和持久化,及模型和配置的存储服务。

 

这种架构的优势在于随着新算法的不断成熟,支持随时扩展新的算法组件和数据组合,适合银行业根据自身IT系统运维特点来灵活选择数据类型与算法,构建新的智能运维场景。

 

必示智能运维解决方案可以为银行业客户提供业务指标异常检测、日志异常检测、调用链根源系统定位、机器指标定位、业务明细多维定位和指标趋势预测等智能运维场景,主要满足客户IT运维工作中故障预警和故障定位两个方面的需求。

 

1.业务指标异常检测

本场景使用机器学习算法对具有固定时间间隔、一定时序或者周期特征的业务关键指标(如交易量、响应时间、成功率)数据进行训练并获取指标特征,然后运用检测算法“快”、“准”的实时智能识别出异常点并给IT运维人员发出预警。对于一条时间序列,首先对其特征进行表述,分为:

时间序列的周期

趋势性特征

周期偏移情况

数据抖动程度

上下界极限值

 

之后根据时间序列的特征和计算资源的分配来合理选用不同的模型组合来训练并生成对应的模型,进而实现对实时指标数据的异常检测。

 

2.日志异常检测

无需人工配置,基于AI机器学习进行日志自动解析,对应用日志、系统日志或其他三方软硬件产生的日志等非结构化日志数据进行结构化梳理,提取模板和特征变量解析。根据历史日志构建模板库和可视化,并根据模板进行日志在线解析,同时进行实时的异常检测,从日志中及时发现故障。本场景主要分为日志模板提取和异常检测两部分。

 

A.模板提取

自动地从系统日志中提取模板——系统日志消息中详细信息字段的子类型。Carpenter-Tree 是一种扩展的前缀树结构,用以表示交换机系统日志消息模板。Carpenter-Tree 的基本思想是,系统日志消息中详细信息字段的子类型通常是频繁出现的单词的长组合。因此,提取模板等价于从系统日志消息中识别出频繁出现单词的长组合。

 

B.异常检测

通过模板提取和在线日志解析,本算法能够统计出各个模板的数量和每个变量分布的信息,基于此模板提取和解析结果,进而实现对日志总数、模板日志数量和未知日志数量的异常检测。

 

3.机器指标定位

本场景由已知的业务异常警告触发,从海量监控实体(机器、中间件、实例等)及其性能指标中,排查出异常的实体并自动分类排序,将严重异常的实体排序在前面,方便运维人员排查并快速定位问题。

 

机器指标定位功能实现主要分为三部分:

指标异常程度评判:系统会收集当前一段时间所有机器和模块的指标数据,并执行异常检测算法去检测所有指标的异常程度;

 

相似异常机器聚类:得到所有指标的异常程度后,通过聚类算法将具有类似指标异常的机器进行聚类;

 

定位结果排序:通过运行智能排序算法,将所有的聚类结果按照异常程度排名,并终展现给管理员。

 

4.调用链根源系统定位

在大型系统中,往往需要多个系统间的相互调用来完成一个确定的任务。因此故障发生时,许多系统可能会同时产生告警。调用链根源系统定位算法利用系统间的调用链数据,定位故障的可能根源,解决运维人员需要逐个排查的痛点。

 

通过指标异常检测找到所有异常调用

确定故障传播方向

计算节点根因概率

 

5.业务明细多维定位

本场景由已知的异常告警触发,从故障业务系统异常时间段的大量交易明细中,分多种属性维度统计后进行异常检测,并且根据候选根因集的指标变换率和包含关系等进行排序,终确定异常根因集。

 

本场景可读取系统告警前后m+n分钟数据作为根因定位的源数据。首先根据告警发生时刻的维度组合对其他时间的数据进行缺失值填充、按维度聚合、KPI计算等。接着对当前数据规模进行评估。

 

不同规模的数据的异常检测的策略有所不同,对于数据规模较小的情况(维度及维度取值较少),采用部分异常检测进行加速,以及对根因的搜索有一定的优化。鉴于随着维度及维度取值的增加,细粒度的维度组合的数据较少,本方案根据参考的历史时间序列长度以及算法训练的时间综合选择不同的异常检测定位算法。

 

6.指标趋势预测

本场景用于实现对磁盘空间、业务量等具备长期发展特性的指标走势预测,描绘未来一段时间内指标可能的趋势情况,判断该趋势下特定时间后是否会产生问题,通过配置阈值产生告警进行容量预警提醒,帮助管理员提前、主动消除故障。

 

本场景主要包含指标画像和预测两个步骤,指标画像对输入的指标数据进行特征分析和特征描述,根据数据特征的不同选择合适的预测算法;指标预测采用特定的预测算法根据指标历史数据进行建模分析,预测其未来走势。

 

应用场景痛点简介

目前大型企业均已建设了基础的IT运维管理系统,借助各类运维工具实现对业务系统的监控管理、自动化运维和资源管理。但随着业务规模的快速增长,IT基础设施的种类和数量也在与日俱增,而且系统应用架构的复杂度越来越高,在运维人力有限的情况下,依赖人工排查海量告警和数据、依据专家经验进行故障定位分析的传统运维方式已经无法适应当前形势下的运维需要,难以充分挖掘各类运维数据的价值,限制了运维工作效率的进一步提升。


1.故障预警:故障预警包括针对时序监控指标异常检测和预测,针对日志数据的异常检测。

 

针对时序监控的异常发现,传统的监控方式是通过配置固定阈值的方式实现,但往往业务类指标会有业务忙时和业务闲时,指标会随时间周期的变化而波动,固定阈值的监控方式则不能适应这种指标波动,进而产生很多告警误报或漏报,另外随着监控对象的增加,配置和维护固定阈值所需的工作量也会逐渐增加,耗费过多运维人力;

 

针对日志数据的异常发现,传统的监控方式是通过配置正则解析规则对原始日志进行结构化处理,然后通过配置关键字监控来实现异常发现,但这种规则配置的字段提取方式和关键字监控方式都将耗费大量运维人力,而且无法自动适配新增日志类型的监控需求;

 

针对业务容量或系统容量指标的预测,常见的预测算法往往无法自动适应不同波动规律类型的指标预测要求,导致预测效果无法反映真实指标的波动规律,另外对于算法参数的调优也是一件耗费人力的事情,参数设置的不同也会直接影响预测结果的输出,无法满足客户对容量指标的快速预测需求。

 

2.故障定位:故障定位包括对实体对象(机器、数据库、中间件等)、多个系统和业务维度的异常定位。

 

针对实体对象的异常定位,往往依赖人工对可能和告警事件存在关联关系的主机、网络设备、数据库和中间件等实体对象和指标进行分析,排查哪些对象和指标存在异常,来定位告警事件的原因,这种定位方式非常依赖专家经验,不能广泛推广,而且人工分析数据的耗时过长,影响故障恢复效率;

 

针对多个系统的异常定位,常见于一笔交易需要多个系统彼此反复调用来协同合作的场景,当发生业务故障时,通常需要首先界定到底是哪个系统的异常导致了整体异常,而人工分析根源系统的方式耗时过长,或者需要投入大量运维人力,从效率和成本两方面都存在很大问题;

 

针对业务维度的异常定位,常见于存在很多维度属性的业务故障,例如一笔交易可能有交易渠道、来源省市、机房等多个维度和属性取值,需要首先定位是哪个业务维度上产生了异常,而通过人工分析的方式很难在短时间对众多维度属性进行快速定位,无法满足快速定位的需要。

 

解决方案亮点介绍

秒级故障发现,分钟级故障定位,趋势预测准确率可达90%以上;

 

智能运维场景基于自研、独创的运维算法,高度适配运维行业特点,自适应不同特征类型的数据;

 

算法模型融合了大量行业场景落地实践经验,极大的简化了用户参数设置工作,使整个系统更加简明易用;

 

采用无监督的机器学习算法,无需人工干预,自动实现模型训练和异常检测/定位过程;

 

算法输出效果不受“坏”数据如时间偏移、数据断点影响;

 

支持海量异构数据接入,满足不同类型、不同来源的运维数据处理要求;

 

支持计算能力横向扩展,实现海量数据的高速、实时、并发处理;

 

平台底层采用智能动态任务调度机制,保证各模块功能稳定均衡工作;

 

金融行业客户名单及客户评价

客户评价:必示科技在我行进行了智能运维解决方案的部署,整体技术方案成熟可靠,项目效果符合预期,可以帮助我行能够*****时间发现问题、定位问题,从而有效缩短我行故障恢复时间、提升故障发现准确率、降低平均故障定位时间并对我行运维数据治理工作提供了有效的推动作用,为我行内部运维以及业务决策提供了强有力的支撑。


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

微风企科技:普惠金融智能风控解决方案

微风企科技以RPA+AI技术为基础,为金融机构提供中小企业信用评估数字化技术服务;凭借丰富的数据服务经验和多维度数据源,为金融机构提供专业的数据采集与智能分析服务,安全高效地解决数据来源的可靠性、统计分析的滞后性、模型算法的有效性。

“鑫智奖”2021第三届金融数据智能优秀解决方案评选 2020-03-30

泛钛客科技:汽车金融智能工厂解决方案

泛钛客科技依托人工智能、大数据、云计算等技术,研发了汽车金融智能工厂系统,为汽车消费金融服务提供数字化解决方案。该解决方案支持24小时内自动审批、远程视频面签、材料无纸化,整个流程至少节省70%申报时间,为消费者提供高效便捷的金融服务。

“鑫智奖”2021第三届金融数据智能优秀解决方案评选 2020-03-30

京北方:金融智能实时风控系统

金融智能实时风控系统是面向银行运营管理及风险管理实践的解决方案。系统使用新风控引擎技术和机器学习模型,可快速、灵活配置各类规则,挖掘相关业务场景下潜在的风险特征及欺诈关系,有效提升风险识别率。

“鑫智奖”2021第三届金融数据智能优秀解决方案评选 2020-03-30

腾讯安全:天御智能风控中台解决方案

腾讯天御智能风控中台,从腾讯自有业务风控系统演化而来,具有极其强大的配置能力和数据分析能力、变量运算能力。包括流计算引擎、变量中心、策略中心、分析中心、监控中心等模块是整个风控业务的中枢系统,可以满足包括交易、信贷、营销三大领域的风险防控场景,可以基于全新的风险场景配置针对性的防控体系,具有极强的可扩展性。

“鑫智奖”2020第二届金融数据智能优秀解决方案评选 2020-03-30

百融云创:百融智能语音机器人解决方案

此解决方案的亮点在于可代替人工进行批量的外呼工作,识别准确率可达到95%以上外,呼完成后可输出信息采集及节点标签,用于后期进行特定分析统计、筛查及备案使用,智能语音机器人通过大数据实现自主学习、自我提升。

“鑫智奖”2020第二届金融数据智能优秀解决方案评选 2020-03-30

文思海辉:基于“金融智脑”的金融服务机器人解决方案

金融服务机器人通过提供一种全新的智能工具,将有效解决银行转型升级的问题,实现智能化流程、服务创新、渠道创新、精准化营销和风险防控,并且投入成本低、应用效果好,让用户在同机器人愉快轻松的交流中解决问题和办理业务。

“鑫智奖”2019首届金融数据智能优秀解决方案评选 2020-03-30

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 运维
  • 人工智能

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构