本文来源于:2024年“鑫智奖”第六届金融数据智能优秀解决方案评选,作者:云智慧

云智慧:基于运维数据治理的可观测性落地实践

2024-02-19 关键词:数字化转型,智能运维,数据治理与数据平台2708

一、解决方案简介


在银行业数字化转型向更高质量纵深发展的过程中,推动智能运维建设成为保障金融业务稳定运行的重要工作。实现智能运维的核心之一是便可观测性,它能够帮助运维团队在复杂的分布式环境下实时掌握和分析系统的状态和性能,以便及时发现和解决潜在问题。实现可观测性的基础工作是实现运维数据治理,其中包括数据采集、清洗、分析和管理,以确保高质量、一致性和可用性的数据。


本文旨在阐述如何快速高质量地搭建基于运维数据融合场景的可观测性平台,分享可观测性平台从方法论到工程化落地的建设路径,包括可观测性平台的设计、落地以及各个使用等场景。


二、应用场景痛点简介


在日常运维工作中,金融机构可通过已有的监控工具及时发现业务、资源和网络等方面问题,通常情况下业务故障可以在3分钟内迅速掌握,然而由于核心系统已进行了分布式改造,实施微服务改进,这会在很大程度上影响运维和监控的效率。


1)业务系统关系变得更加复杂


在复杂的交易系统架构下,现有运维工具的有效故障定位变成了一项极具挑战性的任务,追踪和定位业务故障根本原因的效率也受到限制。


2)告警信息繁多


各类监控工具会产生大量的告警信息,特别是基础资源类告警,对于交易是否产生影响,一线人员难以进行有效的判断。绝大多数运维工具主要以技术视角为基础,缺少业务视角的考量,因此导致工具的利用率低。


3)工具和数据的离散导致分析繁琐


在业务故障发生时,金融机构内部运维工具会生成大量包括指标、日志、调用链和告警信息等运维数据。通常情况下,当开发人员与运维人员需要进行沟通、排障和故障定位时,涉及到多个内部工具之间的相互切换,以查看与交易故障相关的指标、日志、调用链等数据。这种多工具协作的方式限制了协作效率的提升。


10.png

图1: C行业务系统以及业务视角的场景


三、解决方案亮点介绍


1.运维数据治理驱动的可观测性建设


1.1 运维数据治理挑战


金融机构的运维数据治理面临着多重挑战,包括数据全面性、数据质量以及高质量运维数据平台的搭建等。笔者对构建可观测性平台所需的运维数据类型进行了总结(见下图),需要对已建成的内部工具进行审查,以确定它们是否包含了所有必要的底层数据源,并且关键数据类别(包括指标、链路、日志)是否满足可观测性数据质量的要求。数据质量的通用评价标准包括完整性、***性、有效性、一致性、准确性和及时性六个特性。如发现数据质量和数据类型未能满足可观测性数据质量的要求,可以采用逐步实施的逻辑,即“看大做小”来开展运维数据治理的工作。


11.png

图2:数据类型介绍


1.2运维数据治理构建和实施


可观测性以及运维数据治理工作,应以指标(Metrics)、日志(Logging)和调用链(Tracing)的运维数据为基础,从业务出发、以交易视角有效地整合来自内部各种监控工具数据,实现对业务系统和交易的多维度数据关联分析和展示,以提供更全面的洞察。运维数据治理的实施是一个综合性的过程,需要同时考虑多个关键内容。


1)数据生成


数据生成是指被观测系统必须拥有生成规范化运维数据的能力。目前,在这方面内部各种运维工具已经生成了符合标准运维数据要求的数据,包括但不限于:日志中的全局流水号、交易日志的一致规范、APM中的链路追踪数据、各种监控工具的指标数据以及BPC中的业务交易数据等。在新核心项目启动初期,制定了多项技术规范,这些规范在全行各系统的改造过程中被严格执行。首先,全局流水号规范和应用日志规范都经历了相关改进,同时,通讯报文中所涉及的流水号也进行了规范化处理。全局流水号由初始端生成,贯穿一笔完整交易所经过的所有节点。此外,在全局流水号的基础上,对应用系统运行过程中产生的日志进行了统一规范。除了单独生成具有一致规则的链路日志外,链路信息也需要满足各个节点之间根据流水号进行上下级关联的要求。


2)数据采集与对接


通过观测系统对于不同来源、不同形态、不同介质的运维数据进行广泛且高效的采集、存储、治理,在项目中建设了统一采控平台,用于接入多种运维工具数据,统一采控平台以图形化可配置的方式实现第三方运维工具源数据接入。


在数据对接工作中采集了多个运维工具的数据,分为监控类工具与非监控类工具。监控工具包括日志监控工具、APM工具、BPC工具、数据库监控工具、中间件监控工具、操作系统工具、网络监控工具、统一告警工具、自动化巡检工具;非监控类工具包括配置管理工具、流程工具、堡垒机、自动化发布工具等。


3)运维数据清洗


运维数据清洗实现了对运维数据的预处理,以保证数据的质量和准确性,数据清洗主要包括:


APM工具数据清洗逻辑包含应用服务类指标数据清洗。例如服务概览性指标:APM响应时间(ms)--Response-平均、APM请求吞吐率(tps)--Throught--平均、APM错误率(%)--Error--平均、Apm异常数(code  external logged);例如运行时刻指标:Heap memory Usage、Eden Space、Old Gen、Survivor Space、Metaspace、Thread Count。


日志数据清洗逻辑:通过日志中全局流水号清洗出业务系统之间调用关系,主要日志字段如下表所示。


12.png

图3: 日志数据释义


BPC数据清洗逻辑:BPC对接数据包含BPC交易业务指标和交易明细数据,通过消费Kafka数据进行对接。主要业务指标包含:

交易总量:发送请求数;

交易响应时间:响应数据包时间戳-请求时间戳;

交易响应率:有响应的笔数除以请求数;

交易成功率:成功的笔数除以有响应的笔数;

交易明细数据接入查询逻辑:在进行业务系统的业务分析时,根据交易明细数据中内容再在日志中找到全局流水号,后端可以通过BPC自带的FlowId关联具体的交易详情。


CMDB数据清洗逻辑:对接行内配置数据以及配置关系数据,每天更新,从CMDB系统获取CI及CI关系数据逐条与数据中台昨日配置数据进行对比(表中存在则更新,不存在则新增),对比完成后再删除更新时间为昨日的配置数据。


基础监控数据清洗逻辑:通过API接口或者采集数据库方式实现实时性能指标数据接入(指标的IP标签与CMDB中各主机模型中IP属性做映射),采集频率1min采集一次,清洗数据存入数据处理平台对应表。


自动化发布数据清洗逻辑:对接内容:变更记录(系统名称、SysId、IP、变更单号、变更时间),对接方式采用对接自动化发布平台数据库MariaDB。


自动化巡检数据清洗逻辑:通过接口方式调用自动化平台把主机巡检结果返回给可观测系统,主机与应用系统关系通过CMDB进行关联。


统一告警数据对接详情,数据清洗逻辑:行内统一告警平台输入数据到对应Kafka主题,其中原始告警消息需要按照可观测系统的格式要求返回。


4)数据分析建模


基于专家经验、规则、AI等对观测数据进行建链、富集、洞察、预测等不同层次的数据分析,建立相关场景的数据模型。为了便于后期维护扩展,接入的第三方运维工具的原始数据通过可配置的数据清洗任务,输出标准化数据到具体的数据模型中,数据模型遵循下面可观测场景架构建立。


13.png

图4:可观测性场景架构


2.可观测性场景构建与落地


金融机构需要建设的运维可观测性核心场景不只是基于opentrace/opentelemetry的链路数据展示,而是要结合业务交易数据、以架构、场景、日志数据、指标数据、链路数据、告警数据为主,变更(自动发布、堡垒机、巡检、日志)、属性、CI、关系、健康度为辅的数据串联/下钻/分组聚合。以实现横向到边的服务调用链路、纵向到底的配置管理关系图,以及这个架构可视化之上的多种可观测性场景的应用,为此规划了两个阶段来逐步落地。


14(1).png

图5:横行到边,纵向到底(示例)


2.1 一阶段建设:夯实数据,横纵可视


本阶段重点是运维数据融合场景,以业务交易视角进行行内现有运维工具数据融合串联,即实现以交易视角串联各个运维工具中汇聚数据,也能实现单笔业务追踪能力。


以交易维度构建上层可观测场景,当交易出现故障时,例如“手机银行1分钟平均交易响应时间超过2000毫秒”,此类告警属于交易性能下降的业务告警,此时通过可观测性平台可以快速定位到交易性能下降的根本原因是什么,通过数据驱动的业务系统调用拓扑,可以清晰的了解到造成该交易性能下降是由于哪些业务系统造成的,点击进入到有问题的业务系统,可以通过链路追踪拓扑看到业务系统内部的服务调用异常节点,可以通过配置关系拓扑+关联指标数据快速定位是哪些基础资源故障造成的业务性能下降。通过BPC数据及单笔报文数据可以追溯到单笔交易流经了哪些业务系统、哪些服务、影响时间等等,业务交易的内部逻辑及调用关系清晰可见。交易故障的根因定位时间由原来50-60分钟缩短到15分钟左右。


本阶段建设涵盖了13种工具数据的接入和未来的维护工作,既要充分考虑已建成的13个运维工具的现有接口能力,又要考虑这13类工具数据格式质量不同问题。对于工具快速接入,可通过前台页面配置地址、端口以及鉴权信息完成这13种运维工具数据采集;对于数据格式及数据质量各不相同问题,利用可观测平台中数据中台能力对接入的运维数据进行标准化工作,运维数据清洗过程前台可见,数据清洗逻辑由不同的数据清洗任务组成,每个清洗任务里包含符合运维数据特征的清洗算子,对于数据清洗任务有单独的模块进行监控,保证清洗任务的及时性有效性。除此之外,考虑到海量运维数据存储问题,数据平台利用CK技术栈实现了运维数据存储,确保不同数据在IO和压缩比上获得平衡,这比传统ES技术栈节约了30%以上的存储空间。


15.png

图6:面向业务视角的全栈可观测性示例(拓扑)


通过可观测场景的构建,提升了50%运维数据消费支撑能力,平台未建成前,对外提供的运维数据质量、提供数据的效率都无法及时的保证;而在平台建设后,全行级运维数据(指标、日志、告警、调用链、配置数据、关系数据等)接入后,通过数据治理组件,有效输出标准化运维数据供上层场景进行数据消费。


2.2 二阶段建设:快速定位,智能分析


基于一期建设的成果,已能实现对于简单交易故障的快速定位。但对于复杂架构下的交易故障根因,仍希望进一步缩短定位所需时间,期望是将复杂交易故障的定位时间从目前的平均15分钟缩短至5分钟以内。

例如故障发生时,“手机银行”(业务系统)内“跨行转账”(交易类型)在上海地区近5分钟内交易中断(无法进行交易)),“手机银行”(业务系统)内“跨行转账”(交易类型)在上海地区近5分内交易延迟过高(2000ms))。针对此类从业务视角出发的故障分析,融合各种运维数据的智能化场景是显著提升故障定位速度的有效手段,通过应用算法技术,自动推荐业务系统交易中断或交易性能下降的故障根本原因。通过智能化根因技术手段,借助已知交易类型的历史故障根因知识图谱,实现快速根因定位。其次,对开展未知交易类故障的根因知识图谱计算。并根据动态决策树,进行根因计算和定位,以进一步提高故障定位的效率。


在进行二阶段建设过程中,提到了多个数据融合的智能场景探索,包括容量预测、告警以及日志分析各个领域。


1)智能容量预测:通过指标预测的智能化算法沉淀,可以弥补之前“运维事前”的欠缺的预测能力,平台可以通过算法对容量(业务指标、技术指标)等性能指标进行动态预测,可生成图形化曲线图,可以直观看到容量指标未来趋势走向,为业务底层计算资源扩缩容提供客观数据参考。


2)智能告警:通过指标异常检测的算法沉淀,可以提升告警60%的准确率。平台建成后告警除了静态阈值机制外,还支持同、环比机制,动态阈值机制,可以大幅降低之前系统抖动或者在特定运维时间(批量、变更)出现大量无效告警的情况。


3)智能日志分析:通过日志模式识别/异常检测场景,可以补充原有系统只能通过关键字进行日志数据分析的能力。平台落地后可以直接对接原始日志内容,完成数据分析实现故障发现。对专家的依赖度低,且开箱即用,业务价值交付快。


四、金融行业客户名单


中国银联、交通银行、郑州银行、中国太平、中国人寿、吉林农信、珠海华润银行、常熟农商银行。


五、客户评价


通过本次运维数据驱动的可观测性项目的建设,使得我行不仅能够更规范、更高质、更有效地管理和利用运维数据,还能够实现更高效的故障排查、性能优化和预测性运维,这将直接有助于提升其业务的稳定性、效率以及降低潜在风险,为客户提供更可靠、高质量的金融服务。——某农商银行


本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

商业银行内控合规管理数字化转型路径探析

商业银行内控合规管理数字化转型可以有效提高商业银行全面风险管理水平。商业银行应基于现有风控系统,通过优化模型规则,提升数据质量,配套对接内部业务系统,充分发掘数据潜能,强化系统刚性管控等,加快构建更加全面、精准、开放、前瞻的数字化智能内控合规管理体系。

中国银行业杂志 刘振宇 2024-02-19

农业银行数据中心总经理佟梅:依云而生,农业银行构建提质增效IT新底座

云原生概念从2013年诞生到现在已经整整十年,其内涵技术和创新应用仍在不断迭代发展,并逐步成为IT基础设施领域的技术基石。农业银行数据中心积极推动基础设施云原生转型,构建了以分布式云平台为基础的云原生技术底座,助力全行系统向分布式架构演进,在保障****业务连续性的前提下,兼顾基础设施的敏捷和效能,实现了提质与增效的有机统一。

中国金融电脑 佟梅 2024-02-19

交通银行风险管理部副总经理吴仕旼:以高质量风险管理数字化转型,高水平支撑银行产品和服务体系建设

交通银行在“十四五”风险管理规划和数字金融行动方案(2024—2025年)中均明确提出,要加快推进风险管理数字化转型,以此进一步打造适应“多样化专业性的金融产品和服务体系”的数字化风险管理能力,织密风险内控“防护网”,支撑“风险类别+机构+产品”的“三维一体”全面风险管理体系落地。坚持企业级思维,通过“数据要素×”和“人工智能+”的方式,将风险管理系统延伸覆盖至全集团、全流程、全场景、全产品,推动风险管理从“人防”“技防”向“智控”转变。

金融电子化 吴仕旼 2024-02-19

北京银行:场景金融建设项目

北京银行以数字化转型、场景金融及生态圈建设为目标,以公司客户收付款高频结算业务为切入点,着力打造场景金融平台,启动场景金融项目建设。 北京银行坚持以构建基础设施、提升收付管能力、强化精细化管理、嵌入智能风控、挖掘产品价值为五大导向,形成1个平台、3个标准产品、N个应用场景的“1+3+N”综合服务解决方案,为企业提供收付款一站式、大小额全渠道、本外币一体化、境内外全覆盖的综合应用,赋能企业数字化转型,助力实体经济发展。

2024年度城市金融服务优秀案例征集活动 北京银行 2024-02-19

梅州客商银行副行长兼首席信息官陈景荣:金融科技赋能梅州客商银行快速发展

党的二十大报告指出,加快发展数字经济,促进数字经济和实体经济深度融合。高质量开展数字化转型,推动金融与科技的深度融合,已成为推动金融服务转型升级的新动力。梅州客商银行作为一家成立于世界客都、原中央苏区和国家级农村金融改革创新综合试验区广东省梅州市的民营银行,开业6年来,坚持数字化发展方向,不断加大金融科技投入力度,经过从0到1的艰难探索,通过数字银行建设服务业务发展,逐步进入发展快车道。

中国金融电脑 陈景荣 何良玉 2024-02-19

中国工商银行 厦门市分行行长张江山:系统布局,战略引领,开启数字化转型新征程

中国工商银行厦门市分行(下称“厦门工行”)在总行整体布局下,全面开启数字化转型新征程,充分发挥工商银行作为科技强行、数据大行的优势,以“技术+数据”双轮驱动,强化科技、数据、业务“煲汤式”深度融合,不断提升数字化经营水平,持续为打造高质量发展的特色精品分行开辟新领域新赛道、构筑新动能新优势。

金融电子化 张江山 2024-02-19

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 智能运维
  • 数字化转型
  • 数据治理与数据平台

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构