本文来源于:2024年度全国农村金融机构科技创新优秀案例评选,作者:河南农商联合银行
河南农商联合银行:日志管理平台
2024-10-09 关键词:运维管理
2413
一、项目背景与目标
1.1.项目背景
随着我行应用系统及设备逐步进行信息技术应用创新改造,原有日志平台已无法满足纳管要求,碎片化的日志管理模式无法保证新形势下安全合规审计、运维管理、业务分析的实际需要,为了满足监管机构及相关法律法规的要求,结合河南省农村信用社“十四五”时期发展建设规划,提升运维数字化水平,同时满足国产化相关要求,我行准备建设统一的日志管理平台,用于收集和存储所有信息系统日志(包括服务器、应用系统、数据库、安全设备、网络设备等),同时利用数据挖掘技术充分分析和利用各信息系统的日志,提升运维能力和效率。
1.2.项目建设定位
本次新建日志管理平台具备漏洞修复、产品服务升级等功能,全栈部署在国产运行环境,满足采集、处理和分析已经部署在国产化系统(应用、中间件、数据库、系统、数据库、主机、网络)各类系统日志的需求,实现日志的归档、检索、告警、分析的一体化日志监控分析管理,满足监管审计及快速运维的需要。
1.3.项目目标
建设统一的设备日志与业务日志集中管理平台,收集多维异构数据源(主机设备、网络设备、安全设备、中间件、数据库、应用系统等日志信息),形成集多源异构日志数据采集、查询、分析、展示、告警一体化的平台,既满足网络安全法对日志记录与存储的要求,同时结合平台自身的分析工具对目前接入的业务系统进行数据分析,为系统运维和业务运营提供高效可靠的数据支撑。
1、实现运维监控能力提升:基础监控系统对设备运行过程中的各类指标已具备完善的监控手段,但是针对内部,例如交易过程中的异常,无法及时发现,通过日志平台能够快速发现异常信息,及时提醒相关设备、应用的管理人员,提升故障发现能力。
2、实现运维效能提升:以日志数据基础、运维场景为需求、平台为手段,快捷定制针对各种运维场景的敏捷运维工具,将通用化的场景工具化,实现一键化的故障线索排查,降低MTTR。
3、数据挖掘能力提升:提升数据计算能力和数据提取能力,快速对海量日志数据进行挖掘、计算,辅以灵活的图形化能力、报表能力,能够快速为不同场景下的数据,提供“可见”的报告。
二、项目方案
日志管理平台统一收集多维异构数据源(网络设备、安全设备、主机操作系统、数据库、中间件、应用系统及APM/网管/手机APP等日志信息),将非结构化的日志数据根据其字段含义进行结构化处理,将格式化的数据进行列式存储后,对日志数据进行检索查询分析。下图为日志管理平台功能架构图。

数据使用层:是日志管理平台的集中展示门户层,是系统的入口,主要包括企业用户视图、私有云租户视图、共有云租户视图等,主要使用的技术栈包括HTML5、JavaScript、CSS、Vue等主流的web前端技术和以SpringBoot为服务框架的后端技术。
数据分析层:是日志管理平台提供统一的日志数据分析服务,最上层是北向API接口,为数据使用层以及第三方系统提供统一的接口服务,API服务是所有业务请求的统一入口,日志关联搜索为所有日志查询请求提供检索服务,通过RBAC角色权限管理模型为日志管理平台提供统一的功能级和数据级权限控制。数据分析层功能服务包括UEBA用户行为分析、异常检测、故障预测、业务分析报告、业务服务地图及业务故障定位、SIEM安全事件管理、容量预测、实时告警、用户行为画像分析、性能优化等等。
数据引擎层:为上层数据分析层提供支撑,包括SPL数据分析、数据归档、Beaver分布式搜索、数据脱敏、告警交互、可视化展示、业务拓扑及业务链、机器学习等处理能力,处理层使用分布式集群技术,保证为数据分析层提供的服务具备高可用、高并发、高性能等特性,底层的技术栈包括Kafka(以满足大规模消息的高速吞吐处理)、Zookeeper(以满足分布式集群协调的需求)、Beaver自研搜索引擎(作为数据搜索引擎,以满足数据全生命周期管理以及数据分析需求)等等。
数据处理(ETL)层:是日志管理平台数据引擎和数据分析的基础,通过数据字段提取、数据格式规范化、数据字段内容替换、时间规范化将非结构化的日志数据转换为结构化的字段,为数据引擎层和数据分析层打下数据规范基础。
数据采集层:支持Agent和非Agent方式进行数据采集,通过SYSLOG、SNMP、ODBC、JDBC、HTTP、FLUME、API、SSH、FTP等各种协议实现对各类日志数据进行采集。
数据资源层:包括企业IT运维管理的所有日志类型及数据源,包括日志数据、性能指标、网络抓包数据、用户行为数据、告警数据、配置管理数据、运维流程类数据,具体数据源包括网络设备、安全设备、操作系统、数据库、中间件、业务系统、APM、网管及APP等。
三、业务功能
(一)仪表盘
用于可视化展示日志数据,方便用户快速了解业务运行情况,其中包括以下几方面:
1. 柱状图和折线图
日志管理平台提供柱状图和折线图两种基本的图表类型,通过对查询结果进行可视化,可以快速直观地了解业务数据的变化趋势和分布情况。在仪表盘中使用这两种图表模式,可以直观展示各类指标在不同维度下的表现情况。
2. 饼图和漏斗图
饼图和漏斗图通常用于展示各类业务指标占据整体的比例关系。比如,可以使用饼图来展示网站各类访问来源的占比情况,在漏斗图中则可以清晰地展示每个步骤的转化率。
3. 热力图
热力图可以直观反映指标数据在不同维度下的密集程度,快速找出数据的瓶颈和热点区域。在仪表盘中使用热力图,可以更直观的展示各维度下的指标数据变化情况。
4. 表格和树状图
表格和树状图分别用于呈现各类指标数据的明细和层级关系。通过表格和树状图,可以查看特定的业务数据完整详情,如访问日志明细、用户活动记录等。
5. 地图
地图可以方便地展示指标数据在空间维度上的分布情况,比如,可以使用地图来展示各地区的访问量、订单量或其他指标,同时也可以进行可视化分析,并进行业务趋势的预测。
除此之外,还支持仪表盘的参数化配置,可以按照个人需求灵活的配置界面大小、区域布局、样式和主题等,以定制最适合自己的业务管理视图。
综上所述,日志管理平台的仪表盘功能可以实现对业务数据的可视化展示和分析。无论是管理层还是业务人员,都可以通过仪表盘快速掌握业务运营情况,进而制定相应的业务决策和调整方案。
(二)告警
日志管理平台提供了告警功能,可以针对业务运行情况设定告警规则,实现异常情况的实时监测和及时处理,功能包括以下几个方面:
1.告警规则设定
根据业务需求,设置告警规则,规则支持多种变量、关键字查询、组合查询和时间周期等条件。例如,可以设置当某个接口错误率超过一定阈值、异步任务处理时间超时等告警规则,当满足告警条件时,系统会自动触发告警。
2.告警通知
告警通知支持邮件、短信等多种方式,可以将告警信息实时通知到相关的管理者和技术人员,以便及时处理异常问题。
3.告警数据分析
日志管理平台支持对告警数据进行分析和统计,包括触发次数、告警详细信息、告警趋势等,可以了解各个告警规则的触发情况、告警排行等,借此了解业务的运行情况。
4.告警日志查询
告警日志查询,支持按告警名称、告警类型、告警时间范围等多维度进行查询,可以清晰的展示告警的详细信息,包括触发条件、触发时间、触发数量等,方便追溯问题原因。
通过告警功能,可以快速准确的捕捉到业务运行的异常情况,及时的进行处理,保障业务的正常运行。同时,告警日志的分析和统计也可以帮助用户深入了解业务的运行情况和潜在问题,从而进行更准确的业务规划和调整。
(三)报表
日志管理平台的报表功能可以帮助用户对日志数据进行定制化分析和呈现,包括以下几个方面:
1. 报表设计
根据业务需求,通过可视化的方式设计报表,包括选择数据源、设置报表格式、布局和样式等,支持多种数据可视化方式,如表格、图表、地图等。
2. 报表导出
平台支持将设计好的报表导出为多种格式,包括PDF、Excel、Word等,同时支持将报表以链接形式发送至其他人员,方便查看和使用。
3. 报表数据来源
日志管理平台支持多种数据源,不仅可以使用自己的日志数据,也可以使用其他数据源,比如第三方API、数据库等。
4. 报表嵌入
通过将报表嵌入到用户自己的邮箱或者应用程序中,可以直接从自己的应用程序中打开报表,在应用程序中使用操作报表,使用户使用更加高效和便捷。
5. 报表分析
基于报表对数据进行深度分析,发现异常数据和趋势,发现新的商机和机会等。通过更深入的数据分析,可以更好地了解业务运营情况,做出更准确地决策。
综上所述,日志管理平台的报表功能可以实现对日志数据进行定制化分析和展示,包括报表设计和导出、数据来源多元化、嵌入自己应用程序、深入数据分析等特征,为用户提供最具价值的数据。
(四)SPL搜索
SPL(Search Processing Language)搜索功能是日志管理平台的一项重要功能,可以快速地查找所需的日志数据。SPL支持各种复杂查询条件和关键字查询,包括以下几个方面:
1.查询条件设定
用户可以根据不同的需求,设置不同的查询条件,可以在查询条件中使用运算符、字符串匹配符、正则表达式等方式,实现多种组合查询,如AND、OR、NOT等。
2.关键字查询
SPL支持关键字搜索,可以搜索所有类型的日志数据,例如用户可以快速搜索某个IP地址、某个操作等信息,提高日志分析和搜索的效率。
3.数据可视化
SPL支持在查询结果中进行数据可视化,如将查询结果转换成柱状图、饼图、折线图等多种数据展示形式,这种可视化方式能够更加直观的展现数据,更好地帮助用户进行数据分析。
4.搜索历史记录
SPL支持搜索历史记录,用户可以查看之前的搜索记录并重新执行查询。
5.结果导出
SPL支持将查询结果导出,并支持多种方式,包括CSV、JSON、XML等,用户可以将结果导出到其他系统中使用。
日志管理平台的SPL搜索功能是非常强大的,它使我们能够快速的查询、分析、挖掘日志数据的联系,以及识别潜在问题和异常情况,优化系统性能,提高业务的可靠性和稳定性。
(五)字段提取
日志管理平台的字段提取功能可以从日志数据中提取特定字段,以便更好地了解日志信息并进行分析。以下是其详细介绍:
1.操作简单
日志管理平台的字段提取功能使用简单,用户只需要在界面上添加提取规则,如输入正则表达式、指定分隔符等,就可以快速准确地提取所需字段。
2.多种提取模式
日志管理平台支持多种提取模式,如正则表达式、分隔符、自定义、kv正则、时间戳识别等,用户可以根据自己的需要选择。此外,该工具还支持提取各种类型的字段,如数字、IP地址、URL等。
3.可视化效果
提取出的字段可以在日志管理平台的可视化效果中展示,用户可以更直观地了解数据情况。同时,用户还可以通过自定义过滤器或搜索来快速定位所需的数据。
4.数据导出
提取出的字段可以保存为 CSV 或 JSON 格式的文件,以便后续数据分析和处理,比如导入 Excel 等其他分析工具。
日志管理平台的的字段提取功能可以帮助用户高效地提取日志数据中所需的字段,提高日志分析效率。
(六)分布式索引
1.支持分布式架构
分布式索引功能可以对大规模的日志数据进行分布式索引、检索和分析。该功能使用分布式架构可以横向扩展,以处理非常大规模的日志数据集。
2.高效索引
分布式索引功能具有非常高效的索引技术,可以在进行查询时快速找到匹配的日志数据。该功能可创建索引和搜索非常大的日志,并支持实时索引。
3.高效搜索
分布式索引功能可以使用高级搜索和过滤功能来精细地确定需要的日志记录,包括范围过滤、时间过滤、文本搜索、字段匹配搜索等。用户可以使用结构化的查询语言来创建搜索查询。
4.数据分析
分布式索引功能不仅可以搜索日志数据,还可以分析它们,以便更好地理解相关数据。分析功能包括直方图、折线图、饼图等,可以通过可视化呈现的方式推动数据分析。
5.高度可扩展
分布式索引功能采用分布式架构和Beaver 存储引擎,因此可以无缝扩展存储和处理能力。该功能支持多个节点的部署,可以支持大规模PB级的日志数据集。
综上所述,分布式索引功能具有高效的索引技术、精细的搜索、数据分析和高度可扩展性等特点。该功能可以帮助用户在海量的日志数据中快速找到所需信息,从而支持用户进行更高效、更准确的日志分析和数据挖掘。
(七)索引路由
1.索引管理
针对不同种类日志,其数据量大小、安保留存等级各不一致的情况,日志管理平台提供索引管理功能,用户可以预先定义几个有效留存时间和切分时间各不相同的索引,然后将不同种类的日志,依据一定的路由规则,导入到不同的索引中。
对于长期留存,但未必经常查询的数据,日志管理平台支持设置索引的冻结周期。超过冻结周期之外的数据,自动进入冷却状态。数据依然可读(速度更慢),但不再可写。冷却状态的索引占用内存资源更少,有利于集群稳定性,建议配置。通常可设为 3-7 天的时长。
对于暂时无法预估数据接入规模,但日志管理平台集群规模已确定的情况,日志管理平台支持设置索引的留存大小。索引大小超标时,即使还没有超过有效时间,也会强制启动数据淘汰删除机制,以确保磁盘空间可用。
2.路由管理
默认情况下,日志管理平台采集的数据会自动写入yotta索引并供 SPL检索使用,整个流程不需要用户进行额外的配置操作。但如果数据预备拆分存储到多个自定义索引,或者转发给第三方系统时,则需要进行数据路由配置。
一条路由规则可以同时作用于索引和主题。
点击’设置'-'数据’菜单上的’路由配置',进入路由管理界面。列表顶部可以点开高级过滤区域,对appname、tag、匹配规则等进行模糊过滤。
三、创新点
1.适配国产化架构
平台部署在ARM架构、FusionOS22操作系统的国产化环境。平台丰富且完善的外部接口保证了平台良好的扩展性,能够快速适配各种新型的国产资源,实现现有资源全覆盖,新资源快速适配,持续提升平台能力和价值。
2.高可用架构
平台采用分布式集群架构,分布式存储引擎支持副本机制不存在单点问题,后台管理页面可以动态在线添加节点到集群实现横向扩展,同时为了满足数据分析和监管要求可以对数据进行全量或增量备份,备份数据可以跨集群进行恢复,甚至在集群名称、节点数均不同的情况下仍然可以进行数据恢复。在后台服务管理中对各模块配置参数、服务启停提供了可视化操作,并可以对某一服务单独升级或整体进行大版本升级。
平台支持客户端所有设备、所有集群、所有组件的一键部署Agent。统一代理程序支持自动化批量部署及升级,代理程序启动后可以自动注册及纳管,无需人工干预。
3.高效的搜索引擎
搜索引擎是日志管理平台的核心技术所在,日志管理平台吸取了Lucene开源社区多年积累经验的基础上,针对日志数据的特点,采用C++语言自主开发了Beaver索引存储组件。和市场上主流开源方案相比,具有了诸多功能和性能上的优势,如下:
(1)纯实时索引检索引擎;
(2)内存原地检索不必耗费I/O;
(3)数据段支持内部并发写;
(4)单数据段更大,减少数据段数量;
(5)数据合并的规模小,正常情况下因数据合并产生的IO和CPU消耗很低;
(6)引擎会自动根据ssd,sata,nas不同级别存储完成热、温、冷索引迁移和控制;
(7)采用C++开发,性能优化可以做到极致,内存使用完全可控。
4.多种采集方式的支持
采集技术涵盖代理和无代理方式。平台采用多种采集方式达到对主机、应用和数据库的监控,这些技术包括:
(1)基于代理的采集:文件或目录、脚本、性能数据、BEATS、KAFKA等;
(2)基于标准协议的采集:PACKETBEAT、HTTP/HTTPS、Ping、SNMP、SSH、TELNET、JDBC、ODBC、S3、NTP、SNMPTrap、Syslog等;
(3)支持国产环境数据的采集:支持国产操作系统、中间件、达梦数据库等资源采集。平台丰富且完善的外部接口保证了平台良好的扩展性,能够快速适配各种新型的国产资源,实现现有资源全覆盖,新资源快速适配,持续提升平台能力和价值。
5.多样的数据结构化处理技术
(1)标准化数据处理:常见的标准的日志格式支持有Apache、Nginx、Syslog、Java、JSON等数据,能自动识别数据格式,平台自动提取日志的关键字段,将非结构化日志转化为结构化数据。
(2)常规日志处理:提供向导式解析规则配置,实现精准解析,利用解析组件如:正则匹配、KeyValue分解、URL解码、时间戳识别、字典翻译、IP 地址库等相互组合以实现日志的解析处理。
6.低代码语言开发平台,灵活满足日常运维、安全场景实现
为提供更加丰富和灵活的查询和统计功能,日志管理平台设计了独特的SPL(Search Processing Language)语法。搜索统计模块SPLServer承担了对SPL的语法解析和任务调度工作,该语言能将存储在搜索引擎中的结构化数检索并计算。
四、技术实现特点及优势
日志管理平台系统架构主要由两个数据流转路径组成,一是数据存储流向,二是数据查询流向。
数据存储流向涉及组件:
Agent -> Collector -> Kafka -> Logriver -> Beaver
数据检索流向涉及组件:
Nginx -> Yottaweb -> Auth -> Splserver -> Beaver
各模块的数据流图如下:
日志管理平台采用分布式服务架构,由不同模块负责数据处理的不同阶段。各主要模块功能说明如下表所示:
模块名称 | 模块功能 |
Heka | 日志采集模块,部署于被采集端 |
Collector | 负责日志数据接收 |
Kafka | 分布式消息队列,用于缓存日志数据 |
Zookeeper | 分布式应用程序协调组件 |
Logriver | 日志解析模块 |
Beaver_master | Beaver 搜索引擎主节点管理组件,负责维护系统 meta 信息(如索引、分片及其未知信息),并负责搜集数据分布平衡数据分布 |
Beaver_broker | Beaver 搜索引擎代理管理模块,负责对外提供服务同步 master 路由信息,转发搜索、索引请求及合并全局结果。beaver 为无状态服务可随意扩展。 |
Beaver_datanode | Beaver 搜索引擎数据节点,负责维护数据,分片分布于个 datanode 节点中,datanode 也负责搜索时的本地结果计算 |
Nginx | 代理服务器 |
Yottaweb | 提供前端 Web 服务及 api 接口服务 |
Splserver | 解析 SPL 查询语句 |
Auth | 权限认证和 License 管理模块 |
Vastbase | 数据库,用于存储用户配置信息 |
五、项目过程管理
(1)2023年12月启动日志管理平台项目,开展项目目标确定,前期规划沟通,具体包括:平台部署架构、设备选型、需求分析和实施范围确认。12月完成需求项目需求分析,输出《业务需求说明书》、《软件需求分析说明书》。
(2)2024年1月,完成系统概要设计及详细设计,输出《概要设计说明书》、《详细设计说明书》。
(3)2024年2月-3月,主要完成系统功能测试及性能测试等工作,输出《功能测试报告》及《性能测试报告》,满足生产环境上线要求。
(4)2024年4月,进行生产实施及上线工作,完成生产环境部署,日志数据接入,包括核心业务系统、统一支付系统、互联网金融平台、综合柜面系统、企业服务总线在内的100套重要业务系统。
(5)2024年5月,调研重要业务系统监控场景及指标分析并实现,满足系统投产上线要求,完成系统投产。
(6)2024年6月-8月,进入系统试运行阶段,系统运行稳定。
项目具体实施阶段及里程碑节点,如下表所示:
阶段 | 里程碑节点 | 开始时间 | 结束时间 | 成果 |
启动阶段 | 项目启动会 | 2023.12.11 | 2023.12.11 | 确定项目目标 |
日志接入调研 | 2023.12.12 | 2023.12.15 | 日志接入调研表 | |
需求分析阶段 | 业务需求分析及软件需求分析 | 2023.12.16 | 2023.12.31 | 完成需求分析,输出《业务需求说明书》、《软件需求分析说明书》 |
设计阶段 | 概要设计、详细设计 | 2024.01.01 | 2024.01.31 | 完成概要设计、详细设计,输出《概要设计说明书》、《详细设计说明书》 |
测试阶段 | 测试环境搭建 | 2024.02.01 | 2024.02.02 | 完成测试环境部署 |
功能测试 | 2024.02.05 | 2024.02.28 | 完成功能测试,输出《功能测试报告》 | |
性能测试 | 2024.03.01 | 2024.03.31 | 完成性能测试,输出《性能测试报告》 | |
实施阶段 | 生产环境部署 | 2024.04.01 | 2024.04.01 | 完成生产环境部署 |
生产环境功能验证 | 2024.04.01 | 2024.04.01 | 完成生产环境功能验证 | |
生产环境数据接入 | 2024.04.01 | 2024.04.30 | 完成生产环境数据接入 | |
监控需求实现 | 2024.05.01 | 2024.05.31 | 各业务系统监控需求实现 | |
分析需求实现 | 2024.05.01 | 2024.05.31 | 各业务系统分析需求实现 | |
需求确认 | 2024.05.15 | 2024.05.29 | 完成需求确认 | |
系统投产 | 2024.05.30 | 2024.05.31 | 完成系统投产 | |
项目试运行 | 系统试运行 | 2024.06.01 | 2024.08.31 | 试运行期间,系统稳定 |
六、运营情况
日志管理平台围绕可靠性、安全性、可扩展性、可维护性和灵活性几个方面,打造了一个高效、安全、稳定、可靠的日志管理平台,提高了日志管理和分析的效率和精度,为业务提供有力的支撑,帮助企业更好地了解系统运行情况和业务健康情况,从而优化业务决策、运营和提高快速响应故障处理能力。
七、项目成效
在国产化信创进程中,新技术的应用和及时有效监控管理,为后续IT资源国产化的工作提供了运维风险管控能力如下:
1、实现基础设施全覆盖
实现了对服务器、数据库、中间件、网络设备、安全设备、应用系统等基础设施的全覆盖。
2、实现了现有国产资源的全覆盖
目前已适配的国产资源包括:麒麟操作系统,华为和宏杉存储设备,东方通中间件,启明星辰、绿盟、华为和深信服安全设备。
3、实现基础监控数据多维度监控和可视化
支持各类基础设施性能数据(可用性、容量、性能)、日志文件、HTTP、KAFKA、SNMP、Syslog数据的监控。对监控数据以报表和视图的方式通过表格、曲线图、折线图、饼图、热力图、区域图、柱状图、桑基图等形式进行数据展示。
4、实现多种手段的实时通知
监控告警信息通过邮件、短信、基础监控平台等方式进行实时通知。
5、实现了数据结构化、数据检索及数据可视化展示
对原始数据进行标准化处理后,将原本没有含义的数据进行结构化,生成标准字段。通过数据检索功能查找关键字、唯一标识符等低频词元,高效查找,快速定位和读取原始日志内容,再对数据字段进行一系列指标运算统计分析,帮助运维人员加速故障分析、追踪和定位问题。
场景1:日志统一管理
日志管理平台针对服务器、操作系统、应用系统等可以通过安装Agent方式来部署客户端,使用向导式的数据采集流程,支持各种类型的日志:任何基于文本类型的日志,无论来自服务器或是客户端,例如:Apache、Java、PHP、Tomcat、MySQL、syslog-ng、rsyslog、nxlog、路由器等网络设备的日志,都可以上传到日志管理平台。日志集中管理:无需登录单台服务器或授权开发人员访问生产环境,所有日志都可通过日志管理平台Web界面授权访问。
场景2:统一支付系统日志串联分析
在对统一支付系统二代支付日志分析后,通过图2-1能够清晰展示系统运行各项指标,包括总交易量、实时TPS、实时成功率、实时耗时以及当日交易量趋势和当日平均耗时趋势等。通过上述指标能够在交易异常时,发现交易量趋势呈下降趋势,交易成功率降低,交易耗时增大等,帮助用户及时洞察业务异常。

图2-1
在二代支付业务流水查询标签页中输入渠道流水/报文标识号,可以过滤出具体某一笔交易日志详细信息,如图2-2所示。具体包括业务名称、往来账标识、交易代码、交易名称、交易时间、渠道流水号、报文标识号、处理耗时及查看调用链路及日志操作。

图2-2
点击“查看日志”链接,跳转至二代支付日志聚合查看页面,显示该笔交易日志耗时、日志行耗时趋势、该交易主要的耗时操作分析,可以判断出该笔交易耗时比较高的两行日志,展示TOP3耗时比较高的行数,可以帮助运维和研发人员快速定位到耗时较高的两行日志,从而判断耗时高的原因。交易日志详情趋势图则展示了该笔交易的完整日志,可以帮助运维或研发人员查看原始日志。

场景3:日志监控及故障排查
以网联贷记交易超时告警为例:
2024年4月,创建统一支付系统_网联贷记交易超时告警,网联贷记请求和应答会输出两条日志报文,交易请求报文标识为NPS.222.001.01,交易应答报文标识NPS.223.001.01,通过msgid关联交易请求报文及交易应答报文,以请求报文时间戳为交易开始时间,以应答报文时间戳为交易结束时间,用日志管理平台SPL计算交易耗时,过滤出交易耗时大于3000ms的交易,并统计超时总笔数。具体SPL如下所示:

2024年7月统一支付系统_网联贷记交易超时告警触发监控,如图3-1所示,通过短信及时通知运维人员介入处理,缩短了告警响应时间,提高了故障处理效率。
图3-1
根据实际运维场景,创建以下重要业务系统监控告警:
核心业务系统主要监控:核心交易超时SOPKILL告警、调用密服接口告警、收集统计信息定时任务脚本未执行监控、创建分区表新分区定时任务脚本未执行监控等监控。
企业服务总线主要监控:ESB的处理时间超过30秒、ESB交易量环比(昨天)差20%、Tuxedo连接核心超时、tuxedo异常数量、服务器监控ESB数据库连接异常等监控。
统一支付系统主要监控:网联签约交易超时告警、网联借记交易超时告警、网联贷记交易超时告警、网联进程为0监控、统一服务平台BSP JVM堆栈溢出、银联前置服务调用应用超时告警、网联服务调用应用超时告警、mfe交易耗时超过50ms、统一服务平台BSP JVM内存溢出、PMTS传输超时等监控。
金融互联网平台主要监控:成功率告警、错误码告警等。
综合柜面系统主要监控:JVM内存溢出告警等。
场景4:日志统计报表
需求场景:常规安全审计是通过堡垒机记录操作信息及录屏的方式来进行安全审计,无法及时通知运维人员。
解决方案:通过syslog的方式将堡垒机日志发送至日志管理平台,完成关键日志字段提取,将堡垒机登录用户名、登录姓名及所属职能组解析出来,并进行SPL统计,统计各职能组运维及研发人员登录堡垒机的次数,周期性自动生成统计报表,如图4-1所示,大大缩短安全审计时间,提高工作效率。

八、经验总结
1.项目设计阶段需要考虑项目范围、安全策略和数据可用性等方面。确定集成日志收集器、存储、分析和可视化的方案,以及确定哪些数据需要收集和存储,并确定如何查询和分析数据。
2.在日志管理平台的部署方案中,需明确系统架构以及如何分布日志存储和处理的节点。通过这些节点,可以实时收集系统中各组件的日志以及相关的性能指标数据。
3.针对不同组件的数据,可以在日志管理平台中定义不同的索引和查询条件,以便对日志进行分类和搜索。对于大型系统的日志数据,可以使用自定义格式来减小存储空间,并使用查询工具对日志进行搜索和过滤。
4.日志管理平台的可视化功能可以帮助管理员更直观地了解系统的运行状况,同时可以让用户自定义数据可视化视图和仪表板提高信息的可读性,从而使日志分析更加直观。
5.日志管理平台的监控告警功能可以帮助管理员迅速响应系统问题。可以使用日志管理平台内置的规则或定义异常检测规则,对系统的性能数据或特定事件进行监视,并使用基于时间或事件的电子邮件或短信等方式发送告警通知。
6.在日志管理平台使用过程中,需要对系统进行监控和维护。当日志管理平台的性能或可用性受到影响时,需要对系统进行诊断,并进行必要的服务和维护,以确保系统的稳定性。
总结,通过日志管理平台的实施,可以帮助企业管理人员更深入地了解其系统运行情况,从而发现和解决潜在的故障。同时,日志管理平台也可以提高整个系统的运行效率和可靠性。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
山东农信:集中运维监控平台项目
为保证日常运行维护工作的顺利开展,确保业务系统安全、稳定运行,山东省联社通过建设集中运维监控平台项目,完成了异构监控系统数据的集中,通过大数据技术对运维监控数据进行挖掘和分析,实现了对运维突发事件的监测、识别、评估与态势感知,有效提高了突发事件的处置能力,初步实现了由IT运维到主动运营服务的转变。
2018第二届农村中小金融机构科技创新优秀案例评选
山东农信
2024-10-09
福建农信:云平台“农信云”项目
随着福建省农村信用社联合社(下称 “福建农信”)规模不断扩大、业务不断增加,应用系统、设备、数据中心空间能耗都不断增加,IT运维各方面都面临种种挑战。
2017首届农村中小金融机构科技创新优秀案例评选
福建农信
2024-10-09
贵州农信:IT可视化运维管理体系建设方案
为切实满足业务连续性及监管部门要求,确保IT系统安全、高效、稳定运行,我社在观山湖数据中心建设过程中同步启动了IT可视化运维管理体系建设。
2019第三届农村中小金融机构科技创新优秀案例评选
贵州农信
2024-10-09
浙江农信:运维一体化管理平台
一体化运维平台的总体构架包括资产管理、自动化运维模块、任务管理、系统管理、单点登录等核心模块
2017首届农村中小金融机构科技创新优秀案例评选
浙江农信
2024-10-09
江西省农商银行:IT可视化统一运维监控平台
为满足“集中监控”管理工作要求,实现运维可视化的集中监控,江西农信将建立一套集中、规范、完整的可视化统一运维监控系统,依托IT可视化系统让一线人员清晰直观掌握IT系统的整体架构和各业务、网络和资源的运行状态。
2018第二届农村中小金融机构科技创新优秀案例评选
江西省农商银行
2024-10-09
光大证券:数智化数据中心多云管理平台
数智化数据中心多云管理平台实现多云的统一管理,跨云资源调度和编排,统一监控和统一运维,统一的成本分析和优化,实现统一交付。
网络整理
光大证券
2024-10-09
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构