本文来源于:2018第二届农村中小金融机构科技创新优秀案例评选,作者:广东农信

广东农信:信息科技风险数据分析平台

2018-10-30 关键词:大数据,农信/农商行,采集与分析,基础架构,业务系统建设,风控5911

项目背景及目标

目前在信息科技风险领域,人工智能技术应用比较少见。随着银行业务种类迅速增加、业务电子化程度越来越高、信息系统架构愈加复杂、系统间的关联性日渐紧密,云计算、大数据技术的广泛应用,应用系统、服务器、网络、安全设备、操作系统、数据库等科技管理对象的数据急剧攀升,同时面临的信息科技风险也越来越频繁。


对于我们银行来说,主要面临的信息科技风险有以下三类:一是系统运行风险,如系统性能风险、系统容量风险、系统中断风险,这些风险会影响我们银行的业务连续性; 二是系统交易风险,如刷单、套现、洗钱等风险,这些会直接影响银行客户的资金安全;三是系统安全风险,如拖库撞库、暴力破解、外部黑客攻击、0day攻击等,这些风险会导致客户信息泄露。因此我们需要对这些风险进行相关管控,保证银行业务的稳定、客户信息和资金安全。


通过开展信息科技风险数据分析平台项目,实时掌握生产系统运行风险状况,及时发现系统运行、系统交易、系统安全风险,实现秒级的应用故障准确告警、快速自动定位,提升信息科技风险识别能力。用数据说话,构建事前风险预警、事中风险定位和事后风险分析的整体风险管控能力,以保障业务连续性。


项目方案

为了达成项目目标,我行查阅了大量相关方面的资料,同时与市面上提供解决方案的厂商也进行多次的交流和论证,终选择通过实时网络流量大数据和机器学习的方式实现系统的运行风险、系统交易和系统安全风险的自动化识别;基于机器学习的信息科技风险分析平台框架由四个主要部分构成:数据采集模块、数据处理模块、数据计算与分析模块、风险展示和交互模块,通过这几个部分之间的有机结合,形成一个相对完整的基于机器学习的信息科技风险分析体系。如图所示:

 

   图 信息科技风险分析平台框架

各模块功能简要概述如下:

数据采集模块:数据采集模块主要采集和银行信息科技风险相关的数据,包括业务数据、日志数据、网络流量数据,采集对象为应用软件、操作系统、数据库、设备、网络、人员等。


数据处理模块:通过标准协议或标准API,将采集对象产生的各类数据格式化、汇聚,分别存放到消息队列用于实时计算,存放到在线数据存储中和历史数据存储用于数据分析。


数据计算与分析模块:基于样本数据进行机器学习,并将学习到的规律生成行为模型库,实时计算模块参照行为模型库发现异常行为。


风险展示和交互模块:将数据计算与分析模块学习到的结果、发现的异常以简洁、直观的可视化的方式通知风险管理人员。通过与其它风险管理工具系统智能联动处理。


信息科技风险分析平台由数据采集服务器、数据分析服务器、风险分析服务器组成。主要通过旁路SPAN镜像网络流量的方式获取数据,并通过数据库流水表、其它日志作为补充数据,其中网络流量由探针解码程序对原始数据进行分析提取关键字段,进行数据分析,提取用于机器学习建模的数据。

 

 

项目创新点

本项目具有以下创新点:


1、先进性

相对于目前较为常用的依赖风险管理人员自身的专业能力和经验识别信息科技风险的方式,本项目创新性利用机器学习构建数学的复杂结构来开展信息科技风险识别与评估等方面的研究与应用,是一种新的信息科技风险识别与评估模式,相比传统的风险识别方式具有较大的优势。项目通过风险数据采集、存储、建模和分析等过程,提出了机器学习应用于科技风险领域识别系统运行风险、系统交易风险和系统安全风险。目前机器学习应用于信息科技风险领域系统性的研究还比较少见,应用于在银行业国内目前没有先例,因此项目具有一定的先进性和创新性。


2、实时性高

与传统的风险检测方法,信息科技风险分析平台具有实时性优势,平台能够实时获取风险数据,传统的风险检测方式一般为T+1。同时平台无需额外知识即可从数据源中提取数据中隐含行为各种特征,避免了长时间的经验积累过程,与基于规则的检测方法相比优势明显,并且可用第三方来源数据作为风险数据基础。


3、误报率低

平台对正常行为与异常行为精确分类,而不是传统异常检测系统中“非正常即为异常模式”,不但可以精确标注已知异常的异常类型,还可以检测到未知异常,并帮助对未知异常标记分类。所以误报率极低。

 

技术实现特点

本次项目的技术特点如下:


1.基于大数据技术平台架构(高性能、可扩展强、高可用):

后台数据分析及存储引擎采用ElasticSearch NoSQL的大数据技术,数据分析性能高,架构扩展灵活、方便。ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。


2.敏捷解码引擎(灵活性、高可用)

敏捷解码引擎是一个灵活的数据包解码引擎,敏捷解码引擎的设计目标是使使用者可以自定义数据包的解码规则,而不需要对敏捷解码引擎进行代码的修改和升级。除此之外,敏捷解码引擎还提供以下特点功能:


敏捷解码引擎支持TCP长连接,TCP/UDP异步交易报文的解码。


敏捷解码引擎支持UTF8、EBCDIC、XML、JSON等常用格式的解析及转码。


敏捷解码引擎提供高性能的完整数据包解码能力(支持完整的payload解码,支持数据包重组),在目前的解码引擎平台上,支持不低于400Mbps的吞吐量的实时解码。


解码引擎产已预先定义支持JMS、8583、CUPS、SOAP、CTG、MQ、XML over HTTP等金融行业常用协议,这些协议也是通过敏捷解码引擎配置文件实现解码,使用人员可以自由编辑改动。


3.机器学习

• 无需事先设定规则和人为干预, 自动发现异常行为特征, 并对识别的异常行为提供告警;


• 具备通过历史数据提取行为模式特征,分析人的行为模式、风险指数评分的方式来防范类似APT攻击安全风险问题;


• 基于机器大数据和机器学习方法,可以让数据自己说话,发现和识别银行转账账户、交易的行为特征、规律和异常操作;


• 通过异常检测和分析,有助于分析潜在或疑似欺诈或违规交易,提高系统风险监控和防范能力, 保护用户的合法权益;

 

项目过程管理

整个项目过程管理分成以下几个步骤:

1. 环境准备:部署硬件服务器、TAP设备,平台软件安装;


2. 目标系统调研:逐个系统访谈运维及开发人员,调研目标系统的物理部署图、系统架构和协议规范。


3. 规划镜像点:根据物理部署图设计交换机镜像流量采集点的位置,根据系统架构梳理应用逻辑并配置业务路径图;


4. 流量采集与校验:配合网络部门按照业务监控范围规划解析流量镜像配置,将去重后的流量输出到数据流量采集服务器。对采集到的流量进行验证,对网口是否丢包进行验证,确保旁路流量到达网口的准确并完整。


5. 数据解码:根据协议规范进行数据包解析,对特定场景需要数据进行定制化解码;


6. 平台配置与调试:依据各目标系统协议规范在各组件进行数据包解码解析,对用户关注的字段进行翻译。依据系统调研过程中梳理的结果进行目标系统业务路径配置。


7. 系统验证:对各类监控系统的各个组件的监控交互数量和真实生产数据库进行对比,以保证监控的业务情况真实有效。


8. 建模:通过大量样本数据抽取行为特征,训练机器学习模型;


9. 风险值评价:对风险值评价界面进行配置图表;


10. 告警设置与集成:依据被监控系统实际运行情况和用户告警习惯及需求,对告警进行设置。告警类型应包括:交易量、响应率、响应时间、成功率、返回码、服务器IP、业务类型、业务时段。配合上下游系统完成数据、接口集成。


试运行:系统基本正常运行后,运维工程师根据实际情况对系统进行告警等配置优化。


项目成效

项目在上线以来,平台在3个方面取得较显著成效:

一是保障业务连续性。实时监控和提前发现生产系统的运行风险,多次事先预警和事中告警生产系统异常情况;既帮助一线运维团队提前发现系统运行风险,及时定位故障点,提供解决方法,避免了产生业务中断而导致经济损失。


二是满足监管合规性。根据广东银监局关于“商业银行信息科技风险动态监测指标(试行)”的要求,定义报送数据的统计要求,按日、周、月定期从应用监控平台的大数据平台中统计交易量、成功交易量等数据,实现每五分钟自动风险动态指标报送。


三是保障业务和资金安全。信息科技风险分析平台自2018年3月在我单位完成了*****批风险场景的生产部署工作,自上线后平台可以快速发现有关系统运行、系统交易和系统安全等方面的风险。发现和识别银行转账账户、交易的行为特征、规律和异常操作;通过异常检测和分析,有助于分析潜在违规交易,提高系统风险监控和防范能力, 保护用户和银行的合法权益。通过机器学习发现网银用户异常风险,如同一个用户控制了大量他人网银用户账号等,避免了客户资金被盗。


经验总结

通过项目实践证明,在信息科技风险领域,机器学习的方式可以更好的发现和总结传统方法无法发现的风险。在本次项目中,机器学习主要的三个方面是数据,特征工程,以及建模算法,相关经验总结如下:


1.数据支持

机器学习的基础是数据,所以数据质量越高,效果越好。数据的丰富程度也至关重要,数据越丰富,关联信息越多,越能把数据或者画像刻画准确,特征也越丰富,效果也会越好。


2.特征工程

特征工程决定了在此数据上的效果上限,所以特征工程是机器学习重要的一环。特征抽取部分需要尽可能扩展字段,这部分需要了解业务,所以有业务人员与数据分析人员共同参与会更好。抽取完成之后,由于我们会抽取相似特征,比如登录所用时间的大值、小值、均值、方差以及标准差,由于构造方式类似,所以会较为冗余,通过相关系数来判别特征间相似度,除了登录所用时间的处理小值,其他4个的相关系数很高,说明冗余性大,但是这些特征与标签的相关系数都很低,无法判别,后我们发现,由于相关系数对非线性相关支持不好,所以特征之间的相关性使用相关系数,而特征与标签之间使用模型特征权重更合理,终通过模型特征权重,选相关性高的登录所用时间的大值。


3.模型选择

特征工程决定了效果上限,算法的选择和调优则是无限接近这个上限,针对不同的数据和任务,需要针对性的选择不同的算法。在交易异常识别中,我们开始选用了逻辑回归算法,参数调优之后效果依然很不理想,后来我们对数据进行分析,很多特征与标签并没有线性相关,所以选择逻辑回归并不是个好选择;对于数据结构复杂,特征与标签之间的关系不明晰,应该选用集成算法,后我们选择了梯度提升决策树,效果得到了很大的提高。

 

 本文由2018年度农村金融科技创新优秀案例评选组委会授权发表,转载请注明出处和本文链接。

 

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

河南农信:基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选 河南农信 2018-10-30

安徽农信:基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选 安徽农信 2018-10-30

湖北农信:智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选 湖北农信 2018-10-30

江西农信:“百福快贷”项目

网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选 江西农信 2018-10-30

江苏省联社:风险偏好与限额管理系统

本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选 江苏省联社 2018-10-30

重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选 重庆农商行 2018-10-30

选型库

金融行业全面的数智化创新解决方案,涵盖历届“鑫智奖”参评方案及选型库会员机构提交的金融行业解决方案

  • 农信/农商行
  • 风控
  • 大数据
  • 采集与分析
  • 基础架构
  • 业务系统建设

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构