本文来源于:2022第三届中小金融机构数智化转型优秀案例评选 ,作者:江南农村商业银行
江南农村商业银行:江南矩阵——智能特征工程
2022-06-13 关键词:人工智能,全国性商业银行,数据智能应用
6533
一、项目方案
1. 系统架构

江南矩阵是基于GPU数据库,实现流批一体的特征工程平台。其中离线特征计算是借助hive/spark,完成整个数据的预处理,特征构建,特征选择,以及特征评估的迭代,同时与实时特征计算模块会进行特征融合;实时特征计算构建在flink sql基础上,完成流式任务的开发及调度管理,实时特征加工的过程中也会融入离线特征,整个平台终构建的特征会提供给建模平台进行入模。江南矩阵平台同时也实现了特征工程可配置化,以及丰富的数据源管理。特征工程可配置化,可以方便数据科学人员,定义特征模板,固化好特征对应得衍生方式或算子服务(聚合和转换),达到快速地特征构建的过程,如下图所示。


数据源管理可以提供了数据源连接管理,可以支持关系型数据库与非关系型数据库的接入,如下图所示。

2.业务意义
传统的特征工程是比较繁琐的过程,包括海量数据的预处理,特征集的标注,这些都需要耗费大量的人力;同时传统的特征工程只是支持离线数据特征的构建,对于实时流入的且兼备特征分析的数据集无法转换。从业务需求上来看,目前模型开发的需求日益旺盛,对模型开发迭代的速率及质量也提出了更高的要求,如怎么保障模型预测的准确性,时效性;如何快速的模型回流迭代等。综上所述,建设智能特征工程平台是十分必要的,能够助力我行的数据分析建模能力。
二、创新点
1.支持有监督和无监督的机器学习算法
基于有监督和无监督的机器学习算法,自动衍生特征变量,将时间和关系数据集转换为用于机器学习的特征矩阵,即江南矩阵-智能特征工程一方面解决支持大型数据集采集标记后的分类回归处理,另外一方面也支持聚类以及降维算法用于群集的监测及分析等。通过自动特征变量衍生,大大缩短了模型开发前特征选择/变换/构建的周期,以及提升了模型预测的准确率。
2.支持丰富的数据源接入及算力提升
既支持关系型数据库的接入,如Mysql,Oracle,PostgreSQL等,也支持分布式数据库如Hbase,MPP架构的数据库等。江南矩阵-智能特征工程适配了DataTurbines(GPU 数据库),通过英伟达GPU的算力助力特征分析工作。
3.支持自定义场景模板
数据建模工程师或者数据科学家可以开发出场景适用的高质量的通用的特征脚本,用于对离线特征数据集的处理;
4.支持实时特征计算
基于kafka+fink sql,支持部分场景实时特征计算服务的输出,保证实时特征计算的低延迟。
三、技术实现特点
1.离线特征计算
离线特征计算主要是基于spark sql,通过类RDD编程 和SQL的方式分别对表目标表或数据集进行处理,具体的支持的数据源格式包括parquert,json,textfile,csv,jdbc等,如下图所示。

2.实时特征计算
实时特征计算通过读取行内变化数据以及行外的同步数据接口,将数据集入kafka,然后由flink消费,后sink到DataTurbine,这个过程中每个流任务可以与离线的特征进行融合,如下图所示。

3.适配DataTurbines
DataTurbines采用MPP部署架构,可以选择与Hadoop集群部署在一起,也可分开部署远程调用。DataTurbines的核心技术包括以下几点:
(1)GPU加速算法,相比CPU速度提升十倍以上,兼容适配主流GPU 产品;
(2)遵从ANSI SQL标准,能满足90%以上sql查询语句;
(3)兼具行式与列式数据处理;
(4)完备的集群监控,支持集群动态扩展及高可用;
(5)无缝对接hadoop生态组件,实现单一集群混合加工,提升集群效率;
(6)支持云华部署,集群资源可以根据 业务需求进行弹性分配和扩展。
(7)支持第三方算法库,目前支持深度学习框架,包括RAPIDS及NCLL库,可与深度学习应用集成。
江南矩阵适配DataTurbines,一方面是作用于高并发的查询,另外一方面以超高速实时数据计算替代预计算,满足数据科学人员实时特征计算的需求。
4.特征学习算法
基于开源AUTOML框架引入自动特征工程,算法在Python中实现,支持spark运行环境,在近百种特征算子基础上,将数据表特征进行深度融合,生成千维特征矩阵,引入Woodwork框架,可直接将特征矩阵用于建模而无需指定特征列类型,在时序特征处理上,引入tsfresh方法,支持对数据进行时序预测、时序聚类,支持窗口函数,实现近X天数据特征汇总。基于机器学习的特征筛选,实现自动剔除高关联度特征、自动剔除高空值率特征、自动识别单值特征,为机器学习提供助力,对应的算法框架结构图如下。

四、项目过程管理
1.项目启动阶段
项目启动阶段的主要工作有如下几点:
(1)目标任务:项目章程、项目组组建、召开项目启动会、制定项目实施计划。
(2)实施策略:成立敏捷团队,明确敏捷团队成员职责。组织召开项目启动会,明确实施步骤、目标,规划项目实施的过程,明确项目实施的阶段,协商制定项目实施计划。明确项目沟通汇报机制。
(3)角色职责:敏捷团队(PO & 开发测试团队)
(4)风险控制:项目实施计划制定要科学,符合实际。
2.需求分析阶段
项目需求分析阶段,确定需求范围,明确业务输入和终系统的输出,并由敏捷组织进行确认。
输入
SOW,可行性分析报告
输出
业务需求说明书(或者产品原型)
3.系统设计阶段
敏捷团队参照江南农商行自身的系统建设规范,设计需具备兼容性和开放性,可通过扩展支撑江南农村商业银行未来业务发展及进一步业务需求,输出的系统定义、架构拓扑、设计原则,确定系统的各功能模块、整合方式、与外部系统交互方式、逻辑模型、物理模型、对接API接口等详细设计要素。
4.开发与单元测试阶段
敏捷团队根据系统设计产出,开展产品的研发及实施工作,并进行充分的测试,保证各功能模块完全满足业务需求:
制定测试计划;
测试环境设计,明确对机器资源和系统环境的需求,明确相关硬件、软件和网络到位,确保数据安全;
测试执行和管理,准备测试环境、实施测试;
生成测试报告,并确认;
5.集成测试阶段
敏捷团队在完成系统开发及测试之后,开展集成测试与系统整体系统测试,保证平台充分满足业务性功能性需求;跟踪测试情况,说明严重问题和解决计划。
明确系统集成策略,测试环境设计;
制定集成测试计划,设计和开发集成测试用例;
搭建集成测试环境;
测试案例评审与确认;
开始集成测试;
生成集成测试报告;
6.用户验收测试阶段
终用户(一般是数据分析及数据建模人员)进行系统业务验证,并根据用户使用反馈进行bug修正与功能迭代。
7.性能测试阶段
项目组根据《软件需求规格说明书》中的定义和要求进行性能测试。输出《性能测试报告》。
8.投产演练阶段
敏捷团队制定投产演练方案,并对投产方案进行评审。
9.上线及保障
包括投产后的监控,投产失败后的回退脚本准备等。系统上线试运行前后,输出培训文档和运维文档,敏捷团队对相关业务用户进行系统使用培训,对相关系统运维人员进行系统运维培训;
五、运营情况
江南矩阵目前应用的场景包括市民卡A卡模型,用于信用卡信审后的风控准入;高净值客户流失模型,判断其下个月是否有金融资产流失情况。入模衍生特征包括额度使用情况、贷款使用次数、高额度、过去交易时间内的交易金额、次数等信息。平台上线至今,运行平稳,能够快速的支撑特征的入模,加快模型开发迭代的速率。下图是高净值客户流失模型的ROC曲线和AUC值,根据图示该分类模型通过江南矩阵的特征入模后,整体效果达到预期。


六、项目成效
习近平总书记在科学家座谈会上强调:“希望广大科学家和科技工作者肩负起历史责任,坚持面向世界科技前沿、技术广度和深度进军。”对于我们来说,要明确科技创新总方向,精准筛选重点领域,着力攻坚克难。特征工程从特征选择,特征变换,特征构建上,是个非常繁琐的耗时的过程,好的模型效果也往往受限于特征库构建,因此研发智能特征工具势在必行。江南矩阵旨在让数据建模人员,数据科学家快速地通过特征库的建立,完成模型的部署,输出高质量的模型回流效果,目前平台线上运行平稳,已经有多个模型基于江南矩阵平台完成建模及模型的迭代。
七、经验总结
整个江南矩阵建设过程中,一方面在对基于机器学习的特征算法封装上,由于前期着力对接spark组件,用于大的数据集的特征工程,特别是在对复杂的衍生变量,基于常规的CPU的算力已经无法快速的处理。因此引入了GPU的算力来给高质量的特征工程提速,在与GPU卡适配的过程中,缺乏了相应的对接经验导致走了很多弯路;另外一方面对于实时特征计算如何保障时间窗口内离线数据与实时数据一致的问题上,还需要更多的模型业务场景验证。整个平台的建设过程中我们的团队逐步认识到了智能特征工程平台不是简单的特征库构建过程,而是系统工程与计算科学的结合,要以计算科学的能力构筑工程平台,也要以系统工程的思维去发挥计算科学的作用。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2022-06-13
云南红塔银行:“香叶智农”——一站式烟农服务平台
云南红塔银行结合国家烟草专卖局《关于建设现代化烟草经济体系推动烟草行业高质量发展的实施意见》和云南省《云南省数字烟草农业发展总体规划》的相关要求,结合人民银行普惠金融的相关政策规定,配合南省烟草专卖局(公司)搭建了“香叶智农——一站式烟农服务平台”,结合烤烟生产全流程,在平台上为种植主体、第三方供应、服务商等提供多样化的场景金融服务,提供安全、便捷、高效的线上烟农支付结算服务,助力乡村振兴。
2022年度城市金融服务优秀案例评选
云南红塔银行
2022-06-13
乌鲁木齐银行:个人消费贷款(雪莲E贷-精英贷)
该产品充分利用科技手段开展产品营销和服务,客户通过线上渠道申请贷款,客户经理通过移动办公线下补充资料,无需抵押、操作便捷,一经投产就获得了客户的热烈欢迎与认可,不仅提升了我行信贷业务办理效率,让更多的客户感受金融科技的力量,还促进了当地的经济发展。
2022年度城市金融服务优秀案例评选
乌鲁木齐银行
2022-06-13
九江银行:授信审批工具及调查报告智能化系统
“授信审批工具及调查报告智能化系统”是我行围绕信贷业务“贷前调查、贷中审查、贷后检查”三阶段,提升贷款三查报告(贷前调查报告、风险审查报告、贷后检查报告)“撰写、审查、修订”过程的智能性、专业性、效率性设计开发的系统工具,是我行“授信业务全流程线上化”工程主力系统之一。 该系统主要通过“报告模板创建、报告撰写、智慧审批、结构化数据搜集”四个功能模块,为信贷业务“营销尽调、审查审批、风险控制”人员提供业务支撑及决策管理服务。
2022年度城市金融服务优秀案例评选
九江银行
2022-06-13
日照银行:“黄海之链”供应链金融服务平台
黄海之链”平台于2021年8月18日上线,是日照银行推出的首个To B端金融服务门户网站。平台全面融合区块链、物联网、人工智能、大数据等智慧科技,将金融科技成果与实体经济场景有机结合,实现对产业链全链条、全周期、多维度金融服务需求覆盖,加速产业运行效率;通过数据要素全面运用,实现信息化、数字化和智慧管理;通过与商贸物流平台、交易市场、电子仓单系统等特色场景对接,打造“产业经济+金融服务”的数字化生态闭环,实现产业链交易全流程业务可视、数据可信、资产可控,有效解决上下游中小微企业融资难、融资贵问题。
2022第三届中小金融机构数智化转型优秀案例评选
日照银行
2022-06-13
贵阳银行:烟草e贷(烟商)
为进一步支持小微客户的稳定发展,精准支持小微客户稳定就业,提升小微客户金融服务质量和效率,贵阳银行通过引入省烟草局的烟草数据,采集多方数据信息进行比对,自建风控模型决策体系,2021年8月推出了针对烟草商户的自助贷款-“烟草e贷(烟商)”。“烟草e贷(烟商)”借助多方技术支持,实现贷款全流程线上化,大大降低小微企业融资成本,有效解决广大小微客户的融资难题,实现小微零售贷款业务“提速、增质、降价”。
2022年度城市金融服务优秀案例评选
贵阳银行
2022-06-13
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构