重庆农商行：数据挖掘平台项目

本文来源于：2023第七届农村中小金融机构科技创新优秀案例评选，作者：重庆农商行

重庆农商行：数据挖掘平台项目

2023-10-06 关键词：农信/农商行,数据中台,数据平台与数智应用 1908

一、项目背景

随着大数据处理技术的高速发展和数据资源的日益丰富，数据本身已经成为金融领域中不可或缺的生产要素，不仅仅用于支持决策，还用于洞察客户行为、管理风险和推动创新。在此背景下，我行基于大数据建模的各类需求也不断攀升。业务人员对大数据建模的需求已不仅仅局限于黑盒的预测模型，而是进一步希望可以对现有数据进行智能化的分析和挖掘，进而产出能辅助业务人员的高价值决策建议和业务经验，让数据在我行的实际经营决策或风险控制中起到良好的辅助、加速的作用，从而推动决策过程的智能化。

然而，目前我行面临着一些挑战，包括缺乏专业的一体化建模工具、低效的模型建设速度、缺少自动建模功能模块，以及业务人员在建模技术领域难以深入参与等问题。此外，目前还缺乏统一的模型管理平台，导致已构建的模型分散存储在各个系统中，难以实现统一管理和部署。为了应对这些挑战并充分发挥数据赋能作用，我行决定启动数据挖掘平台项目。平台将提供一体化的解决方案，包括强大的计算能力、机器学习支持、快速模型部署和规范化建模流程。

二、项目方案

数据挖掘平台架构如下图所示。

图1. 数据挖掘平台架构图

图片1.png

图2. 数据挖掘平台数据流向图

图片2.png

数据挖掘平台旨在为行内技术人员提供专业、高效而强大的一站式建模平台，平台主要提供以下功能：

1、多种数据环境接入支持。针对我行目前数据库源较为复杂的现状，平台支持通过JDBC对接包括Hive、MySQL、PostgreSQL和Oracle等各类数据库和数据仓库，也支持通过访问HDFS、FTP获取包括CSV/TSV/TXT等数据文件。

2、模型可解释性。平台提供可视化、可解释的模型报告，自动根据不同应用场景归因逻辑和业务规则，提升分析人员的模型解读效率。

3、交互式建模。平台内置适用于专业人士的完全托管的交互式编程环境JupyterLab，内置丰富的主流算法包并支持导入外部算法包。用户可以自行进行数据处理、代码调试和自定义建模。

4、可迭代性。由于平台“可解释”、“高速”和“自动化”的特性，使得建模不再是一次性的简单运算，而是一种持续的、可溯源和可拓展的迭代过程。用户可以根据模型结果进行快速模型迭代，复用上个模型版本的特征衍生、参数、样本信息进行模型优化，以更好地满足业务需求。

5、自动化机器学习（AutoML）技术。平台提供可交互的AutoML能力，包括特征筛选自动化、超参优化自动化、样本筛选自动化、模型稳定性自动化和特征衍生自动化等，支持用户灵活对比自动化建模中的各模型性能并选择优模型进行应用。

6、模型自动化任务。对已投产的模型，当获得新的增量数据后，可根据迭代策略、不同特征组合，实现自动化任务。平台将根据配置的任务类型、时间周期、频率以及选择的模型与数据，自动执行并生成新的机器学习模型、预测报告和检验报告。

7、模型管理功能。平台可以为模型的全生命周期管理、定时监测、自动化管理提供基础能力支撑，既有助于提升模型部署迭代效率、把控全行模型风险，也能满足日趋严格的模型监控监管要求。

三、创新点

通过建设数据挖掘平台，为我行大数据建模工作提供一体化平台，打通数据建模、数据测试、模型迭代以及行内系统对接数据模型的壁垒，实现以下三个目标：一是能为大数据建模提供强大的算力及处理能力，并支持主流的机器学习算法和深度学习算法；二是具备模型的快速部署和上线功能；三是提供规范化的建模流程和模型上线流程，加强模型开发和上线流程中的管控。通过数据挖掘平台的落地，全面提高我行“数据赋能业务”的能力，进一步丰富我行数据中台的服务能力。

1、平台能达到全场景的弹性运行及计算，例如本平台可在2核4G的机器运行建模，也可以在大规模的分布式集群运行建模，而对同样的数据集，建模性能及精度能够保持一致，而不会出现在大数据平台运行小数据的时间远慢于大数据的情况。

2、支持高效、跨平台的模型导出和部署能力，提供Java、Python、SQL、PMML、C++、SAS、分布式系统、脚本语言等API的跨平台模型导出和部署方案。实现模型的一键式部署，可以注册到模型库或直接部署为预测服务。支持离线模型文件的部署及定时任务调度。提供模型的实时预测和周期性定时的离线批量预测，提供A/B test，能有效保证部署服务的实时性、安全性、拓展性。

3、平台可以灵活接入各类数据平台及算法，即python体系、java体系、c++体系等算法能力；可灵活对接各类数据源，模型可灵活支持各类平台进行应用。

四、技术实现特点及优势

1、高可用性

平台使用Kubernetes（K8s）进行分布式架构的托管，整体上采用无状态的微服务架构，保证了应用可以在任意的 K8s 节点上进行按需调度。当应用自身发生故障，平台的Health Check机制会发现异常的服务节点，首先尝试原地重启进行恢复，超过设定的重试上限后，平台会在整个集群的层面综合考虑资源和服务限定的因素，选择一个合适的节点对服务进行迁移。

2、易用性

平台保证模型搭建的易用性，包括两方面易用：一是平台交互的易用性，即对用户操作友好，而不是仅适用于资深建模专家的操作；二是平台开发及算法开发的易用性，即平台及算法的设计符合数据科学家和分析人员的使用习惯，整体代码及数据风格更加接近Python的pandas、scikit-learn风格，接受度更高且学习门槛更低。

3、全场景弹性运行和计算

平台采用虚拟化技术（虚拟机和容器）以实现全场景的弹性计算，它们允许将物理服务器资源划分为多个虚拟实例，每个实例都可以独立分配和管理，这使得在需要时可以快速创建、启动、停止和销毁实例，以适应变化的负载。此外，平台还会根据实际情况定义弹性策略，以确定何时以及如何进行资源的扩展或缩减。这些策略可以基于负载、性能指标、时间表或自定义触发条件进行调整。在这些技术和方法的结合下，平台能够根据需求在不同工作负载情况下有效地管理计算资源，显著提高系统效率。

五、项目过程管理

为了有序推进数据挖掘平台的建设，我们采取逐步迭代的方式进行项目实施，包括平台搭建、数据迁移、平台推广培训和功能迭代四个阶段。*****阶段于2021年9月启动，结合行内实际情况对平台进行技术架构和定制化功能模块的设计，并于2022年9月完成平台的建设和功能完善。第二阶段侧重于满足不同应用场景下的业务数据需求，进行了ODS和ODPS数据表、存储过程的梳理和迁移，同时完成了数据迁移通用模板的开发，以应对长期的数据迁移需求。第三阶段则是面向总行各部室，进行平台功能使用培训和应用案例分享，涵盖了模型训练中的流程设计、详细功能点、开发使用方法以及难点答疑。第四阶段将持续迭代平台功能，不断优化用户体验，以满足多样化的业务需求，提供更灵活的数据分析和挖掘能力。

六、运营情况

数据挖掘平台建成后，已成为全行各部室进行新模型开发的首选环境。目前，部分业务系统已将历史模型的算法开发过程全部迁移至本平台，解决了他们算法开发的资源瓶颈和算法环境不一致等问题。同时，平台所提供的标准深度学习框架，也满足了我行风控团队在信用风险识别方向上进行深度学习研究的需求。截止2023年6月，数据挖掘平台已成功上线15个业务模型，开发及验证中的模型10个，为我行贷款产品的风险识别、营销策略、运营管理等方面均提供了数据和模型的支撑。

七、项目成效

场景1：通过数据模型辅助贷款风险检测

我行机构网点众多，且大部网点分布于农村及城郊结合部，拥有大量农村客户资源。针对数量庞大的“三农”人群，我行推出了涉农个人信贷产品——渝悦贷。作为一款全线上的信贷产品，渝悦贷的风险控制至关重要。基于数据挖掘平台，由我行风控团队设计和构建了渝悦贷征信多头模型，采用梯度提升算法，旨在检测客户是否同时在多个借款平台申请贷款，以降低不良借款风险。该模型于2023年6月正式上线，目前已成功辅助贷款决策逾5万笔，为大量客户提供了信贷支持。模型的快速决策能力提高了贷款批准的效率，客户能够更快速地获得贷款，从而提高了客户满意度。此外，数据挖掘平台将持续为模型的高频迭代提供支持，以确保我行信贷产品能够适应不断变化的市场环境，为客户提供更安全可靠的信贷服务。

场景2：通过平台规范模型开发流程

目前我行应用于业务决策、运营管理的各类数据模型已超过30个，自动化决策模型的应用也不断扩大。然而，这些模型大多分散在各个业务系统中，模型生命周期管理流程参差不齐。随着数据挖掘平台的投入使用，新的模型开发需求已迁移到平台上，实现了全流程的标准化开发，借助平台提供的标准AI算法，规范了模型开发过程。同时，平台还实现了对开发过程的全流程监控及回溯，显著降低了模型开发过程中的操作风险。

八、经验总结

数据是燃料，算法是引擎，而数据挖掘的研究和实践则是两者的紧密结合。我行通过搭建数据挖掘平台，为行内业务和技术人员提供了一个具备强大算力、丰富资源以及规范流程的建模工具。数据挖掘的目的不仅仅是建立模型，更是通过数据洞察业务。通过该项目的实施，我们学会了如何将数据转化为对业务有价值的见解，并将这些见解传递给决策者，以改进产品、服务和客户体验。

我们成功地将数据挖掘平台融入到业务流程中，涵盖了客户营销、风险管理和运营管理等各个方面。这一过程将数据从简单的信息收集转变为我行发展和创新的强大驱动力。此外，在利用数据挖掘推动业务增长的同时，我们严格遵守相关监管要求，对数据对决策结果的影响进行详尽解释和信息披露，利用平台实时监测模型运行结果，并制定应对潜在安全威胁的应急预案并进行演练，确保了整个流程在风险管理和安全运营方面的可持续性。

数据挖掘已成为银行持续发展的重要支持力量，我们不仅仅在数据中找到了答案，更重要的是在数据中发现了新的问题和机会，这使我们能够更加敏锐地应对市场变化、提高决策的准确性、满足客户需求以及降低运营成本。未来，我们将继续不断完善和拓展在这一领域的工作，以更好地服务我们的客户并实现业务目标。

本网站案例，除特殊标明来源的，版权归金科创新社所有，未经许可不得转载，否则将视为侵权，对于不遵守此声明或者其他违法使用本文内容者，本网站依法保留追究权。另，本网站部分案例、观点文章来源于网络素材，如有侵权，请邮件联系 fenglei@fintechinchina.com 处理！
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务，详情点击【需求提交】。

推荐阅读

河南农信：基于大数据平台的智能审计管理信息系统

随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入，创新性金融产品和金融服务不断涌现，业务数据和业务流程复杂程度不断提高，交易信息和管理信息不断膨胀。

2018第二届农村中小金融机构科技创新优秀案例评选河南农信 2023-10-06

安徽农信：基于人工智能的滨湖数据中心基础设施能效优化

数据中心基础设施能耗巨大，数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中，空调能耗又占到全部能耗的70%，本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中，为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。

2018第二届农村中小金融机构科技创新优秀案例评选安徽农信 2023-10-06

湖北农信：智慧学习平台

智慧学习平台的建设广泛运用互联网新媒体技术，集教、学、练、考评等要素，通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体，成为全省农商行系统的学习中心，考试中心、直播中心、制度图书中心、员工交流中心，有效地提高了员工学习的时效性、便捷性和覆盖面，成为全省农商行“智慧银行”的建设重要载体。

第五届农村中小金融机构科技创新优秀案例评选湖北农信 2023-10-06

江西农信：“百福快贷”项目

网络信贷项目依托互联网技术，采用全流程“不落地”线上操作模式，以大数据应用为基础，实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成，整个贷款审批流程无需人工参与，实现了系统几分钟内自动产生审批结果，真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。

2018第二届农村中小金融机构科技创新优秀案例评选江西农信 2023-10-06

江苏省联社：风险偏好与限额管理系统

本项目旨在建设统一风险数据集市，打通风险管理相关数据，建立风险偏好与限额管理系统，提高各类风险识别、计量、监测和数据分析的能力，并提供给农商行风险管理相关的数据支撑，以帮助农商行进行合理的业务拓展与风险管理决策。

第五届农村中小金融机构科技创新优秀案例评选江苏省联社 2023-10-06

重庆农商行：基于数据决策的全线上零售信贷产品“渝快贷”

“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。

2018第二届农村中小金融机构科技创新优秀案例评选重庆农商行 2023-10-06

案例库