艾信运通：财务大数据建模解决方案

本文来源于：“鑫智奖”2019首届金融数据智能优秀解决方案评选，作者：关键词：大数据

艾信运通：财务大数据建模解决方案

2019-05-20 11599

为促进AI大数据与金融业务的深度融合，配合北京市《金融科技规划》落实，帮助各金融机构在产品和解决方案选型过程中提供有价值的参考，北京软件和信息服务业协会联合金科创新社共同开展金融AI大数据优秀解决方案评选活动，为广大金融机构和解决方案提供商搭建一个交流分享、开拓思路的平台。其中，北京艾信运通技术有限公司的基于人工智能的财务大数据建模解决方案为参评项目之一。

应用场景痛点简介

1）金融机构风控需求

根据新巴塞尔资本协议对于企业违约风险要求，加强金融机构违约风险评价。

2）金融机构贷前管理

对企业进行定期监测，持续跟踪分析企业发展的各项数据，及时对目标客户信用风险及贷款资金进行管理。

3）金融机构贷中、后管理

根据目标客户违约风险程度进行有针对性的实地现场调查及贷中重点监控。

解决方案简介

首先，基于银行内部和税务等外部财务报表数据，开展数据挖掘分析。

其次，建立银行客户财务报表可信度评测模型，给出银行客户的舞弊指数及关键科目舞弊指数；再基于银行的财务报表与税务的财务报表，建立财税对比舞弊分析模型，给出银行客户的舞弊指数及关键科目舞弊指数；综合上述两种方法，使得模型的AR值大，给出综合舞弊指数及关键科目综合舞弊指数。

再次，基于税务的财务报表数据，建立了单一客户违约风险评价模型，并把模型结果与银行的内部信用等级进行校准；再基于担保和股权关联的关联企业数据，研究关联企业的划分和违约风险的传染机制，给出关联企业整体及目标企业违约风险的量化方法；总结集团违约的原因和基于单一客户违约风险模型结果，建立集团违约风险评价模型，并给出与银行集团企业信用等级的校准方法。

后，梳理并分析了集团客户风险刻画应包含的信息模块及数据的可获得性，研究在大数据背景下适应数据缺失、新增数据源等问题的建模方法，实现数据“热插拔”。

主要内容：

1）单一客户财务报表可信度评测

1.现有客户财务报表的总体可信度指数及关键科目的粉饰指数

首先，评定财务报表可信度时较为关注的经营及财务两方面风险设计了财务舞弊理论框架，通过理论框架梳理可能发生的舞弊手段及受影响的报表科目，并以此整理出舞弊企业不同于正常经营企业和以前可比期间的异动指标。经营风险框架以报表粉饰可能采取的手段为出发点，就报表项目的勾稽关系分析财务舞弊的转移路径，列出受影响的利润表、资产负债表和现金流量表科目；同时指出识别该舞弊手段的指标；后匹配现实舞弊案例，以证明该舞弊框架的有效性。我们总结出经营风险的五大手段、十四条作弊路径；财务风险框架从外部资金进入企业后的流向开始，列出利润表、资产负债表科目和现金流情况可能受到的影响，与识别该种舞弊手段的指标。我们总结出财务风险的三大手段、四条作弊路径。

其次，利用会计科目之间的勾稽关系全方面挖掘刻画会计舞弊的指标。

再次，从实际舞弊数据出发，结合从理论上给出的舞弊指标，建立财务报表可信度模型。经过一定方法进行数据处理，再通过逐步回归模型建立舞弊可能性评分系统，估算财务报表舞弊可能性，并通过AUC和KS值评价终模型的有效程度。定量指标初步依据产生隐瞒负债、营运资产、非营运资产、现金流结构、调整成本的舞弊情况，选取了13个指标并采用时间序列指标。由于行业间经营项目和风险的差异，舞弊风险在财务报表数据指标的体现有所差异，通过建立各个行业的舞弊判别模型来寻找对企业舞弊影响显著的财务指标，分析各个行业的舞弊判别模型中财务指标的差异，并检验单一行业舞弊判别模型中判别指标的预测效果。

后，利用如上开发的模型计算银行目标客户财务报表舞弊指数。

2.现有客户财务报表与非同源外部数据的对比分析

除了企业公开的财务报表外，现实中还有其他渠道可以获得企业的财务报表，例如企业的税务报表。企业税务报表是指企业在进行纳税申报时，附随纳税申报表一起递交给税务部门的财务报表。在理论上，企业提交给税务部门的报表与企业提交给银行或公开的财务报表应该是完全一致的，反映企业真实的经营状况。

但在实际中，一方面，企业向银行提供的虚假财务报表往往表现为夸大资本规模、盈利水平和经营现金流, 同时降低资产负债率、隐瞒亏损和债务, 期望在请贷款时获得较高的资产信誉等级和贷款额度, 从而骗取银行货款。另一方面，企业向税务机关提供的虚假财务报表往往是通过多列支出、少列或不列收入、减少计税基数等手段来达到其偷漏税款的目的。总体来说，企业向银行、市场提供的虚假报表主要从经营能力和偿债能力两个方面做手脚，以提高银行和投资者对其经营状况和风险水平的评价；而企业向税务部门提交的虚假报表往往倾向从盈利能力方面进行舞弊，以降低自身的税费。

企业对财务报表或税务报表进行舞弊导致企业的税务报表与财务报表在某些指标上的数字有一定程度的差异。通过对这些差异进行量化统计，可以衡量企业的报表粉饰和舞弊程度，而企业对报表的粉饰和舞弊程度往往可以成为企业违约风险的一个相关变量，帮助识别企业是否将要违约。

通过介绍企业税务报表、会计理论选取有助于识别舞弊的指标、建模思路、建模过程以及存在的优化方案以及利用开发的模型，针对200余家国家开发银行的目标客户的财务报表和税务报表，计算企业的舞弊指数。

3.综合评定客户财务报表的总体可信度指数及关键科目的粉饰指数

综合考虑单一企业财务报表和财税对比差异两个方法的舞弊指数，构建一个综合的指数来反映企业财务报表粉饰程度，即综合舞弊指数。综合粉饰指数针对财务报表整体粉饰程度，可以作为评价财务报表整体可信度的参考。

2）客户违约风险评价模型

1.使用外部数据建立单一客户违约风险评价模型

定量指标选取能展现企业的偿债能力、盈利能力、营运能力和发展能力四个方面财务指标体系、企业内部勾稽关系指标，企业发展的时间序列相关指标和其他关键财务指标作为进入模型自变量指标。

2.量化关联企业风险对银行客户违约风险影响

通过研究担保关系（社团识别算法）和股权关联关系（基于控制力的直接搜索法）量化对客户违约风险影响。

3.建立集团违约风险评价模型

企业集团通过设立子公司、合营公司及参股公司，实现完善产业价值链、业务多元化、提高企业市场竞争力等目的，因此企业集团有较强的实力，也需要大量资金，是各商业银行争相放贷的对象。近年来，一些大企业集团相继出现财务危机，给商业银行造成了巨大的贷款风险。由股权关系所引起的信用风险传递是企业集团信用风险管理的基本问题。认识企业集团内部企业之间信用风险传递过程，对于商业银行规避集团客户的信贷风险非常重要。然后，根据我们给出的集团整体信用风险刻画方法和单一客户违约风险评价模型，我们给出集团违约风险评价模型。

3）外部数据在集团评级中的应用研究

1.研究集团客户风险刻画的各信息模块，并梳理分析所需数据的可得性

2.分析风险信息对集团客户风险的影响机制

3.研究给出大数据背景下的建模方法(热插拔问题)

通过分析大数据环境下的数据和信用评级模型特点，把大数据学习算法的区分能力强、自动化高的特点与传统逻辑回归算法的可解释性好、稳定性高结合起来，设计了决策树-逻辑回归算法生成“模型容器池”。数据的所有变量特征，在考虑数据基本特征和专家建议基础上进行分组。使用决策树-逻辑回归数学建模时，先从各组特征变量集中抽取一些特征变量作为特征变量子集，再从样本数据集中，抽取包含特征变量子集各特征属性值的样本子集，然后对决策树输出的单变量、交叉变量和二元决策变量及结果，进行统计分析筛选变量，再用逐步逻辑回归确定模型特征变量和权重系数，得到一个子模型，如果子模型区分能力好，把子模型放入模型容器池子中。当一个客户样本到来时，可以按照客户数据的变量特征挑选出一些仍然适用的子模型给出客户信用评分，然后作平均得到一个信用评级分数。这就是Baging框架方法。另外我们可以考虑采用AdaBoost方法建立“模型容器池”中的子模型，由于AdaBoost方法训练出来的子模型通常称为“强学习器”，具有更好的模型区分能力，因此我们可以期待更好的信用评分结果。我们称这种架构为“AdaBoost+Bagging”。Bagging框架更适合并行，AdaBoost方法训练时是串行结构，因此AdaBoost+Bagging框架，是局部小规模串行加整体并行的结构。

使用“模型容器池”框架的优点是优点是一般不需要重新建模，信用评级模型的连续性、稳定性也相对较好。在大数据环境下，新增数据源时，会把原有的建模数据当作基本数据库，只需要对新增数据和原有的基本数据，再随机抽取一些原有随机特征变量和新的随机特征变量，构建处新的子模型，把区分能力好的子模型并放入模型容器，形成新的模型容器池子。在部分数据源缺乏时，可以选用容器池中那些仍然适用的子模型，这样的做法不仅保留已有的工作，也保持模型的连续性和稳定性。

解决方案亮点介绍

1）强大的建模能力，专家来自中国人民大学、复旦大学、清华大学；

2）拥有强大的内外部数据源支持；

2）除四大以外，国内首家可以做该项目的能力。

金融行业客户名单

国家开发银行

本网站案例，除特殊标明来源的，版权归金科创新社所有，未经许可不得转载，否则将视为侵权，对于不遵守此声明或者其他违法使用本文内容者，本网站依法保留追究权。另，本网站部分案例、观点文章来源于网络素材，如有侵权，请邮件联系 fenglei@fintechinchina.com 处理！
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务，详情点击【需求提交】。