本文来源于:2023鑫智奖第四届中小金融机构数智化转型优秀案例评选,作者:湘财证券
湘财证券:智能协同型数据治理平台
2023-05-30 关键词:证券,数据安全,数据智能应用
1687
一、项目背景及目标
2020年,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将"数据"与土地、劳动力、资本、技术并列为五大生产要素,提出"加快培育数据要素市场"的号召,标志数据已经成为经济社会发展的基础性、战略性资源。
2021年,证监会发布《证券期货业科技发展“十四五”规划》,将健全完善行业数据治理体系纳入“十四五”时期数字化转型的工作方向之一,并规划设置了数据治理制度体系、组织体系与数据标准、数据质量、数据安全等数据治理细分领域的重点建设任务,为行业内各机构开展数据治理工作带来了明确的工作指引。
近年来,行业各机构在外部监管要求和内部数据使用痛点的情况下,先后开展了数据治理工作,建立了组织、发布了制度、建设了工具。但实践中,可能因为缺少具体工作切入点、业务团队参与程度低、工具无法有效承载工作方法等问题,终导致数据治理业务价值回报缓慢,治理效果达不到使用需求。
通过智能协同型数据治理平台的构建,期望在数据治理的数据纳管、资产内容运营、资产质量监测、数据分类分级、数据贯标等管理活动的关键节点上使用自然语言处理技术、智能算法、深度学习等技术手段,构建企业级的治理知识模型,形成中文语义信息智能推荐、资产可信度计算、数据质量监控规则智能推荐与构建、数据安全分类分级结果智能判定以及数据标准智能映射的管理能力,提升企业数据治理的效率,释放在治理活动中投入的大量的人工工作量;通过数据治理平台固化治理方法论,在智能化能力的基础上形成业务人员、技术人员、数据人员三方协作的协同场景,提高业务团队的参与度。
本项目终建设完成的数据治理平台,在数据治理各领域中表现良好,为业务部门、技术部门、数据部门都提供了良好的后台支撑,同时充分融入了自然语言处理技术,使平台具备多项智能化的能力。数据治理平台中的协同化数据治理场景和智能服务能力都具有很好的可借鉴价值,是证券期货行业数据治理高效落地的实践案例。
二、创新点
为了有效推进数据治理的落地,本项目引入自然语言处理技术提供智能服务,节省人力投入,使用的关键技术内容如下:
1.文本向量化技术
本项目中分别使用了词向量技术和句向量技术。其中词向量技术是指把词语转化为对应向量的表达形式;句向量是指将句子中各个词向量转换后进行加权平均,形成对应的向量。将文本向量化处理后,可以使文本转变为数学语言供计算机识别,本项目中分别使用了Word2Vec和Bert技术进行了向量转化。
2.数据项相似度匹配
在本项目的五个数据治理协同场景中,需要实现数据项与数据项、数据项与公司数据分类分级框架、数据项与数据标准的匹配。匹配前要先将相关实体进行向量化,使用余弦相似度算法计算,将相似度高的对象推荐为匹配对象进入下一步协同确认环节。
3.超短文本语义与语境识别
本项目涉及的各类数据项,如数据表、数据字段、报表指标等,通常只有超短文本,为了提高相关数据项在相似度匹配中的准确率,需要分别从超短文本中识别语义和语境。项目中使用textRank算法,进行修饰词和核心词提取实现语义识别,例如“身份证有效期”,对于这个字段“有效期”是核心词,身份证是修饰词,在相似度匹配时,分别对核心词和修饰词分配不同的权重,以突出数据项的相关语义。同时项目中将数据项的相关对象构建为句作为该数据项的语境信息,例如“开户日期”这个字段,会将它所在表、所在表的其他字段构建成的句向量作为语境,在相似度匹配时使用。
4.资产可信度评估
项目中会对数据资产运营活动时获取的各类评论信息进行语义分析,构建情感分析模型,结合数据资产的数据血缘汇集情况,识别出应用系统中的核心数据资产。
三、项目技术方案
1.项目总体思路
本项目是针对数据治理开展过程中的多部门协同场景,通过组合运用自然语言处理技术,简化数据治理工作步骤。在各协同场景中分别解决如下问题:
①数据纳管协同场景
该场景中有一个业务属性补录环节,往往需要业务人员、技术人员补录缺失的元数据信息。对于已纳管的应用系统,存量数据已经补录过元数据,但是增量数据因为在源端业务系统中缺失,所以纳管时仍需进行补录。通过使用自然语言处理技术将增量数据和存量数据进行匹配,对于匹配上的数据项,将相关元数据信息进行推荐,从而简化业务属性补录的工作投入。
②资产运营协同场景
数据项发布为数据资产后,工作步入了数据资产运营提升阶段,依托于数据资产使用者的评论信息,提升数据资产的内容质量是该阶段工作的一个重点。通过自然语言处理技术识别评论中的语义感情,结合数据血缘信息,有助于量化数据资产的可信情况,提升数据资产使用者的体验。
③质量监测协同场景
技术类数据质量规则往往是可以在不同数据表下的数据字段上进行复用的,但是因为规则配置需要巨大的人工投入,导致数据质量规则并不能全部覆盖监测对象。通过自然语言处理技术,实现不同数据表下数据字段的匹配后,可以将相关数据质量规则推荐复用,在节省工作量投入的同时扩大了质量监测范围。
④分类分级协同场景
在使用业务数据链的方法构建相对稳定且适用于整个公司的数据分类分级框架后,使用自然语言处理技术实现应用系统中数据和数据分类分级框架中的匹配,解决传统数据分类分级准确率低、适应性差的问题。
⑤数据贯标协同场景
在数据标准制定后,应用系统中的存量数据需要先和数据标准间建立起映射关系,为后续系统改造提供基础数据支撑,但是庞大的存量数据使该项工作无法进行,适用自然语言处理技术实现存量数据和公司内已发布数据标准间的映射关系,降低相关的工作投入。
2.技术架构
本项目着眼于探索智能化能力在数据治理活动中的应用,以数据治理平台为依托串联活动中的人员形成治理协同场景,从而解决数据纳管协同、资产运营协同、质量监测协同、分类分级协同、数据贯标协同等复杂场景中的大量的人力投入的问题。
其核心技术原理是将各类数据项向量化,然后通过相似度匹配实现数据项之间的语义匹配,技术实现的主要步骤如下:
①以百万级证券相关语料通过word2vec算法训练形成300维50万+词向量,构建词向量空间;
②对数据项及目标匹配对象等超短文本信息进行语义解析,提取修饰词和核心词,构建数据项语境,丰富语义信息;
③基于超短文本本身及对应的修饰词、核心词,从向量空间中提取向量值,基于向量值进行相似度计算。
平台技术架构方面,采用了应用主备的部署架构,在飞腾芯片和鲲鹏芯片的服务器上,实现了异构主备的架构,并使用了麒麟操作系统、东方通中间件、人大金仓数据库等信创基础设施软件,所有软件均部署在信创环境,支持使用信创浏览器登录访问。数据治理平台使用前后端分离的微服务架构进行搭建,前端采用VUE框架进行了组件化的开发,后端应用使用东方通web。数据存储方面,关系型数据存储在人大金仓数据库中,结构动态变化的元数据、过程脚本等存储在MongoDB中,对于血缘关系、数据流向等关系信息使用Neo4j图数据库来进行存储。智能化方面,数据治理平台采用PyTorch深度学习框架,集成小化Anaconda环境,形成智能化引擎,为数据治理协同环节提供算法服务。

平台性能要求方面,考虑到数据治理平台需面向湘财证券全员提供数据资产、数据质量、数据安全、数据标准等服务的能力,在平台开发时,制定了平台性能目标:需要在200人并发访问,登录平台响应时间小于2秒,平均请求的响应时间不超过2秒,查询响应时间多不超过5秒。智能化服务方面,为提升协同场景中的工作体验,制定了平台的相似度匹配效率:应实现每秒200条数据的智能匹配效率,匹配后信息推荐的响应时间在1秒以内。平台建设完成后,上述性能要求都已满足。
四、项目过程管理
项目在实施过程中主要经历了需求分析和概要设计阶段、系统详细设计阶段、系统编码测试和上线准备阶段、试点上线阶段等四个阶段,具体如下:
1.需求分析和概要设计阶段
2021年12月至2022年03月,主要完成了自然语言处理与智能化在国内外的研究情况分析、智能化技术在数据治理应用场景可行性分析与应用场景选则、数据治理协同场景识别等技术工作,形成了需求文档。
2.系统详细设计阶段
2022年04月至2022年05月,主要完成了架构设计、行业特征模型构建思路设计、智能化技术的算法服务设计、协同流程设计、消息服务机制设计、协同场景设计等详细的设计工作,形成了系统详细设计文档。
3.系统编码、测试和上线准备阶段
2022年06月至2022年11月,主要完成了基于自然语言特征提取、服务算法、流程引擎、消息服务引擎、数据治理平台后台与前端的改造等部分的编码工作,并开展了功能、性能、安全方面的测试工作,形成了用户操作手册、测试用例、测试报告等文档。
4.试点上线阶段
2022年11月,主要完成了数治理平台的试点上线、平台使用培训、上线后的系统运行监控、提供系统使用答疑的工作,形成了数据治理平台部署手册、数据治理平台上线方案、数据治理平台运维方案、数据治理平台应急方案、数据治理平台常见问题指导等文档。
五、运营情况
数据治理平台上线后,陆续接入湘财证券相关业务系统、数据分析系统等,数据覆盖湘财证券60%业务类型,内容包括数万张数据表、数十万个数据字段、几十张数据报表、数百个报表指标、数百个指标标准、近千个基础标准等数据资产,且相关数据资产均已实现了数据分类分级。此外,针对应用系统中部分核心报表中的核心数据项配置了数百条数据质量规则。
在公司推广方面,本项目组面向不同的平台使用群体,分别以业务使用视角、技术管理视角、数据运营视角对平台开展了多次专项培训。*****批推广面向技术团队,以技术团队用数视角,分享了数据资产中心、元数据中心、数据质量中心和数据标准中心的内容,着重介绍了平台中的数据资产内容,以及数据血缘分析、变更影响性评估、数据质量监测等功能场景。第二批推广面向数据团队,以数据团队用数视角分享了数据资产中心中各类数据资产的详细内容,并详细介绍了“以用促提”的数据资产运营思想。第三批推广面向所有业务部门,以业务团队用数视角分享了如何在数据资产中心挖掘出业务需求所需的数据知识。
六、项目成效
本项目的建设成果不会直接带来经济收益,但是可以为公司数字化转型的各项工作带来便捷,从而节省人力成本的投入,提升工作效率。主要体现如下:
1.通过数据纳管协同与数据资产运营协同带来的优质数据解释,能够直观的帮助业务人员理解数据、帮助技术人员掌握底层逻辑,节省各类数据需求挖掘、分析、开发、测试环节的沟通成本,同时减少因为数据口径不准确导致的一系列数据问题。
2.数据质量监测协同场景引入了在相似的数据资产上推荐出相关的数据质量规则的能力,避免同类型数据质量规则反复配置所需的人工投入,节省数据运维成本的同时,更为全面的实施数据质量监控。
3.智能数据分类分级协同场景带来了便捷的数据分类分级手段,在大量节省数据分类分级工作量投入的同时,使数据分类分级的结果趋于稳定,不会随着系统建设、系统重构等情况导致历史结果无法使用,使数据安全管理的侧重点从实现数据分类分级转变为如何基于数据分类分级的结果,实现更为精准的数据安全管控。
4.数据贯标协同场景是建立应用系统中存量数据和公司内数据标准间的映射关系,为后续应用系统的落标改造以及应用系统间的数据交互提供了统一的沟通依据,节省了数据开发时的沟通成本。
七、经验总结
数据治理工作是数据要素价值发挥的基础,做好数据治理的工作能够有效提升企业数据的质量,为企业管数据、用数据提供助力。从项目的实践情况来看,构建场景化的数据治理协同能力能够充分激活并调动企业业务人员、技术人员参与到数据治理活动中的积极性,有效改善当前治理工作人员不足的现状,使数据治理工作转变为一项企业全员参与的活动。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
日照银行:“黄海之链”供应链金融服务平台
黄海之链”平台于2021年8月18日上线,是日照银行推出的首个To B端金融服务门户网站。平台全面融合区块链、物联网、人工智能、大数据等智慧科技,将金融科技成果与实体经济场景有机结合,实现对产业链全链条、全周期、多维度金融服务需求覆盖,加速产业运行效率;通过数据要素全面运用,实现信息化、数字化和智慧管理;通过与商贸物流平台、交易市场、电子仓单系统等特色场景对接,打造“产业经济+金融服务”的数字化生态闭环,实现产业链交易全流程业务可视、数据可信、资产可控,有效解决上下游中小微企业融资难、融资贵问题。
2022第三届中小金融机构数智化转型优秀案例评选
日照银行
2023-05-30
重庆农商行:区域性商业银行智能研发运维一体化管理平台
本项目的建设,打造了基础平台级信息资产,是重庆农村商业银行以金融科技赋能全行数字化转型升级的生动案例。其一方面提高了企业科技的自主架构设计能力,保障了金融科技转化为具体业务产品的高质高效;另一方面也为银行业全面推广微服务、智能运维和系统架构升级提供了一份良好的模版和参考执行标准。
重庆农商行
2023-05-30
中信证券:智能云平台以及智能应用
智能云平台是中国证券业内早一批针对人工智能应用建立的云平台。目前已经在我司智能投资、智能投顾、智能算法交易、智能客服、智能舆情、智能风控等领域发挥作用。
2023-05-30
光大证券:数智化数据中心多云管理平台
数智化数据中心多云管理平台实现多云的统一管理,跨云资源调度和编排,统一监控和统一运维,统一的成本分析和优化,实现统一交付。
网络整理
光大证券
2023-05-30
中信证券:智能营销平台
中信证券始终以为客户提供优质的金融产品和金融服务作为自己的责任,在日常的业务开展中不断的总结经验,针对不同特点的客户深耕细化自己的服务水平和金融产品,不断的优化自身的服务模式。正是在这样的大背景下,中信证券智能营销平台应运而生。
2023-05-30
苏州银行:标签体系建设项目
统一标签管理系统从整体功能架构上分为特征库、标签管理、标签应用及标签服务四大模块。其中,特征库涵盖零售、公司及同业三大条线基础特征数据,为标签体系提供重要基础数据支撑;标签管理模块主要包括标签定义、审批、发布、执行、评估、下线等,实现标签的体系化管理;标签应用提供客群筛选、客群分析、客户画像等多样化客户分析工具;标签服务模块提供API接口、批量订阅及页面集成等统一多元化服务模式。
2022第三届中小金融机构数智化转型优秀案例评选
苏州银行
2023-05-30
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构