本文来源于:2023鑫智奖第四届中小金融机构数智化转型优秀案例评选,作者:西南证券

西南证券:OCR智能识别平台

2023-06-07 关键词:证券,数据智能应用1570

一、项目背景及目标


OCR技术是一种能将图像中文字自动转换成文本格式,可供机器进一步处理的结构化字符信息技术,OCR是机器与业务交互的重要基础设施。OCR技术早在上世纪60年代就开始有研究,近年来随着深度学习的引入,OCR的识别精准度得到了质的提升,并大量投入商业化运行。


西南证券伴随着财富管理数字化转型,客户规模、客户增长量、产品管理规模和数量不断,业务开展中逐步暴露出信息分散、作业流未形成闭环、作业效率较低、监控难度较大等问题。多个场景有数字化赋能需求,特别是开户场景的身份、资料、合规审核,录入资料多、版式复杂、审核工作量大;公司代销基金产品场景,基金参数表格各不相同,上架、更新参数表需要大量人工录入;财务业务、投行业务等场景需要对大量财报、银行流水、机构资质等相关文件进行审核。


基于OCR智能识别技术,公司能够有效简化业务流程,替代部分人工审核,有效抵御合规风险;能够增效降本,提升工作效率,降低运营成本;能够改善用户体验,业务流程的自动化、免去繁琐人工录入信息。我们从长远规划考虑,决定建立公司级的统一的OCR智能识别平台,以此增效降本和规范管理。


OCR作为新技术在券商成功应用,需要关注三个重要节点:1.OCR识别稳定性,如果识别精准度不高,很容易弃用;2.OCR使用场景的挖掘,如果仅将OCR当单一功能工具,其价值会受到质疑;3.OCR业务价值,业务需求快速响应,业务价值可量化。


基于以上需求,我们提出四点建设目标:1.准确性,能够保证复杂光照、手写体、干扰元素、文字模糊等情况下的识别精度;2.高性能,在处理多页文件、多用户并发访问的响应耗时要合理,接口的稳定性要达到99.99%;3.灵活性,在较短周期内能够快速开发并交付可用产品;4.规范性,数据统一管理,服务统一鉴权,系统统一运维监控。


二、创新点


OCR智能识别平台是提效降本型项目,服务公司前中后台业务,通过流程自动化、智能化处理能够有效改善客户体验,提升员工效率。OCR智能识别平台的建设有以下三点创新:


1.可扩展性


证券行业由于其行业特殊性,有大量非标版式文字识别需求,传统解决方案是采用定制化开发,其模型训练需要收集、标注大量数据,模型开发、调优复杂,开发周期长,业务需求响应不及时;面对新的需求,定制化模型无法适配场景变化,需要二次开发调优。


为解决以上问题,我们将识别需求分为固定版式、半固定版式和非固定版式。


固定版式无需训练,无需定制化开发;通过上传识别模板图片,框选定位锚点,框选识别字段完成模板制作。自定义模板基于通用OCR和多模态结构化双擎技术,实现了OCR场景识别的快速适配,能够有效应对版式倾斜、跨页流水、换行和行列变化等情况。


半固定版式用于应对复杂版式,通过平台自训练工具,利用数据增强技术完成小样本学习。标注人员只需要标注少量样本,制作对应的结构化模板;平台调用智能标注服务自动化标注数据,通过人工审核确定标注数据;数据增强技术模拟不同光照、倾斜程度等环境,自动合成训练数据,增强模型精度和泛化性。


非固定版式版式相对复杂,无法通过模板识别。针对此场景,OCR平台通过NLP语义理解后处理,结合字段抽取规则引擎和版式分析引擎达到文档要素抽取的目的。用户可自定义新增字段,90%以上的场景无需训练,大大提高工作效率,避免人工操作误差。


2.能力延伸性


OCR智能识别平台要充分发挥价值,需要多层能力叠加。*****层是基础性能力,比如发票、合同、证照的各要素识别;这一层能力是后续所有延伸能力的必要保障。第二层是高阶能力,需要结合业务场景,充分探索。


线上开户场景中,要求客户上传身份证、银行卡、营业执照等资料,同时需要对客户资料进行集中审核。在开户过程中,无法避免资料识别失败等情况的发生,一旦发生就会影响用户体验,造成客户流失。因此我们在流程之初增加图像质量检测模块和图像真伪判断,尽早检测出不合规的图片,给出优化建议并让客户进行重传。在个人资料识别填写后,立刻进行后处理,比如开户地址智能审核与校验,保证客户信息的正确性、完整性。审核人员在收到资料后进行审核,其审核结果和建议将存档,为后续OCR模型调优提供数据支撑。


投行IPO业务等银行流水核查账户多、跨度大、项目繁多、合规风险高。OCR智能识别平台通过表格识别将信息结构化,融合行业审核知识库,对真实性、完整性等进行分析,判断交易合理性,挖掘潜在关联关系,显著提高尽调效率。


3.技术架构


大中台小前台架构:OCR智能识别平台采用了大中台小前台的设计,将不同的子系统整合到一个中央平台上,提高了系统的可维护性和可扩展性。中央平台负责数据存储、OCR识别和鉴权,各个子系统则负责具体业务场景。


基于K8S的微服务架构:OCR智能识别平台基于K8S的微服务架构,将不同的子系统拆分成独立的微服务,并通过K8S内部网络进行通信和协作。降低系统的复杂度和延迟,提高了系统的可维护性和可扩展性。


规则引擎:OCR识别结合规则引擎,可以灵活配置审核条件、合规条件,实时地提取和分析证券数据,自动化地处理合规审查等问题,减少人工干预,进一步提升处理效率和准确度,帮助公司更好地管理风险。


三、项目技术方案


1.功能架构


OCR智能识别平台主要提供OCR生产力平台和OCR能力服务,其核心功能包含:资源管理调度、OCR能力服务、模型/模版生产、模型/模版推理、NLP能力中台、规则引擎、基础模块、业务服务层。


图片1.png


1)资源管理调度主要负责服务器资源的集中管理,建立资源队列和任务队列,负责训练任务、推理服务、训练资源的统一调度。


2)OCR能力服务做到开箱即用,主要是固定板式、无需训练的标准服务,如卡证类识别、票据识别等,以接口方式对外提供服务。


3)模型/模版生产:针对版式固定场景,满足图片清晰,方正、没有弯曲折叠、有足够固定位置且固定文字作为锚点的前提下可通过自定义模版的方式解决长尾问题;针对版式半固定的场景,可标注少量的图片,结合锚点工具进行模型训练,快速实现半固定场景标准识别服务;针对版式不固定场景,基于通用文本识别输出文本内容和文本位置信息,结合NLP能力中台的知识库和实体抽取技术,提取对应关键信息。


4)模型/模版推理:该模块负责模板或者模型服务全生命周期管理。比如,模型或者模版发布服务、灰度发布、在线测试、服务下线,并统一接入服务监控。外部系统则可通过网关进行调用。


5)业务服务层:提供统一的服务访问入口、提供服务暴露、提供API鉴权安全措施;组合多个OCR原子服务能力,适配业务场景。


6)NLP能力中台:提供丰富的NLP工具和资源,包括语言模型、情感分析、文本分类、实体识别、知识库等,支持各种OCR应用场景NLP后处理需求。


7)规则引擎:提供规则模板,针对特定的业务场景和风险点进行个性化的合规性检查和评估,帮助公司自动化合规审核流程,提高合规性和准确性。


8)基础模块:提供用户中心,单点登录;调用统计负责统计各个API调用情况;服务日志记录API访问量、访问耗时;文档中心提供API文档、SDK等。


2.系统架构


OCR智能识别平台系统整体采用云原生架构。内部服务调用以及服务负载均通过K8S内部网络实现。


图片2.png


OCR智能识别平台对外暴露服务的系统有两个:Portal系统、网关服务。这两个系统对外访问通过K8S的Ingress暴露。Portal系统是用户登录OCR智能识别平台,进行业务操作:数据标注、自定义模板、训练模型等;对外暴露的网关服务域名一般是业务系统通过http(s)访问OCR智能识别平台的服务(如OCR能力服务、自定义模版服务、自训练模型服务)。


OCR业务服务负责自训练、自定义模板以及业务功能实现,负责和K8S进行交互,提交训练任务、推理服务等;OCR能力服务是一些不需要训练的标准件,以http(s)协议提供访问;日志服务主要记录调用情况,耗时情况。


所有访问后端服务访问链路均需要通过网关系统,网关系统统一进行鉴权控制、路由认证、熔断、限流等控制。


基于K8S架构,所有系统资源集中管理,支持弹性扩容、缩容,任务自动调度。


3.部署架构


图片3.png


从可靠性、安全性、稳定性、扩展性、经济性角度出发,本项目为同城双活部署。双中心均部署一套K8S集群,服务配置从配置中心统一下发并保持一致,入口统一设置轮询的负载策略保证对外服务的高可用;每个中心的K8S集群的采用多master多worker模式部署,worker节点为GPU计算节点,承载所有OCR识别服务。对于持久化数据存储,考虑数据安全均使用数据服务中间件:数据库(Mysql数据库,存储结构化数据)在主中心采用主从的集群模式部署,并与从库进行准实时数据同步;基于亚马逊S3协议的对象存储中间件(存放模板、模型文件)在主、备中心均采用多节点多活的部署方式,主、备间准实时同步数据。


4.数据架构


图片4.png


API网关服务是用来验证token是否由系统统一颁发,从而防止有人伪造token,保证系统安全。为了提高用户体验,我们采用了Redis技术来进行token信息的缓存。而为了更加方便的模型或模板生成,我们使用了数据库来进行数据的持久化存储,并采取了对象存储技术进行文件数据的持久化,所有算法服务都是基于算法模型进行服务发布的。同时,整个平台还兼具纳管第三方OCR算法服务的能力,当调用第三方算法服务时,API网关会先调用日志服务,记录API调用的的统计信息并将其持久化存储到数据库中,以便我们对API调用进行更加有效的管理分析。


四、项目过程管理


OCR智能识别平台项目由西南证券金融科技部牵头和实施,采用试运行到全切换的方式实施,主要经历以下几个阶段:


1.需求分析和设计阶段

此阶段为2022年10月至2022年11月,此期间完成了OCR业务需求、功能需求和性能需求的分析和整理,确定了OCR架构部署方案和业务接入流程设计。


2.OCR智能识别平台开发实施阶段

此阶段为2022年11月至2023年1月,期间完成了模型生产与纳管、服务发布、用户中心、日志监控、接入SDK的开发。


3.项目上线试运行

此阶段为2023年1月至3月,期间完成OCR智能识别平台的部署与回归测试,以网上开户为场景进行业务测试,并完善系统架构、操作手册等文档撰写。


4.运行阶段

此阶段为2023年4月至今,期间完成了OCR智能识别平台对外服务,已接入合同审核、基金产品管理、智能研报、网上开户等业务。业务系统运行稳定,各项业务开展有序,项目如期完成。


五、运营情况


1.系统总体运行情况

OCR智能识别平台于2023年3月技术上线并展开试运行,于2023年4月开始接入业务系统。目前已顺利接入多个业务系统,日均OCR识别服务超过1万次,平均识别准确率在95%以上。自系统上线以来,系统运行稳定、性能良好,各项指标均已达到设计目标。该平台能够快速响应多种不同OCR识别需求,扩大OCR使用场景,进一步优化流程服务,提升客户体验。


2.业务推广

首先,我们选取标准化程度高、业务流程清晰、识别需求量大的开户场景进行试点。OCR智能识别平台多种标准件能够做到开箱即用,覆盖开户场景的卡证识别、合同识别、手写体识别等。该场景开户量大,识别需求多,接入OCR后开户体验明显改善,充分体现了OCR的业务价值。


接着,我们深挖OCR与业务深度融合,与产品中心合作研发基金产品管理系统,利用OCR模板识别,将基金产品上线、基金产品更新流程自动化,提升工作效率。与互联网金融中心合作,利用通用文本识别,将原PDF文件信息抽取,通过文本位置信息将文件显示适配多端机型,提升用户可读性。与多中心合作共建,扩大OCR识别平台影响力。  

后,我们组织多次的线上、线下培训,加强公司内部的宣传和推广,开发OCR能力展示平台供员工体验,并建立反馈通道,收集用户意见和需求,及时做出调整。


3.性能分析


图片5.png


OCR智能识别平台采用Skywalking进行可视化监控,并配有对应告警规则,当条件触发时,通过短信、邮件等方式通知OCR智能识别平台运维负责人。

从上图可看出,系统75%的请求在100毫秒内完成,95%的请求在500ms毫秒内完成,99%的请求在2s内完成,大部分的请求在1s左右完成。因部分OCR识别请求为PDF,长度不固定,导致处理时长波动。在当前请求量情况下,系统总体性能符合预期、运行稳定、资源占用合理。


六、项目成效


1.经济效益


首先,OCR平台能够充分满足业务现有及未来需求,助力业务提升。开户场景在接入OCR技术后,用户平均开户驳回率下降6%,平均开户时间减少2.5分钟。基金产品信息更新每季度需录入上百份,平台上线前需要9人天手工录入,1人天数据审核;平台上线后现只需要分钟级信息提取,1人天数据审核,有效降低人工错误。


其次,OCR平台多场景工具支持,能够快速响应业务需求,促进业务快速推进。标准服务分钟级接入,模板制作小时级发布,非固定版式天级适配。


再者,OCR平台的建设可以实现智能化的资源分配和动态扩展,可根据业务压力情况进行动态扩容、缩容,大化地提升硬件服务器资源的利用率,降低硬件购置成本。此外,开发运维一体化的特性,可以实现业务组件监控的可视化,能够提高系统的稳定性,降低事故发生概率。


2.社会效益


OCR平台的建设可以提高展业的效率与准确性,为投资者提供更加便捷和可靠的证券服务;客户对公司的满意度和信赖度提升,为公司的品牌形象和社会信誉树立奠定了坚实的基础;流程的自动化、智能化能帮助更多投资者进行理财投资和财富管理,创造更多的经济效益和社会价值。


七、经验总结


1.从实际出发

 

作为中小金融机构,对IT建设的投入相对有限,平台化建设能够充分发挥能力复用,有效降低使用成本。在实际建设过程中应该首先分析公司引入OCR技术后的投入产出比,找准新技术对业务场景的价值贡献以及业务场景的关键要素设计,这样才能充分发挥新技术的潜能。其次,虽然市场上能提供OCR产品的供应商众多,但仍然要做好技术选型工作;OCR技术选型需要考察其在关键核心业务环节OCR识别的稳定性,垂类OCR厂商在其他领域的模型泛化性和鲁棒性,以及所提供产品的可扩展性。


2.业务价值导向


OCR智能识别平台的在项目建设过程中,始终以提升业务价值为准则。不仅关注项目的技术和性能,还关注用户体验和实用性。对不同业务场景需求进行分类和分析,通过多种工具快速响应用户需求,针对不同的场景提供个性化解决方案,从而优化业务流程、提高展业效率。

本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】

推荐阅读

更多

日照银行:“黄海之链”供应链金融服务平台

黄海之链”平台于2021年8月18日上线,是日照银行推出的首个To B端金融服务门户网站。平台全面融合区块链、物联网、人工智能、大数据等智慧科技,将金融科技成果与实体经济场景有机结合,实现对产业链全链条、全周期、多维度金融服务需求覆盖,加速产业运行效率;通过数据要素全面运用,实现信息化、数字化和智慧管理;通过与商贸物流平台、交易市场、电子仓单系统等特色场景对接,打造“产业经济+金融服务”的数字化生态闭环,实现产业链交易全流程业务可视、数据可信、资产可控,有效解决上下游中小微企业融资难、融资贵问题。

2022第三届中小金融机构数智化转型优秀案例评选 日照银行 2023-06-07

重庆农商行:区域性商业银行智能研发运维一体化管理平台

本项目的建设,打造了基础平台级信息资产,是重庆农村商业银行以金融科技赋能全行数字化转型升级的生动案例。其一方面提高了企业科技的自主架构设计能力,保障了金融科技转化为具体业务产品的高质高效;另一方面也为银行业全面推广微服务、智能运维和系统架构升级提供了一份良好的模版和参考执行标准。

重庆农商行 2023-06-07

中信证券:智能云平台以及智能应用

智能云平台是中国证券业内早一批针对人工智能应用建立的云平台。目前已经在我司智能投资、智能投顾、智能算法交易、智能客服、智能舆情、智能风控等领域发挥作用。

2023-06-07

光大证券:数智化数据中心多云管理平台

数智化数据中心多云管理平台实现多云的统一管理,跨云资源调度和编排,统一监控和统一运维,统一的成本分析和优化,实现统一交付。

网络整理 光大证券 2023-06-07

中信证券:智能营销平台

中信证券始终以为客户提供优质的金融产品和金融服务作为自己的责任,在日常的业务开展中不断的总结经验,针对不同特点的客户深耕细化自己的服务水平和金融产品,不断的优化自身的服务模式。正是在这样的大背景下,中信证券智能营销平台应运而生。

2023-06-07

苏州银行:标签体系建设项目

统一标签管理系统从整体功能架构上分为特征库、标签管理、标签应用及标签服务四大模块。其中,特征库涵盖零售、公司及同业三大条线基础特征数据,为标签体系提供重要基础数据支撑;标签管理模块主要包括标签定义、审批、发布、执行、评估、下线等,实现标签的体系化管理;标签应用提供客群筛选、客群分析、客户画像等多样化客户分析工具;标签服务模块提供API接口、批量订阅及页面集成等统一多元化服务模式。

2022第三届中小金融机构数智化转型优秀案例评选 苏州银行 2023-06-07

案例库

金融行业全面的数字金融创新案例,涵盖历届“鑫智奖·金融机构数智化转型优秀案例评选”、“农村金融机构科技创新优秀案例评选”、“城市金融服务同业案例征集活动”等科技创新参评案例

  • 证券
  • 数据智能应用

微信
咨询

微信咨询

扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构