本文来源于:第五届农村中小金融机构科技创新优秀案例评选,作者:江西省联社
江西省联社:基于AI技术的OCR系统
2021-09-27 关键词:农信/农商行
4846
一、项目背景及目标
近年来,国内外金融科技迅猛发展,人工智能、移动互联、云计算、大数据等新技术日益成熟,与金融场景的融合不断深入,推动金融业务向智能化、移动化的方向快速发展。OCR技术与人工智能技术快速融合,基于深度学习完成技术升级后,发展成为智能OCR技术,有效克服了传统OCR技术过度依赖版面结构、图像质量的问题,准确率和效率有了大幅提升,有效满足了银行业证件、凭证等影像分类、识别、结构化的需求。
众所周知,银行业务处理过程会产生各种手写凭证,如支票、进账单、开户申请书等,传统的业务流程须要柜员通过手工方式将凭证要素进行录入,此方式耗时耗力且效率低下,不利于客户体验的提升,因此准确、高效地提炼数据的价值成为柜面、信贷、电子银行等金融业务产品创新的重要基础。
目前,业内印刷体字符的整行识别率能够达到99%,但是手写体识别一直困扰整个行业,为此,我们依托先进的人工智能技术,通过收集百万级数量的手写体业务凭证自主开展模型训练,结合CRNN网络打造基于我行客户特征的识别模型,建设基于AI技术的OCR系统,替代传统的人工录入方式,提升手写体凭证识别准确率,促进业务办理智能化、移动化,为持续提升客户体验、增强风险防控、降低人力成本提供技术支撑。
二、项目方案
根据应用架构和体系结构,结合我行实际业务需求,服务器端采用集群部署方式,弹性扩展,以保证系统的容错性、稳定和高效,系统逻辑架构如下:

硬件层:系统的硬件运行平台,通常为带有CPU和GPU的服务器。由于深度学习算法会进行大量并行计算,因此GPU的性能优势非常明显。
基础支撑:系统的技术支撑,包含TensorFlow等深度学习框架、SpringBoot微服务框架、Redis缓存、Mysql数据库等。
服务层: 包含核心算法、智能OCR训练、辅助数据、AI管控等。基于OCR深度学习模型,使用大量数据进行训练,再配合多种辅助数据预算法,形成系统的核心能力,通过AI管控,对服务进行有效管理,共同形成系统的服务层。
接口层:通过各种接口,将系统的核心能力输出到各应用服务中。
机器学习是整个OCR技术的关键点,能够通过样本的学习得到可用的模型,并且能够对模型进行评价,后部署实施到系统中,同时系统需要提供一种能够不断迭代不断提升的反馈机制,确保系统能够在数据、训练的推动下,不断学习进步,系统涵盖了主要的模块功能:数据管理、数据标注、模型开发、模型训练、模型发布。全流程深度学习如下:

系统可以将多样化设备采集的凭证统一接入,构建影像分类、识别和数据结构化能力,以机器识别代替人工录入,快速自动录入金融业务涉及到的各种卡证、票据、文本等信息。
系统基于深度学习的图像识别技术,打破了传统OCR识别对图像质量的苛刻要求,可在彩色或者灰度图像上实现文字区域的自动定位和整行文字的OCR识别,借助上下文来判断形似字,解决手写体汉字复杂多变的问题,同时在低质量图片的容忍能力与识别准确率两方面得到了显著的提升,不仅可以识别高拍仪、扫描仪采集的高质量图像,还能有效识别手持设备如手机、PAD等采集的图像,极大地扩大了OCR处理范围。
三、创新点
本项目主要创新点有以下三点:
一是基于深度学习的自然语言处理技术,该技术主要采用一个Bert网络,对于识别出来的OCR文本结果进行分析、分类,自动从非结构化数字信息中抽取目标数据,通过自主学习,产生适合行内的识别模型,经实际检验,手写体识别率达92%。
二是利用深度神经网络技术,从文字区域定位、整行识别、结构化输出三个过程对手写体凭证进行识别,定位与识别均采用卷积神经网络CNN、长短期记忆网络LSTM技术实现。
三是以业务人员为主要视角,自主定制模板,过程简单、直观,只要将需要提取的信息选出加入训练即可,一个版式2分钟便可完成,让银行面对中低程度的复杂样本,可以通过已有通用识别引擎,自主解决非结构信息提取的工作,达到自主可控,成本可控。
四、技术实现特点
1、智能图像质量判断。
面对各种采集设备采集的图像,由于抖动、光照、对焦等问题,导致图像模糊,模糊的图像无法提供很好的识别结果,在可能的情况下,需要将模块的图像阻挡在识别之前,使得系统资源根据被合理的利用;基于深度学习的图像质量判断,提供一种图像质量判断能力,通过CNN学习,得到输入的图像质量分类:正常或者模糊,给出判断的可信度。
2、多文档图像分割定位。
对于要识别的各种票据、单据图像,如果一次只能上传识别一张,而且需要指定图像的必须正立的,这样大大影响用户体验。多目标分割定位技术可以同时对一张图像上的不同目标进行分割定位,实现一次上次多种票据的能力。可以支持文档是任意角度和任意方向,分割得到的佳拟合文档的多边形,做到大限度的所见即所得,有利于后面的图像校正和识别。
3、整行识别。
文字图像其实是按照一定的规则和顺序书写的,所以手写体OCR可以看成是一种与语音识别类似的序列识别问题,可建模为时序依赖的词汇或者短语识别,利用CNN+LSTM+Attention+CTC网络实现端到端的整行文字识别技术,并在语料库和语法库的引导下,约束成一个整体,作为一个被识别对象,接着把集群捆绑形式的群体作为一个完整的识别对象同时加以识别,前后语义关联,精度和效率大大提升,极大提高了手写体识别率。
五、项目过程管理
1、需求分析和概要设计阶段
此阶段时间为2021年3月至2021年5月,期间完成了业务需求分析、业务功能和技术架构的高层设计。
2、系统详细设计阶段
此阶段时间为2021年5月至2020年6月,期间完成了系统详细设计工作。
3、系统编码、测试和上线准备阶段
此阶段时间为2021年6月至2021年8月,期间完成了开发的编码、测试以及试点上线准备工作。
4、试点上线阶段
此阶段时间为2021年9月,期间完成了集中作业凭证自动录入场景试点的上线。
六、运营情况
1、基于灰度图的文字定位+识别,无需复杂的图像处理过程。
2、整行识别,无需字符分割,前后语义关联,可大幅提升识别率(目前实测手写体>92%,印刷体>99.2%)。
3、CNN特征提取,对图像质量容忍度高,可轻松应对各种图像来源,包括手机拍摄、扫描仪、高拍仪等,可轻松处理不同字体,打印方式等。
4、先识别,后分析,对于不同产品,只需要开发结构化分析模块,新产品的开发周期和开发成本都大大降低。
5、深度学习计算量大,但可利用GPU完成并行计算,计算效率大大提升。
七、项目成效
1、节约管理成本。智能识别代替人工录入,节约大量人力财力,运营成本可降低50%左右。
2、简化业务流程。通过该系统,可以大大简化业务流程,提升工作效率,让数据处理工作更轻松。
3、改善用户体验。业务流程中免去各种证件信息手动录入的困扰,是用户体验得到有效提升。
4、挖掘海量数据。通过各类表单票据批量识别,可以快速获取全明细,为其他相关业务分析提供数据基础。
八、经验总结
基于AI技术的OCR系统采用了深度神经网络技术,彻底避免了图像质量依赖度高、版面结构、过程复杂等问题,它仅用文字区域定位、整行识别、结构化输出三个工序即可完成整个识别过程。定位与识别均采用卷积神经网络CNN、长短期记忆网络LSTM技术实现,可在彩色或者灰度图像上实现文字区域的自动定位和整行文字的OCR识别,彻底弥补了传统OCR技术中单字识别技术无法借助上下文来判断形似字的问题。另外,首次将行内已有数据作为训练样本,通过该系统自学习能力,输出定制化识别模型,极大提升了手写体识别效果,应用于集中作业外包录入场景,效果显著。通过本项目的建设,初步形成标注、训练、模型调优一体化的AI平台,将为自主技术创新提供引擎。
本网站案例,除特殊标明来源的,版权归金科创新社所有,未经许可不得转载,否则将视为侵权,对于不遵守此声明或者其他违法使用本文内容者,本网站依法保留追究权。另,本网站部分案例、观点文章来源于网络素材,如有侵权,请邮件联系 fenglei@fintechinchina.com 处理!
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务,详情点击 【 需求提交 】。
推荐阅读
更多
河南农信:基于大数据平台的智能审计管理信息系统
随着河南省农村信用社各项业务的飞速发展及信息化建设的不断深入,创新性金融产品和金融服务不断涌现,业务数据和业务流程复杂程度不断提高,交易信息和管理信息不断膨胀。
2018第二届农村中小金融机构科技创新优秀案例评选
河南农信
2021-09-27
安徽农信:基于人工智能的滨湖数据中心基础设施能效优化
数据中心基础设施能耗巨大,数据中心节能能够带来显著的经济和社会效益。而在数据中心基础设施中,空调能耗又占到全部能耗的70%,本项目通过将人工智能应用到数据中心基础设施空调系统运行控制中,为安徽省联社乃至金融行业数据中心基础设施节能降耗探索一条智能化创新的道路。
2018第二届农村中小金融机构科技创新优秀案例评选
安徽农信
2021-09-27
湖北农信:智慧学习平台
智慧学习平台的建设广泛运用互联网新媒体技术,集教、学、练、考评等要素,通过数字化学习运营将其打造为兼容、开放、共享、规范的多元一体化学习载体,成为全省农商行系统的学习中心,考试中心、直播中心、制度图书中心、员工交流中心,有效地提高了员工学习的时效性、便捷性和覆盖面,成为全省农商行“智慧银行”的建设重要载体。
第五届农村中小金融机构科技创新优秀案例评选
湖北农信
2021-09-27
江西农信:“百福快贷”项目
网络信贷项目依托互联网技术,采用全流程“不落地”线上操作模式,以大数据应用为基础,实现贷款申请受理、审批、放款、回收和贷后管理全部在线完成,整个贷款审批流程无需人工参与,实现了系统几分钟内自动产生审批结果,真正意义上达到了可足不出户就可完成贷款申请和收到贷款的目标。
2018第二届农村中小金融机构科技创新优秀案例评选
江西农信
2021-09-27
江苏省联社:风险偏好与限额管理系统
本项目旨在建设统一风险数据集市,打通风险管理相关数据,建立风险偏好与限额管理系统,提高各类风险识别、计量、监测和数据分析的能力,并提供给农商行风险管理相关的数据支撑,以帮助农商行进行合理的业务拓展与风险管理决策。
第五届农村中小金融机构科技创新优秀案例评选
江苏省联社
2021-09-27
重庆农商行:基于数据决策的全线上零售信贷产品“渝快贷”
“渝快贷”是重庆农商行推出的基于数据决策的个人全线上信用消费贷款产品。
2018第二届农村中小金融机构科技创新优秀案例评选
重庆农商行
2021-09-27
微信
咨询
微信咨询
扫码添加金科小助手微信号
咨询案例和解决方案相关信息
或联系对应机构