中信建投证券：知识图谱技术在证券公司员工赋能平台中的应用探索

本文来源于：中国金融电脑+，作者：潘建东王赵鹏马张晖尹序鑫刘国杨关键词：知识图谱,证券,算法

2024-01-22 3398

当前，金融机构在开展财富管理业务时，经常面临庞大的客户群体与综合服务能力不匹配的问题：一线员工学习压力大，客户服务针对性弱；个体经验难以持续产生价值，出现专业人才流失现象等。为解决这些问题，中信建投证券股份有限公司(以下简称“中信建投证券”)积极探索通过科技赋能提升财富管理能力，利用知识图谱和大语言模型技术，有效连接用户、产品和知识等节点数据，开发了具有专业知识生产检索功能的员工赋能平台系统。该系统可提高知识检索的准确率和召回率，提升公司知识和专家资源的利用率，助力企业提升综合服务能力。

一、员工赋能平台系统介绍

中信建投证券技术团队利用先进的实体识别、关系抽取算法构建知识图谱，利用实体对齐、链接预测技术对图谱进行补全和完善，将得到的高质量、高可用的垂直领域知识图谱应用于下游任务，助力一线员工和领域专家进行交互，从而实现中信建投证券对客户全方位服务的提升。

员工赋能平台分为数据接入层、知识生产层、知识应用层三个单元(如图1所示)。数据接入层接入并整合大量分散在数据中心服务器、员工电脑本地的异构非结构化文件等组织知识;知识生产层将数据构建为知识图谱形式，依靠图谱良好的关联性和大信息量的特点，构建快速检索、推理等功能，满足员工作业需求;知识应用层将知识图谱与大语言模型技术结合，利用知识图谱的强结构性弥补大语言模型结构性差的弱点，同时利用大语言模型的能力改善知识图谱泛化能力较弱的问题，不断优化精准检索、问答系统以及协同组队等应用模块功能。

图1 员工赋能平台知识图谱应用

员工赋能平台将知识信息与专家信息录入知识图谱，利用图谱技术将业务关键信息连接起来，进行结构化处理。一线员工不仅可以随时提问所需的专业知识，获取相关的服务文档、案例、经验等知识内容，还可以根据不同业务类型通过“企微互联”直接联系对应专家，以便为客户提供高质量的综合性金融服务。

二、面向员工赋能平台的知识图谱实践

在知识图谱生成过程中，中信建投证券技术团队利用数据处理模块输出大量结构化、半结构化或非结构化的数据，再利用实体抽取和关系抽取技术，将其转化为生产结构化知识图谱数据，用于下游自然语言处理(NLP)任务。

1.数据处理

技术团队利用流处理技术和实时数据集成工具完成实时数据集成，然后利用机器学习和自然语言处理等技术自动识别、清理和转换数据，从而减少手工操作的工作量，提高数据的准确性和一致性。同时，通过无代码、低代码数据接入，使用可视化界面和图形化工具简化数据接入的过程，这种方式可减少员工对技术专业知识的依赖，使更多人能够参与到数据预处理中。

2.图谱生成

针对图谱的生成，技术团队尝试了大量经典基线模型算法，并进行了对比与改进，终确定了员工赋能平台的算法实现方向，表1为经典算法与员工赋能平台采用算法的对比情况。图谱生成的具体过程包括实体抽取、关系抽取、实体对齐、链接预测等。

表1 经典算法与员工赋能平台采用算法对比情况

(1)实体抽取

在实体抽取部分，技术团队使用“BERT预训练模型+BiLSTM+CRF算法模型”。经典的实体抽取算法如“Word2vec模型+LSTM+CRF”，将实体抽取看作文本序列标注问题，先通过Word2vec模型获得文本的初始嵌入向量，再利用LSTM对向量进行小范围的二次聚合，后用CRF替代Softmax，对标注结果进行规则上的限制。这类经典算法存在一些问题：一是Word2vec模型生成的词向量均为静态词向量，扩展性不强，且生成速度较慢。LSTM模型虽然在小范围内可以对文本向量进行再次聚合，但聚合方向为单向，其能力也有待进一步提升。二是经典算法将实体对齐任务视为序列标注问题，在面对小样本学习和可持续学习的任务时表现乏力。然而，证券公司的数据分散在不同业务领域，种类较多、流量较大，需要实时更新、持续学习，部分领域还可能存在数据量较小的情况，所以使用经典算法效果欠佳。

“BERT预训练模型+BiLSTM+CRF算法模型”可以在保持轻量级的同时克服上述问题。首先，使用BERT预训练模型替换Word2vec模型，可以生成句子级别的文本表示，同时考虑了多个单词之间的语义关系。此外，BERT可以通过微调来适应不同的任务和数据集，从而提高模型的性能和泛化能力，赋予词特征向量灵活性，并减少系统开销。BiLSTM可以同时考虑前向和后向的上下文信息，从而更好地捕捉序列中的依赖关系。在财报、年报、财经新闻等自然语言信息中，前后文信息对于理解信息的含义非常重要，因此，双向考虑可以提高模型的准确性和泛化能力。经典算法与员工赋能平台采用算法实体抽取实验数据对比情况见表2，其中准确率、召回率、F1值是考量模型表现的重要指标，其数值越高说明模型精度越高。

表2 实体抽取实验数据对比情况

(2)关系抽取

在关系抽取部分，技术团队使用OpenAI开源的GPT2大语言模型进行预训练和微调。GPT模型可以通过预训练和微调的方式来完成关系抽取。在预训练阶段，GPT模型通过大规模的文本数据训练具备了广泛的语言知识和语义理解能力，这些知识和能力可以在关系抽取任务中得到充分应用。在微调阶段，GPT模型根据不同的关系抽取任务要求进行微调和优化，从而实现更加精准的关系抽取。在具体实践中，技术团队首先使用大规模语料文本对GPT模型进行预训练，为模型赋予语义理解、文本生成、结构生成的能力;然后使用财经、金融领域数据集在预训练模型上根据员工赋能平台的需要进行微调。

经过实体抽取和关系抽取得到结构化知识图谱数据后，还需要对数据进行进一步补全和过滤。通过NLP技术构建的知识图谱，一方面可能存在遗漏的三元组，即两个关联实体间缺少关系连接;另一方面，由于汉语一义多词的现象，可能存在重复的同义实体。以上情况都会影响知识图谱的信息准确性，破坏知识图谱的结构化特性，进而影响下游任务，因此要通过链接预测和实体对齐技术，对知识图谱实体进行对齐和补全。

(3)实体对齐

技术团队采用MuGNN算法进行实体对齐，MuGNN是一种用于知识图谱中实体关系抽取的先进的多粒度图神经网络模型，其主要特点是使用了多粒度的图表示学习算法，将知识图谱中的实体和关系表示为多层次的图结构，每个层次的图结构都对应一种不同的粒度，可以捕捉不同层次上的语义信息和关系。MuGNN实体对齐模型结构如图2所示。

图2 MuGNN实体对齐模型结构

MuGNN模型的输入信息构成了进行实体抽取和关系抽取之后的知识图谱，其中包含实体和关系的信息。MuGNN模型将知识图谱表示为一个多层次的图结构，每个层次的图结构都对应一个不同的粒度。在每个粒度上，MuGNN模型都使用MG-GCN进行特征提取和表示学习。同时，MuGNN模型还使用自适应注意力机制将不同粒度的特征融合起来。技术团队通过使用多任务学习策略训练MuGNN模型，以提高模型的泛化能力和效果，这一策略可以在多个任务之间共享模型参数，从而使模型可以同时处理多个任务。相较于传统的单粒度图神经网络模型，MuGNN模型在员工赋能平台的知识图谱实体对齐任务中表现出色。

(4)链接预测

技术团队在链接预测的三元组分类问题上采用了“T5-large模型+Prompt技术(KGT5模型)”，通过将三元组分类问题转化为文本生成问题，使用“T5-large模型+Prompt技术”进行训练和推理。T5-large模型是一种由Google开发的大型预训练语言模型，可以用于多种NLP任务，包括文本生成、问答系统等。Prompt技术是一种将任务描述嵌入模型输入中的技术，可以帮助模型更好地理解任务要求。KGT5模型推理过程如图3所示。

图3 KGT5模型推理过程

技术团队采用编码器—解码器结构，将T5模型的编码器作为输入层，将输入的实体和关系表示为向量形式。相比于传统的链接预测算法，KGT5模型推理方法具有更好的扩展性和适应性，能够更好地完成不同领域和数据量的链接预测任务。此外，KGT5模型还显著降低了参数量，在节省资源开销的前提下提升了模型泛化能力和精度，这使得该模型具有很高的实用价值。

3.知识图谱的更新和维护

知识图谱的定期自动化更新和维护主要通过不断从各种网络资源和结构化数据源中抽取新信息来实现。由于金融信息具有时效性和安全性较高等特点，技术团队采用以下技术对知识图谱进行更新和维护，以保证信息安全有效。

(1)数据清洗

技术团队从公司数据仓库各种数据源中抓取数据，并采用数据清洗技术进行数据处理和转换，使其符合知识图谱的格式和要求。数据清洗分为数据去重、数据标准化、数据转换等多个步骤，以确保知识图谱中的数据质量和准确性。

(2)知识生成

对于抓取和清洗的新信息，技术团队使用上文提到的知识生成技术扩展和补充知识图谱中的实体和关系，并对通过实体抽取、关系抽取构建的新知识图谱进行质量监控和修正，以保证知识图谱的质量。

(3)定期删除

技术团队通过人工审核和自动化模型等方式进行信息删除。使用ARIMA模型利用时间序列分析技术对某些信息的变化趋势进行预测，从而判断其是否已经过期。该模型可以用于分析时间序列数据的趋势、季节性和周期性等规律，利用已有的时间序列数据预测未来的趋势。如果发现某些信息的趋势已经不再变化，则可以判断该信息已经过期。

(4)可视化和查询接口

图形化界面和查询接口可以使用户更加方便地使用和查询知识图谱中的信息和知识。通过图形化界面，用户可以直观地浏览和操作知识图谱中的实体和关系;通过查询接口，用户可以根据个性化需求查询知识图谱中的信息和知识。同时，系统也可以通过用户的反馈自动更新和维护知识图谱，以不断提高知识图谱的质量和价值。

大语言模型的发展日新月异，垂直领域知识图谱构建的简易性将不断提高，知识图谱作为外挂知识库可以为大语言模型提供准确、有关联、可解释的背景知识，极大推动大语言模型在垂直领域的落地。未来，知识图谱与大语言模型的融合应用具有广阔前景，将对证券公司的智能化发展产生深远影响。

作者：中信建投证券股份有限公司信息技术部潘建东王赵鹏马张晖尹序鑫刘国杨

本网站案例，除特殊标明来源的，版权归金科创新社所有，未经许可不得转载，否则将视为侵权，对于不遵守此声明或者其他违法使用本文内容者，本网站依法保留追究权。另，本网站部分案例、观点文章来源于网络素材，如有侵权，请邮件联系 fenglei@fintechinchina.com 处理！
特别提示: 本网站免费为广大金融企业提供IT选型咨询服务，详情点击【需求提交】。