达观智能文档审阅系统,推动证券非结构化文档处理提质提效

达观智能审阅系统,实现相关场景非结构化文档的识别解析、智能审核及与业务对接等,并通过平台化建设提供一定的可拓展性和泛化能力。

随着智慧证券的推动发展,利用OCR、NLP等先进技术解决基金确认单、托管划款指令、基金宣推材料审批、通用表格解析多类场景的非结构化文档的数据识别与处理,实现相关场景非结构化文档的识别解析、智能审核及与业务对接等,并通过平台化建设提供一定的可拓展性和泛化能力。实现提高业务自动化率、节省人力,提升业务办理效率、提高满意度,降低业务差错率、促进业务创新等目的

lQLPDhrrbzlCIIXNA-jNCS6w-nqyBpd4DQwBrvqHkYA2AA_2350_1000.png_720x720q90g

以某一线城市的证券经济管理部门业务为例,需要对基金公司发布的宣传海报里的过往业绩、基金评价、风险提示、股东背景等要素按照证监会要求进行审批。业务人员接收到的海报材料五花八门,且不同基金公司不同类型的样本质量参差不齐,使得业务人员花费大量时间在审核过程当中。

达观智能文档审阅系统可以从样本中找出关键审核要素,通过对现有业务痛点的深入分析,基于OCR、NLP、机器学习等金融科技能力构建非结构化文档智能审核平台,将非结构化文档数字化、结构化,实现内容的自动识别、智能提取、智能审核,在节省人工的基础上达到提质增效的目的。

lQDPDhrrbzR9bKHNAjzNBFOwsmlRv8kiRFwBrvp_9MC5AQ_1107_572.jpg_720x720q90g

智能文档关键要素抽取预审

以基金公司宣推海报为例:

1、通过全篇海报副文本提取,支持禁用词库灵活配置,机器智能审核海报语义合规性

lQDPDhrrbzR9bHPNAWjNAbWwMEBOlguynLoBrvp_9MA2AA_437_360.jpg_720x720q90g

禁用词库自由配置,可根据不同词性做词库归类与分级

2、针对宣推样本特点,针对性表格抽取模块,对表格进行规则抽取与组合抽取,将基金公司与业绩评价组合起来变成可能,通过模型增加召回率。

lQDPDhrrbzR9bH7NAjPNBFOw7ahP0E2jDxMBrvp_9UC8AA_1107_563.jpg_720x720q90g

灵活新增新的禁用词,次数代表该禁用词被击中的次数

3、通过字体、位置信息,“理解”文本,分辨出股东背景、风险提示、特殊基金等重要信息进行审核。

lQDPDhrrbzR9bH_NAkrNBFOwcu3rHtd3DgIBrvp_9MC5AA_1107_586.jpg_720x720q90g

根据证监会不同时期要求,对海报新增审核规则。规则分为逻辑 与必有必无规则,支持灵活配置与调整。

首先会进行机器预审,抽取原文绿色则是通过,红色则是预审不通过。并且在原文中会对关键元素高亮以及定位,快速定位问题核实结果。根据不同规则,在审核详情中清晰明了的展示审核依据,便于业务同事快速判断预审准确性。

截止2021年10月,达观智能文档审阅系统已完成对120多家基金公司的确认单解析,支持PPT、复杂类、一页通等七类宣推海报的解析与100多个关键要素的识别和抽取,通过智能识别、智能审批,有效节省业务人员的审核与比对的工作时间,并降低业务的差错率,真正实现了信息化、智能化办公。

相关资讯

消息称字节跳动马来西亚裁员超 700 人:内容审核转向 AI,TikTok 回应

感谢据华尔街日报今日报道,有市场消息称,字节跳动已经从其马来西亚分公司裁掉了 700 多名员工,原因是公司将重点转向更广泛使用 AI 进行内容审核。受影响的员工大多从事内容审核工作,并于周三晚通过电子邮件接到了解雇通知。对于此事,TikTok 回应称:“我们正在做出这些改变,作为我们进一步加强内容审核全球运营模式的持续努力的一部分。

百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业

一文详解BERT模型实现NER命名实体抽取

在自然语言处理和知识图谱中,实体抽取、NER是一个基本任务,也是产业化应用NLP 和知识图谱的关键技术之一。