服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。

研究表明金融市场对于新闻事件的反应具有滞后性,并且相同事件对不同股票在不同时间段内的影响程度都是有差异的。如何将富含信息量的新闻事件融合进量化投资模型中是工业界与学术界面临的共同挑战。针对上述问题,瞰点科技与上海交大研究团队共同研发了基于知识图谱的事件表征框架来服务于量化投资模型策略。该成果发表于 ACM SIGIR 中,由于在表征中嵌入了金融领域知识图谱,所以使用上述表征构建的投资策略在真实股票市场中获得了良好的收益表现。

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

简介

金融市场的价格波动是对新闻和事件的一种反应。通常来说,从海量新闻中获取有效的事件表征能辅助投资者采取更合理的决策。近年来,一些研究开始应用自然语言处理(NLP)技术来学习新闻事件的分布式表征并基于此构建事件驱动的交易策略。

经典方法(例如 bags-of-words、命名实体)可以捕获事件元组中的基础特征,但是这些特征并没有反应事件之间的内在关系。随着表征学习和 NLP 技术的发展,研究者开始利用深度学习等技术来表征结构化事件,这样相似的事件即可以在特征空间中更加接近。然而股票的价格波动不仅取决于其自身的情况,与其关联的企业所涉及的事件也高度相关。因此,如何从这种彼此关联的事件信息中学习有效表征是量化投资领域的重要课题。

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

论文地址:https://dl.acm.org/doi/abs/10.1145/3397271.3401427

在本文中,瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,我们称之为 Knowledge Graph-based Event Embedding Framework(KGEEF)。该框架首先从原始新闻文本中提取结构关系和事件元组,将关系知识和属性知识存储在金融知识图谱(FinKG)中,其中节点表示实体,边对应实体之间的关系。随后,KGEEF 将知识图谱与事件一起学习联合表征,用于后续量化投资预测模型。最后,通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。

模型和方法

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

图 KGEEF 框架

本文提出的方法主要包含三层:

1)多源输入层:将原始文本转换为事件元组(Event Tuple)、关系元组(Relation Tuple)和知识图谱(FinKG)。本文使用序列学习模型来检测新闻文本中的实体关系,然后将检测出的实体关系存储在知识图谱中。

2)事件表征学习层:将预训练的事件元组、关系元组和节点在知识图谱中的表征作为输入,得到事件层(Event Layer)、图谱层(Graph Layer)、关系层(Relation Layer)的中间特征。随后使用 Multi-source Attention 网络学习多个来源的共同特征作为输出。

3)检测与优化层:以实体、事件和图谱特征为输入,学习其是一个真实事件或关系的可能性,并且采用事件损失和关系损失联合优化的方法对模型进行训练。

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

图 量化投资事件表征工作流

上图展示了量化投资事件表征的工作流程,主要包含四个模块:

历史语料库图谱建设模块(KG Construction):通过关系检测模型从原始新闻语料库生成实体关系。如果检测到关系,则在知识图谱中储存下来。

事件表征学习模块(Event Presentation Learning):该模块以事件和知识图谱作为输入,生成训练好的模型以及相应的表征词典。

新事件处理模块(New Event Process):从新闻数据中提取事件元组,然后利用构建的知识图谱和表征词典获得相应事件和实体的特征。

量化投资模块(Quantitative Investment):以事件和图谱的联合特征作为输入,输出用于量化投资的预测推断。

实验

最后,该研究通过实验来评估 KGEEF 的有效性,下表中展示了事件相似度评价和量化投资任务中事件表征的有效性实验结果。

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

表 事件表征相似度任务结果

KGEEF 框架同时也部署到了新闻资讯平台的微信小程序中,下图展示了其运行的效果。

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

图 模型在移动程序的部署

图 (a) 显示了聚合之后的热点新闻事件。图 (b) 展示了中国石油天然气集团公司 (CBPC: 601857) 的价格以及模型抽取出的相应事件。在相关事件视图(c)中,该研究的模型同时抽取出了关于塔里木油田 (上游工厂)、中国海洋石油总公司(竞争对手) 和熔喷布 (石化工业下游产品) 需求增加的消息。该例子展示了本文提出的模型在事件自动抽取和表征方面的有效性。

结论

金融事件的高质量表征对于事件驱动的量化投资具有重要价值。在本文中,瞰点科技研究团队提出了基于知识图谱的事件表征框架,用于学习金融领域中的事件和实体间的内在关系,例如产业链上下游关系。并且通过实验验证了所提出的方法在金融事件检测、量化投资策略构建等方面的有效性。

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

参考文献

[1]. Yao, Liang, Chengsheng Mao, and Yuan Luo. "Graph convolutional networks for text classification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

[2]. Kewei Hou. 2007. Industry information diffusion and the lead-lag effect in stock returns. The Review of Financial Studies 20, 4 (2007), 1113–1138.

[3]. Swarnadeep Saha et al. 2018. Open information extraction from conjunctive sentences. In Proceedings of the 27th International Conference on Computational Linguistics. 2288–2299.

[4]. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2124–2133.

[5]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 4171–4186.

[6]. Shirui Pan, Jia Wu, Xingquan Zhu, Chengqi Zhang, and Yang Wang. 2016. Triparty deep network representation. Network 11, 9 (2016), 12.

[7]. Aditya Grover and Jure Leskovec. 2016. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864.

相关资讯

达观电网故障知识图谱,三大功能全面提升电网故障处置效率

达观推出电力故障模式知识图谱,借助自然语言处理、深度学习、图计算等智能化技术从非结构化的故障处置文档中抽取出故障相关知识,并将这些知识组织成结构化、可视化的表示形式。

知识图谱构建下的自动问答KBQA系统实战

目前工程落地实现问答的技术路线基本分为基于知识图谱的问答(KBQA)、基于阅读理解的问答(MRC)和常见问题问答(FAQ)三种模式

大型语言模型与知识图谱协同研究综述:两大技术优势互补

多图综述理清当前研究现状,这篇 29 页的论文值得一读。