服务量化投资,基于学问图谱的事务表征框架钻研入选SIGIR

瞰点科技和上海交大的钻研团队提出了一种服务于量化投资的基于学问图谱的事务表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模试验表明,本文提出的法子显著有助于量化投资的战略提升。

钻研表明金融市场对于消息事务的反应具有滞后性,并且相同事务对不同股票在不同时间段内的影响程度都是有差异的。如何将富含信息量的消息事务融合进量化投资模型中是工业界与学术界面临的共同挑战。针对上述问题,瞰点科技与上海交大钻研团队共同研发了基于学问图谱的事务表征框架来服务于量化投资模型战略。该成果发表于 ACM SIGIR 中,由于在表征中嵌入了金融领域学问图谱,所以使用上述表征建立的投资战略在真实股票市场中获得了良好的收益表现。

服务量化投资,基于学问图谱的事务表征框架钻研入选SIGIR

简介

金融市场的价格波动是对消息和事务的一种反应。通常来说,从海量消息中获取有效的事务表征能辅助投资者采取更合理的决策。近年来,一些钻研开始应用自然语言处理(NLP)技术来进修消息事务的分布式表征并基于此建立事务驱动的交易战略。

经典法子(例如 bags-of-words、命名实体)可以捕获事务元组中的基础特性,但是这些特性并没有反应事务之间的内在干系。随着表征进修和 NLP 技术的发展,钻研者开始利用深度进修等技术来表征结构化事务,这样相似的事务即可以在特性空间中更加接近。然而股票的价格波动不仅取决于其自身的情况,与其关联的企业所涉及的事务也高度相关。因此,如何从这种彼此关联的事务信息中进修有效表征是量化投资领域的重要课题。

服务量化投资,基于学问图谱的事务表征框架钻研入选SIGIR

论文地址:https://dl.acm.org/doi/abs/10.1145/3397271.3401427

在本文中,瞰点科技和上海交大的钻研团队提出了一种服务于量化投资的基于学问图谱的事务表征框架,我们称之为 Knowledge Graph-based Event Embedding Framework(KGEEF)。该框架首先从原始消息文本中提取结构干系和事务元组,将干系学问和属性学问存储在金融学问图谱(FinKG)中,其中节点表示实体,边对应实体之间的干系。随后,KGEEF 将学问图谱与事务一起进修联合表征,用于后续量化投资预测模型。最后,通过在真实股票市场上进行的大规模试验表明,本文提出的法子显著有助于量化投资的战略提升。

模型和法子

服务量化投资,基于学问图谱的事务表征框架钻研入选SIGIR

图 KGEEF 框架

本文提出的法子主要包含三层:

1)多源输出层:将原始文本转换为事务元组(Event Tuple)、干系元组(Relation Tuple)和学问图谱(FinKG)。本文使用序列进修模型来检测消息文本中的实体干系,然后将检测出的实体干系存储在学问图谱中。

2)事务表征进修层:将预训练的事务元组、干系元组和节点在学问图谱中的表征作为输出,得到事务层(Event Layer)、图谱层(Graph Layer)、干系层(Relation Layer)的中间特性。随后使用 Multi-source Attention 网络进修多个来源的共同特性作为输出。

3)检测与优化层:以实体、事务和图谱特性为输出,进修其是一个真实事务或干系的可能性,并且采用事务损失和干系损失联合优化的法子对模型进行训练。

服务量化投资,基于学问图谱的事务表征框架钻研入选SIGIR

图 量化投资事务表征工作流

上图展现了量化投资事务表征的工作流程,主要包含四个模块:

历史语料库图谱建设模块(KG Construction):通过干系检测模型从原始消息语料库生成实体干系。如果检测到干系,则在学问图谱中储存下来。

事务表征进修模块(Event Presentation Learning):该模块以事务和学问图谱作为输出,生成训练好的模型以及相应的表征词典。

新事务处理模块(New Event Process):从消息数据中提取事务元组,然后利用建立的学问图谱和表征词典获得相应事务和实体的特性。

量化投资模块(Quantitative Investment):以事务和图谱的联合特性作为输出,输出用于量化投资的预测推断。

试验

最后,该钻研通过试验来评估 KGEEF 的有效性,下表中展现了事务相似度评价和量化投资任务中事务表征的有效性试验结果。

服务量化投资,基于学问图谱的事务表征框架钻研入选SIGIR

表 事务表征相似度任务结果

KGEEF 框架同时也部署到了消息资讯平台的微信小程序中,下图展现了其运行的效果。

服务量化投资,基于学问图谱的事务表征框架钻研入选SIGIR

图 模型在移动程序的部署

图 (a) 显示了聚合之后的热点消息事务。图 (b) 展现了中国石油天然气集团公司 (CBPC: 601857) 的价格以及模型抽取出的相应事务。在相关事务视图(c)中,该钻研的模型同时抽取出了关于塔里木油田 (上游工厂)、中国海洋石油总公司(竞争对手) 和熔喷布 (石化工业下游产品) 需求增加的消息。该例子展现了本文提出的模型在事务自动抽取和表征方面的有效性。

结论

金融事务的高质量表征对于事务驱动的量化投资具有重要价值。在本文中,瞰点科技钻研团队提出了基于学问图谱的事务表征框架,用于进修金融领域中的事务和实体间的内在干系,例如产业链上下游干系。并且通过试验验证了所提出的法子在金融事务检测、量化投资战略建立等方面的有效性。

服务量化投资,基于学问图谱的事务表征框架钻研入选SIGIR

参考文献

[1]. Yao, Liang, Chengsheng Mao, and Yuan Luo. "Graph convolutional networks for text classification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

[2]. Kewei Hou. 2007. Industry information diffusion and the lead-lag effect in stock returns. The Review of Financial Studies 20, 4 (2007), 1113–1138.

[3]. Swarnadeep Saha et al. 2018. Open information extraction from conjunctive sentences. In Proceedings of the 27th International Conference on Computational Linguistics. 2288–2299.

[4]. Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Luan, and Maosong Sun. 2016. Neural relation extraction with selective attention over instances. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2124–2133.

[5]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 4171–4186.

[6]. Shirui Pan, Jia Wu, Xingquan Zhu, Chengqi Zhang, and Yang Wang. 2016. Triparty deep network representation. Network 11, 9 (2016), 12.

[7]. Aditya Grover and Jure Leskovec. 2016. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 855–864.

给TA打赏
共{{data.count}}人
人已打赏
AI

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

2021-8-20 12:18:00

AI

第一!科大讯飞再度革新Cityscapes世界纪录

2021-8-22 13:13:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索