蚂蚁集团、浙江大学联合发布开源大模型知识抽取框架OneKE

近日,由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架OneKE宣布开源,并且捐赠给OpenKG开放知识图谱社区。知识图谱是实现大模型可信可控的关键技术之一,知识抽取可助力构建领域知识图谱。OneKE致力于帮助研究人员和开发者更好地处理信息抽取、文本数据结构化、知识图谱构建等问题。比如,通过OneKE抽取风险事件、人物实体、机构实体等可以清晰呈现事件脉络、事件发展趋势和实体之间关联,构建好的图谱可以帮助大模型实现跨实体、跨文档的复杂推理 。OneKE支持中英双语,支持OpenSPG及DeepKE开源框架,可开箱即用

近日,由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架OneKE宣布开源,并且捐赠给OpenKG开放知识图谱社区。

知识图谱是实现大模型可信可控的关键技术之一,知识抽取可助力构建领域知识图谱。OneKE致力于帮助研究人员和开发者更好地处理信息抽取、文本数据结构化、知识图谱构建等问题。

比如,通过OneKE抽取风险事件、人物实体、机构实体等可以清晰呈现事件脉络、事件发展趋势和实体之间关联,构建好的图谱可以帮助大模型实现跨实体、跨文档的复杂推理 。OneKE支持中英双语,支持OpenSPG及DeepKE开源框架,可开箱即用。

大语言模型已显著提升了人工智能系统处理世界知识的能力。然而,真实世界的信息高度碎片化、非结构化,使得大语言模型在处理信息抽取任务时,仍会因抽取内容与自然语言表述之间的巨大差异导致效果不佳;此外,自然语言文本信息存在较多的歧义、多义、隐喻等,给知识抽取任务带来较大的挑战。这也导致以大语言模型为代表的生成式人工智能依然存在推理能力不足、事实知识匮乏、生成结果不稳定等问题,极大地阻碍了大语言模型的产业化落地。 

统一知识抽取框架可大幅降低领域知识图谱的构建成本,有比较广阔的应用场景。这是指,通过从海量的数据中萃取结构化知识,构建高质量知识图谱并建立知识要素间的逻辑关联,可以实现可解释的推理决策,也可用于增强大模型缓解幻觉,并提升稳定性,加速大模型垂直领域的落地应用。

如,在医疗领域,通过知识抽取实现医生经验的知识化规则化管理,构建可控的辅助诊疗和医疗问答。在金融领域,知识抽取科用于金融指标、风险事件、因果逻辑及产业链等,实现自动的金融研报生成、风险预测、产业链分析等。在政务场景,可实现政务法规的知识化,提升政务服务的办事效率和准确决策。

加速推进生成式人工智能的产业落地,蚂蚁集团和浙江大学成立了知识图谱联合实验室,围绕大模型增强的知识图谱构建、知识增强的可信可控生成、领域常识世界图谱等课题展开全方位合作,以期通过联合技术攻坚构建大语言模型与知识图谱双向增强的可控生成技术范式。

蚂蚁集团和浙江大学联合构建和升级了蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架OneKE,同时开源基于LLaMA2全参数微调的版本。测评指标显示,OneKE在多个全监督及零样本实体/关系/事件抽取任务上取得了相对较好的效果。

蚂蚁集团、浙江大学联合发布开源大模型知识抽取框架OneKE

(OneKE具备相对较好的中英双语可泛化的知识抽取能力,其中在中文NER命名实体识别类任务、RE关系抽取类任务、EE事件抽取类任务上取得了相对较好的效果)

蚂蚁集团知识图谱负责人梁磊表示,蚂蚁将持续优化知识抽取的性能,服务不同场景的大模型可控、可信需求。未来也会携手行业伙伴,将相关的技术体系应用到金融、医疗、政务等各垂直领域,推动知识图谱与大语言模型双驱的可控生成技术的产业落地。

OneKE官方主页:http://oneke.openkg.cn/ 

OpenSPG GitHub:https://github.com/OpenSPG/openspg

相关资讯

一文详解BERT模型实现NER命名实体抽取

在自然语言处理和知识图谱中,实体抽取、NER是一个基本任务,也是产业化应用NLP 和知识图谱的关键技术之一。

国内百模大战正盛,海致科技推出首个知识图谱融合大模型应用平台

从 ChatGPT 引发的大众追捧到 “百模大战”,大语言模型和生成式 AI 正在以前所未有的速度改变人类的生活和生产方式。全球用户很快发现,在与大语言模型交互的过程中,会碰到它 “一本正经的胡说八道”,输出似是而非甚至荒谬的结果,这也在不断引发 C 端用户 “调侃” 大模型的 “狂欢”。然而,这种被称作 “大模型幻觉” 的技术特点却阻碍了它在 B 端和工业界的应用与发展。

服务量化投资,基于知识图谱的事件表征框架研究入选SIGIR

瞰点科技和上海交大的研究团队提出了一种服务于量化投资的基于知识图谱的事件表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实验表明,本文提出的方法显著有助于量化投资的策略提升。