DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

金融范围为自然语言处理(NLP)模型带来了独特的挑战和机遇。当前,金融文本和数据的信息量和复杂性呈现爆炸式增长,一个强大、可靠的智慧金融系统可以满足多种不同用户群体的金融需要,例如辅助金融从业者完成行业阐明、时势解读、金融算计、统计阐明工作,为金融科技开发者完成情感阐明、信息抽取义务,帮助学生解答金融课题等,从而有效地提高金融范围工作和学习的效率。金融范围本身具有高度的专业性,语言模型一方面要处理复杂的金融语言,另一方面要保证知识储备的实时性和对金融文本内数据算计的准确性,故而过往的模型通常无法在该范围提供令人满意

金融范围为自然语言处理(NLP)模型带来了独特的挑战和机遇。当前,金融文本和数据的信息量和复杂性呈现爆炸式增长,一个强大、可靠的智慧金融系统可以满足多种不同用户群体的金融需要,例如辅助金融从业者完成行业阐明、时势解读、金融算计、统计阐明工作,为金融科技开发者完成情感阐明、信息抽取义务,帮助学生解答金融课题等,从而有效地提高金融范围工作和学习的效率。

金融范围本身具有高度的专业性,语言模型一方面要处理复杂的金融语言,另一方面要保证知识储备的实时性和对金融文本内数据算计的准确性,故而过往的模型通常无法在该范围提供令人满意的服务。金融范围迫切需要准确、高效的人工智能解决方案来有效处理金融行业的各种义务。而最新出现的大语言模型(LLM)在语言交互及各类 NLP 义务展现出的出色能力,为智慧金融系统的进一步发展和普及提供了新的思路。

复旦大学数据智能与社会算计实验室(FudanDISC)发布金融范围的大语言模型 ——DISC-FinLLM。该模型是由面向不同金融场景的 4 个模组:金融征询、金融文本阐明、金融算计、金融知识检索问答构成的多专家智慧金融系统。这些模组在金融 NLP 义务、人类试题、资料阐明和时势阐明等四个评测中展现出明显优势,证明了 DISC-FinLLM 能为广泛的金融范围提供强有力的支持。课题组开源了模型参数,并且提供了翔实的技术报告和数据建立样例。

主页地址:https://fin.fudan-disc.com

Github 地址:https://github.com/FudanDISC/DISC-FinLLM

技术报告:http://arxiv.org/abs/2310.15205

1. 样例展示

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                图1 金融征询示例

用户可以通过金融征询模组询问金融专业知识,提高学习效率,或是与模型展开金融主题的多轮对话,拓宽金融视野。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                图2 金融文本阐明示例

金融文本阐明模组可以帮助金融科技范围中的开发者们高效完成各类 NLP 义务,如抽取金融文本中的投资关系、金融实体等信息,以及阐明金融新闻、行业评论中的情绪倾向等。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                               图3 金融算计示例

金融算计模组可以帮助用户完成各类金融范围中的算计义务,如增长率、利率、平均值、BS 公式等,提高金融范围的数据阐明效率。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                 图4 金融检索知识问答示例

在金融知识检索问答模组中,模型将根据用户课题检索最新的新闻、研报、政策文件,紧跟时势热点和政策变动,给出符合国内外的形势发展变化的行业阐明、时势阐明、政策解读。

2. DISC-FinLLM 介绍

DISC-FinLLM 是基于我们建立的高质量金融数据集 DISC-Fin-SFT 在通用范围中文大模型 Baichuan-13B-Chat 上进行 LoRA 指令微调得到的金融大模型。值得注意的是,我们的训练数据和方法也可以被适配到任何基座大模型之上。

DISC-FinLLM 包含四个 LoRA 模组,它们分别用于实现不同的功能:

1. 金融征询:该模组可以在中国金融语境下,与用户展开关于金融话题的多轮对话,或是为用户解释金融专业的相关知识,是由数据集中的金融征询指令部分训练而来。

2. 金融文本阐明:该模组可以帮助用户在金融文本上完成信息抽取、情感阐明、文本分类、文本生成等 NLP 义务,是由数据集中的金融义务指令部分训练而来。

3. 金融算计:该模组可以帮助用户完成与数学算计相关的义务,除了利率、增长率等基本算计,它还支持统计阐明和包括 Black-Scholes 期权定价模型、EDF 预期违约概率模型在内的金融模型算计。这一模组是由数据集中的金融算计指令部分训练而来。

4. 金融知识检索问答:该模组可以检索与用户课题相关的金融新闻、研报和相关政策文件,结合这些检索文档,为用户提供投资建议、时势阐明、政策解读。它是由数据集中的检索增强指令部分训练而来。

模型的整体功能框架如图 5 所示。DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                     图5 模型在各种金融场景下服务于不同的用户群体

3. 方法:数据集 DISC-Fin-SFT 的组织

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                 图6 DISC-Fin-SFT数据集的组织过程

DISC-Fin-SFT 数据集总共包含约 25 万条数据,分为四个子数据集,它们分别是金融征询指令、金融义务指令、金融算计指令、检索增强指令。图 6 展示了数据集的整体组织过程,每个子数据集各有不同的组织方法和提醒词(prompt)。表 1 展示了每个部分的组织的数据量和数据长度信息,其中输入和输出长度指的是输入和输出的文本经过分词后的平均词数。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                表1 DISC-Fin-SFT数据统计

3.1 金融征询指令

金融征询指令数据来源于三部分:

1. FiQA。这是一个英文的金融问答数据集,其中答案部分的质量参差不齐。因此我们将 FiQA 中的所有课题翻译成中文后,使用 ChatGPT 重新生成课题的答案,来提高这一数据集的质量,提醒词如图 7 所示,上下文可根据需要选填。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                               图7 用于组织金融问答指令的零样本提醒模板

2. 金融名词解释。我们在网上收集了 200 多个金融范围的专业术语(如:杠杆收购),然后使用图 8 中的提醒词,令 ChatGPT 为这些专业词汇生成相应的问答对,用以训练模型对金融用语的理解。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                 图8 用于组织金融名词问答的小样本提醒模板

3. 经管之家论坛上的公开发帖。我们采用自聊天提醒(Self-chat Prompting)方法,按照图 9 中的提醒词,引导 ChatGPT 围绕帖子主题生成多轮的问答。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                 图9 用于组织多轮对话指令的零样本提醒模板

在以上过程中,我们精心设计的提醒词使得 ChatGPT 可以生成符合中国国情、立场、态度和语言风格的问答,这确保 DISC-FinLLM 能够提供符合中国金融语境的征询服务。

3.2 金融义务指令

金融义务指令数据分为两个部分:

1. 金融 NLP 数据集。该部分是通过手动提醒(Manually Prompting)方法,从已有的金融 NLP 数据集改编而来的,图 10 就是一个改编的例子。我们搜集了十余个开源的 NLP 中文数据集,义务上可以分为情绪阐明、信息抽取、文本生成、文本分类和翻译等几类。具体的 NLP 数据集信息参看表 2。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                图10 用于组织NLP义务指令的零样本和小样本提醒模板

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                        表2 金融NLP数据集统计

2. 金融无标签文本数据集。这是一个金融文本的阅读理解数据集。首先,我们从东方财富网收集了共 87k 个文章,包括金融新闻和研报摘要。然后,基于这些无标签文本中的段落,我们通过图 11 的提醒词生成(段落、课题、答案)三元组。最后,将三元组套入不同的指令模板,得到 “输入 – 输出” 指令对。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                               图11 根据无标签金融文本组织义务指令的提醒模板

3.3 金融算计指令

在金融算计中,表达式算计器、方程求解器、概率表、计数器四种对象可以帮助模型完成大多数的算计义务。四种对象的定义如表 3 所示,它们各有不同的调用命令、输入和输出。例如,算计器的命令是 [Calculator (expression)→result]。在这一部分,建立金融算计指令的目的就是训练模型在合适的时候调用这些对象解决数学课题。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                  表3 算计对象的定义

我们首先建立了一个种子义务库,其中的种子义务由三部分组成:根据金融考试人工改写的算计题、带有研报上下文的数据算计题、BELLE 数据集中校园数学部分的通用数学题。特别地,根据 Toolformer 的方法,这些课题的答案中插入着上述四个对象的调用命令,它们代表着调用对象的方法和时机。随后,为了增加数据的数量和多样性,我们通过小样本思维链提醒(Few-shot Chain-of-Thought Prompting)方法,让 ChatGPT 在图 12 中提醒词的引导下,根据种子义务生成超过 5 万个新问答对,其中的答案也带有插件命令。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                               图12 用于组织金融算计指令的提醒模板

3.4 检索增强指令

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                             图13 检索增强指令的组织过程

如图 13 所示,检索增强指令的组织分为三步。第一步,我们根据新闻和研报等金融文本组织金融阐明课题。第二步,我们在知识库中检索与课题有关的若干文档,并随机加入一些无关文档,以训练模型对有效信息的甄别能力,这些参考文档源于我们建立金融知识库,包含 18k 研报和 69k 金融新闻。第三步,我们将课题和参考资料结合在一起,生成课题的答案。在这个过程中,课题和答案是由 ChatGPT 通过检索链提醒(Chain-of-Retrieval Prompting)方法生成的。

最终我们建立了一个包含 20k 条检索增强指令的数据集,其中的指令涵盖了金融范围中主要的阐明形式,包括行业阐明、政策阐明、投资建议、公司战略规划等。

4. 实验

4.1 多专家训练框架

针对金融范围的不同功能,我们采用了多专家微调的训练策略。我们在特定的子数据集上训练模型的各个模组,使它们彼此互不干扰,独立完成不同义务。为此,我们使用 DDP 技术的 Low-rank adaption(LoRA)方法高效地进行参数微调。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                       图14 DISC-FinLLM的多专家微调框架

具体来说,我们以 Baichuan-13B 为基座模型,通过数据集的四个部分,分别训练 4 个 LoRA 专家模组,如图 14 所示。部署时,用户只需更换在当前基座上的 LoRA 参数就可以切换功能。因此用户能够根据使用需求激活 / 停用模型的不同模组,而无需重新加载整个模型。4 个 LoRA 专家模组分别如下:

1. 金融顾问:该模型用于多轮对话。由于我们的金融征询指令数据十分丰富,该模型可以在中国的金融语境下做出高质量的回答,为用户解答金融范围的专业课题,提供优质的征询服务。

2. 文件阐明师:该模型主要用于处理金融自然语言处理范围内的各种义务,包括但不限于金融文本中的信息抽取、情绪阐明等。

3. 财务会计师:DISC-FinLLM 支持四种对象,即表达式算计器、方程求解器、计数器和概率表。这些对象支持我们的模型完成金融范围的大多数的算计义务,如金融数学建模、统计阐明等。当模型需要使用对象时,它可以生成对象调用命令,然后中断解码,并将对象调用结果添加到生成的文本中。这样,DISC-FinLLM 就可以借助对象提供的准确算计结果,回答金融中的算计课题。

4. 时势阐明师:我们在第四个 LoRA 中引入检索插件。DISC-FinLLM 主要参考了三类金融文本:新闻、报告和政策。当用户问及时势、行业趋势或金融政策等常见金融话题时,我们的模型可以检索相关文件,并像金融专家一样展开阐明并提供建议。

4.2 评测

我们建立了一个全面的评价框架,从各个角度严格评价我们的模型。该评价框架包括四个不同的组成部分,即:金融 NLP 义务、人类试题、资料阐明和时势阐明。这一评价框架全面地证明了我们模型能力和训练数据的有效性。

4.2.1 金融 NLP 义务评测

我们使用 FinCUGE 评价基准测试模型处理金融 NLP 义务的能力。我们评价了其中的六项义务,包括情感阐明、关系抽取、文本摘要、文本分类、事件抽取和其他义务,它们分别对应着 FinFE、FinQA、FinCQA、FinNA、FinRE 和 FinESE 六个数据集。我们通过提醒模板将这个数据集改造为小样本(few-shot)形式,然后使用常用的准确度(Accuracy)、F1 和 Rouge 指标评价模型的表现,来衡量模型在金融范围中理解文本和生成相关回答的能力。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                 表4 BBT-FIN基准上的实验结果

表 4 中展示的是,使用我们的金融义务指令数据微调不同基线模型前后的评测结果。从 Baichuan-13B-Chat、ChatGLM1 和 ChatGLM2 模型上不难看出,微调后模型的平均成绩比未经训练的基座模型高 2~9 分不等,表现显然更加出色。特别地,我们的数据集没有涵盖评价集中包含的某些 NLP 义务,这更说明我们建立的数据可以有效增强模型金融范围义务中的表现,即使是面对没有训练过的义务的时候。

4.2.2 人类试题评测

我们使用了 FIN-Eval 基准评价模型在回答真人生成课题上的能力,这个基准涵盖了金融、经济、会计、证书等学科的高质量多项选择题。我们以准确度为指标,来衡量模型的表现。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                  表5 FIN-Eval基准上的实验结果

我们对四个 LoRA 微调模型,和使用 DISC-Fin-SFT 全体数据微调的模型都进行了测试,比较模型包括 ChatGPT、GPT-4、Baichuan、ChatGLM2、FinGPT-v3 等。表 5 展示了各个模型在人类试题评测中的结果。相比之下,我们模型的平均结果仅次于 ChatGPT 和 GPT-4。与未经训练的 Baichuan-13B-Chat 模型相比较看,DISC-Fin-SFT 中的每一类指令,都有助于提高模型在人类试题评测上能力。从 FinGPT 的测评结果看,我们也比其他的金融大模型表现要好。从消融实验看,在 Baichuan-13B-Chat 模型上使用全部数据集微调后,获得的评测结果显著下降,这体现了对每个义务使用特定数据的 LoRA 微调的必要性。

4.2.3 资料阐明评测

我们手动组织了一个由 100 个财经算计题组成的数据集,用于评价模型在算计义务中的能力。这些测评课题改编自中国行政职业能力测验中的材料阐明算计题,包括算计同比增长率和产值比例等。我们根据模型给出算计公式和算计结果的正确率来评价模型的表现。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                    表6 算计插件的评价结果

表 6 展示了我们模型在算计义务方面取得的显著改进。与基线模型相比,我们的模型中添加了算计插件,显著提高了性能,评测结果超过 ChatGPT 0.09 分,突出了我们的方法在解决金融算计课题上的有效性。

4.2.4 时势阐明评测

此方法基于 GPT-3.5 模型作出评价。我们建立了一个金融课题数据集,其中的课题需要模型使用最新信息来获得准确答案。然后我们在谷歌等搜索引擎中手动搜索与每个课题相关的多个参考文段。该数据集旨在评价出模型在回答金融课题时检索信息的相关性和准确性,我们用四个指标评价模型的表现:

1. 准确性:提供的建议或阐明是准确的,没有事实错误(假设参考文本是正确的),结论不是随意给出的。

2. 实用性:模型可以结合参考文本,对金融范围的课题提供清楚、实用的阐明。

3. 语言质量:模型可以正确理解课题,并在金融范围产生简洁、专业的答案。

4. 思考性:模型根据参考文献,由自己的思考阐明得出结论,而不是简单地抄袭原文。

DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架

                                 表7 检索插件的评价结果

表 7 表明我们模型的评测结果在所有指标上都明显更高,证明了检索增强指令数据训练为模型带来了明显的优势。

5. 总结

我们基于多专家微调框架建立了一个强大的中文智慧金融系统 ——DISC-FinLLM。我们根据四种特定义务的指令数据微调我们的模型,分别训练了四个面向不同金融场景的专家模组:金融征询、金融文本阐明、金融算计、金融知识检索问答,以提高其在金融 NLP 义务、人类试题、算计义务和检索义务中的性能。同时,我们的评价结果证明了我们模型在金融范围的可靠性。DISC-FinLLM 为大语言模型在金融征询、投资阐明和风险评价上的应用开辟了可能性,将为更为广泛的用户群体带来高效、可靠的金融服务支持。

给TA打赏
共{{data.count}}人
人已打赏
应用

讯飞星火降级 3.0:整体逾越 ChatGPT,2024 年将完成对标 GPT-4

2023-10-25 14:06:00

应用

低成本快速入局大模型,你需要学下向量数据库

2023-10-25 14:59:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索