地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

编辑 | Z2022年10月30日，ChatGPT的横空出世，仅用几天的时间就改变了包括学术界在内的各行各业的，在OpenAI的成果的光辉下，有一个独特的模型，来自Meta团队的Galactica在ChatGPT三天前上线就被迫下线，这一度成为了LeCun教授的意难平。顺着LeCun的意难平，来自上海交通大学的团队，将这一颇具潜力的模型引入到了地球迷信范畴。使用Galactica作为基座的地学模型首先让我们回顾一下Galactica。Galactica最初在⼤量的迷信⽂献上进⾏预训练，包括超过 4800 万篇论⽂、

编辑 | Z

2022年10月30日，ChatGPT的横空出世，仅用几天的时间就改变了包括学术界在内的各行各业的，在OpenAI的成果的光辉下，有一个独特的模型，来自Meta团队的Galactica在ChatGPT三天前上线就被迫下线，这一度成为了LeCun教授的意难平。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

顺着LeCun的意难平，来自上海交通大学的团队，将这一颇具潜力的模型引入到了地球迷信范畴。

使用Galactica作为基座的地学模型

首先让我们回顾一下Galactica。Galactica最初在⼤量的迷信⽂献上进⾏预训练，包括超过 4800 万篇论⽂、教科书、讲义、数百万种化合物和蛋⽩质常识、迷信⽹站、百科全书等。

虽然Galactica⽣成的⽂本存在⼀定的不严谨性，但由于其在处置学术⽂献等问题上具有先天的优势，因此仍然是某些场景下合适的选择。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

上海交通大学团队在五月份推出70亿参数的地学⼤语⾔模型K2（https://github.com/davendw49/k2）之后，于七⽉份正式完成了300亿参数的地学⼤语⾔模型GeoGalactica的训练。

Galactica的训练语料库主要涵盖与计算机迷信和⽣物化学相干的⽂献，相对⽽⾔地球迷信范畴的覆盖较少，为了丰富Galactica在地球迷信范畴的专业常识，他们收集了⼤约600万篇专⻔针对地球迷信的研究论⽂，这些论⽂由地学范畴的专业专家精⼼挑选。

此外，GeoGalactica还扩展了鉴于K2的GeoSignal数据集，以更全⾯地⽀持地球迷信研究中的⾃然语⾔处置恣意，扩展后的数据集⽤于进⼀步预训练后的模型微调。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

通过不断的改进和训练，GeoGalactica作为其更进一步探索大语言模型在地学范畴的能力的演进版本展现出了更⾼⽔平的地学的迷信语⾔⽣成能⼒。

市⾯上涌现出诸如GeoGPT、SkyGPT、SpaceGPT等⾃然迷信⼤模型，进⼀步凸显了地球迷信等自然迷信范畴的多样性和复杂性。这⼀系列模型的问世为地学研究提供了新的视⻆和⼯具。

目前，关于GeoGalactica的文章已经以技术报告的形式放在了arXiv上，代码和相干资源也在Github上公开。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

Paper: https://arxiv.org/abs/2401.00434

Code: https://github.com/geobrain-ai/geogalactica

在地学这一博大精深的范畴中，GeoGalactica大模型以其更贴近地球迷信专业常识的特色，成为了地球迷信范畴学生和研究者的新利器。它不仅继承了Galactica模型在学术问答方面的先进性，更专注于为地球迷信迷信家们解读和摘要迷信论文，提升研究效率。

今天，我们将深入了解GeoGalactica如何利用大数据和机器学习技术，辅助地学专家高效获取信息，提炼常识精华，同时在AI伦理的框架内稳步发展，推动迷信的进步。虽然Galactica的航程遭遇暂时挫折，但GeoGalactica承载着其理念，继续在迷信的海洋中破浪前行。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

图：GeoGalactica模型的全貌。本图主体由Midjourney绘制，经手动微调后完成。整个画面由不同地貌的场景组成，突出GeoGalactica大模型在地学信息处置方面的垂类特色，图像逐步从具象的自然和人造景观转化为抽象的数据和信息流，寓意信息从原始形态向数字化转换的进程。

GeoGalactica的数据处置和准备

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

首先，GeoGalactica在⼤约600万篇专⻔针对地球迷信的研究论⽂，这些论⽂由地学范畴的专业专家精⼼挑选。加上原本的arXiv的论文以及代码数据，累计使用了65B Tokens的语料。

在这个进程中，交大团队还开源了他们进行数据处置的脚本（https://github.com/davendw49/sciparser），下图展示了脚本处置的效果，同K2模型一样，所有的数据均转换成Markdown的形式进行训练。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

此外，GeoGalactica还扩展了鉴于K2的GeoSignal数据集，鉴于上海交通大学团队的若干平台项目以及8个地学的开源平台。他们将这些结构化网站进行重构，构建了一批SFT的训练数据。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

经过一系列的数据构建，最后我们可以看到训练数据的多样性：

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

DCU集群的训练

Further Pretraining

借助Megatron-LM框架，GeoGalactica在鉴于Hygon DCU架构的超级计算集群上，对Galactica模型进行在专业地学语料上进行了更进一步的预训练，以增强其在专业范畴的理解和⽣成能⼒。

计算集群包括512个节点，每一个节点配备了32核CPU、128GB内存和4个DCU加速卡，每一个卡具有16GB内存。总共调用了2048个加速卡，其中每一个卡提供的计算能⼒约为NVIDIA A100 GPU的0.2倍。

为了最⼤限度地提⾼GPU性能，同时最⼩化通信开销，Megatron-LM框架在训练进程中采⽤了各种并⾏策略，如流⽔线并⾏、模型并⾏和数据并⾏。考虑到每一个节点有4个加速卡，为了⾼效的模型并⾏执⾏，模型并⾏⼤⼩为4。

此外，当使⽤迷你批处置⼤⼩为1时，设置流⽔线并⾏⼤⼩等于或⼤于16，以充分利⽤可⽤的内存资源。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

Supervised Fine-Tuning

为了使模型适应一定的恣意或在某些范畴提⾼其性能，交大团队在预训练之后，对GeoGalactica使⽤自研GeoSignal v2数据集，进⾏SFT。这个进程使模型能够适应一定恣意或在某些范畴提⾼性能。

GeoGalactica使⽤SFT来提⾼预训练模型模型在地球迷信恣意上涉及专业常识的问答能力。这⼀进程对于有效地将high-level语⾔能⼒转移到地球迷信一定恣意以及保持预训练期间获得的模型泛化性能⾄关重要。

GeoGalactica进⾏了两个阶段的SFT。在第⼀阶段，通过Alpaca指令微调数据将模型与⼈类进⾏了对⻬，⽽在第⼆阶段

使⽤了继承自K2大模型并进一步完善的GeoSignal v2。SFT的训练曲线如下：

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

Tool Learning

此外，模型可以被设计成与各种⼯具（⽐如浏览器、数据库或其他软件界⾯）交互并从中学习。模型可以执⾏需要外部信息或一定功能的更复杂的恣意。

为了让地球迷信范畴的⼤规模模型能够充分利⽤⼯具API的功能，GeoGalactica鉴于ToolBench数据集构造了一批地学文献搜索工具的训练数据并和ToolBench中的相干工具数据一并作为SFT数据。训练数据在提示词中明确了⼯具的描述以及相应的API参数说明。模型训练完成后，模型会在对应提示词的引导下调用相干的工具。

对于给定的问题，GeoGalactica⾸先输出相干的API调⽤（思考、动作、动作输⼊），以获取外部⼯具返回的结果。然后，这些结果被⽤作观察，反馈到模型中，⽣成新⼀轮迭代所需的新思考、动作和动作输⼊（如果需要进⼀步的⼯具调⽤）。这个进程⼀直持续，直到模型收集到⾜够的信息并输出最终答案。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

此次交大团队公布的论文还详细记录了从continue-pretraining到tool learning整个进程中的训练细节，甚至包括了各种试错经历。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

Galactica还行，GeoGalactica可以！

为了评价GeoGalactica对地学迷信常识的掌握程度，评价分为两部分。⾸先是沿用在K2开发进程中积累的GeoBench进⾏⾃动评价，其次是在地学迷信范畴的⼦恣意上进⾏的⼈⼯评价。

自动评价

在⾃动评价部分，上海交通大学团队使⽤了GeoBench和MMLU进行评价。其中GeoBench是⼀个专⻔设计⽤于评价和测试⼤模型的地球迷信理解和能⼒的基准⼯具。它侧重于评价模型如何处置和⽣成涉及地理和地质信息的响应。可以观察到更⼤、更学术的模型优于NPEE这样倾向于学术研究的基准。

然⽽，他们在AP学习等基准测试中表现不佳，AP学习更倾向于基础教育。这种差异可能是由指导模型思考更⾼级常识的训练数据造成的。训练数据是学术研究成果，即论⽂，这可能会导致对基础常识的偏离和缺乏。

Galactica拥有300亿个参数，但在⼀般的基准恣意中，它的表现往往⽆法超过拥有70亿个参数的Llama，⽽建⽴在Galactica的GeoGalactica超越了建⽴在Llama之上的K2。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica

从MMLU结果可以明显看出，在处置了600万份与地球迷信相干的⽂献⽂档后，模型的一定技能，如代数、⽣物学、化学和数学，都得到了改善。这⼀现象似乎与关注数学地质学、⽣物地球迷信和化学地质学的论⽂有关，突显了地球迷信的跨学科性质。值得注意的是，可能是由于语料库中包含GitHub代码，机器学习能力也在训练之后得到了显著增强。

总体⽽⾔，与地球迷信密切相干的学科，包括与地质学及其⼦范畴有逻辑联系的学科，取得了显著进展。然⽽，与地球迷信⽆关的学科结果，如医学遗传学、医学和电⽓⼯程，表现都有所下降。除此之外，GeoGalactica和最初的Galactica在数学相干科⽬的平均表现相似。

地球迷信新视角：上交大团队推出300亿参数的地学学术型大模型GeoGalactica