编辑 | Z
2022年10月30日,ChatGPT的横空出世,仅用几天的时间就改变了包括学术界在内的各行各业的,在OpenAI的成果的光辉下,有一个独特的模型,来自Meta团队的Galactica在ChatGPT三天前上线就被迫下线,这一度成为了LeCun教授的意难平。
顺着LeCun的意难平,来自上海交通大学的团队,将这一颇具潜力的模型引入到了地球迷信范畴。
使用Galactica作为基座的地学模型
首先让我们回顾一下Galactica。Galactica最初在⼤量的迷信⽂献上进⾏预训练,包括超过 4800 万篇论⽂、教科书、讲义、数百万种化合物和蛋⽩质常识、迷信⽹站、百科全书等。
虽然Galactica⽣成的⽂本存在⼀定的不严谨性,但由于其在处置学术⽂献等问题上具有先天的优势,因此仍然是某些场景下合适的选择。
上海交通大学团队在五月份推出70亿参数的地学⼤语⾔模型K2(https://github.com/davendw49/k2)之后,于七⽉份正式完成了300亿参数的地学⼤语⾔模型GeoGalactica的训练。
Galactica的训练语料库主要涵盖与计算机迷信和⽣物化学相干的⽂献,相对⽽⾔地球迷信范畴的覆盖较少,为了丰富Galactica在地球迷信范畴的专业常识,他们收集了⼤约600万篇专⻔针对地球迷信的研究论⽂,这些论⽂由地学范畴的专业专家精⼼挑选。
此外,GeoGalactica还扩展了鉴于K2的GeoSignal数据集,以更全⾯地⽀持地球迷信研究中的⾃然语⾔处置恣意,扩展后的数据集⽤于进⼀步预训练后的模型微调。
通过不断的改进和训练,GeoGalactica作为其更进一步探索大语言模型在地学范畴的能力的演进版本展现出了更⾼⽔平的地学的迷信语⾔⽣成能⼒。
市⾯上涌现出诸如GeoGPT、SkyGPT、SpaceGPT等⾃然迷信⼤模型,进⼀步凸显了地球迷信等自然迷信范畴的多样性和复杂性。这⼀系列模型的问世为地学研究提供了新的视⻆和⼯具。
目前,关于GeoGalactica的文章已经以技术报告的形式放在了arXiv上,代码和相干资源也在Github上公开。
Paper: https://arxiv.org/abs/2401.00434
Code: https://github.com/geobrain-ai/geogalactica
在地学这一博大精深的范畴中,GeoGalactica大模型以其更贴近地球迷信专业常识的特色,成为了地球迷信范畴学生和研究者的新利器。它不仅继承了Galactica模型在学术问答方面的先进性,更专注于为地球迷信迷信家们解读和摘要迷信论文,提升研究效率。
今天,我们将深入了解GeoGalactica如何利用大数据和机器学习技术,辅助地学专家高效获取信息,提炼常识精华,同时在AI伦理的框架内稳步发展,推动迷信的进步。虽然Galactica的航程遭遇暂时挫折,但GeoGalactica承载着其理念,继续在迷信的海洋中破浪前行。
图:GeoGalactica模型的全貌。本图主体由Midjourney绘制,经手动微调后完成。整个画面由不同地貌的场景组成,突出GeoGalactica大模型在地学信息处置方面的垂类特色,图像逐步从具象的自然和人造景观转化为抽象的数据和信息流,寓意信息从原始形态向数字化转换的进程。
GeoGalactica的数据处置和准备
首先,GeoGalactica在⼤约600万篇专⻔针对地球迷信的研究论⽂,这些论⽂由地学范畴的专业专家精⼼挑选。加上原本的arXiv的论文以及代码数据,累计使用了65B Tokens的语料。
在这个进程中,交大团队还开源了他们进行数据处置的脚本(https://github.com/davendw49/sciparser),下图展示了脚本处置的效果,同K2模型一样,所有的数据均转换成Markdown的形式进行训练。
此外,GeoGalactica还扩展了鉴于K2的GeoSignal数据集,鉴于上海交通大学团队的若干平台项目以及8个地学的开源平台。他们将这些结构化网站进行重构,构建了一批SFT的训练数据。
经过一系列的数据构建,最后我们可以看到训练数据的多样性:
DCU集群的训练
Further Pretraining
借助Megatron-LM框架,GeoGalactica在鉴于Hygon DCU架构的超级计算集群上,对Galactica模型进行在专业地学语料上进行了更进一步的预训练,以增强其在专业范畴的理解和⽣成能⼒。
计算集群包括512个节点,每一个节点配备了32核CPU、128GB内存和4个DCU加速卡,每一个卡具有16GB内存。总共调用了2048个加速卡,其中每一个卡提供的计算能⼒约为NVIDIA A100 GPU的0.2倍。
为了最⼤限度地提⾼GPU性能,同时最⼩化通信开销,Megatron-LM框架在训练进程中采⽤了各种并⾏策略,如流⽔线并⾏、模型并⾏和数据并⾏。考虑到每一个节点有4个加速卡,为了⾼效的模型并⾏执⾏,模型并⾏⼤⼩为4。
此外,当使⽤迷你批处置⼤⼩为1时,设置流⽔线并⾏⼤⼩等于或⼤于16,以充分利⽤可⽤的内存资源。
Supervised Fine-Tuning
为了使模型适应一定的恣意或在某些范畴提⾼其性能,交大团队在预训练之后,对GeoGalactica使⽤自研GeoSignal v2数据集,进⾏SFT。这个进程使模型能够适应一定恣意或在某些范畴提⾼性能。
GeoGalactica使⽤SFT来提⾼预训练模型模型在地球迷信恣意上涉及专业常识的问答能力。这⼀进程对于有效地将high-level语⾔能⼒转移到地球迷信一定恣意以及保持预训练期间获得的模型泛化性能⾄关重要。
GeoGalactica进⾏了两个阶段的SFT。在第⼀阶段,通过Alpaca指令微调数据将模型与⼈类进⾏了对⻬,⽽在第⼆阶段
使⽤了继承自K2大模型并进一步完善的GeoSignal v2。SFT的训练曲线如下:
Tool Learning
此外,模型可以被设计成与各种⼯具(⽐如浏览器、数据库或其他软件界⾯)交互并从中学习。模型可以执⾏需要外部信息或一定功能的更复杂的恣意。
为了让地球迷信范畴的⼤规模模型能够充分利⽤⼯具API的功能,GeoGalactica鉴于ToolBench数据集构造了一批地学文献搜索工具的训练数据并和ToolBench中的相干工具数据一并作为SFT数据。训练数据在提示词中明确了⼯具的描述以及相应的API参数说明。模型训练完成后,模型会在对应提示词的引导下调用相干的工具。
对于给定的问题,GeoGalactica⾸先输出相干的API调⽤(思考、动作、动作输⼊),以获取外部⼯具返回的结果。然后,这些结果被⽤作观察,反馈到模型中,⽣成新⼀轮迭代所需的新思考、动作和动作输⼊(如果需要进⼀步的⼯具调⽤)。这个进程⼀直持续,直到模型收集到⾜够的信息并输出最终答案。
此次交大团队公布的论文还详细记录了从continue-pretraining到tool learning整个进程中的训练细节,甚至包括了各种试错经历。
Galactica还行,GeoGalactica可以!
为了评价GeoGalactica对地学迷信常识的掌握程度,评价分为两部分。⾸先是沿用在K2开发进程中积累的GeoBench进⾏⾃动评价,其次是在地学迷信范畴的⼦恣意上进⾏的⼈⼯评价。
自动评价
在⾃动评价部分,上海交通大学团队使⽤了GeoBench和MMLU进行评价。其中GeoBench是⼀个专⻔设计⽤于评价和测试⼤模型的地球迷信理解和能⼒的基准⼯具。它侧重于评价模型如何处置和⽣成涉及地理和地质信息的响应。可以观察到更⼤、更学术的模型优于NPEE这样倾向于学术研究的基准。
然⽽,他们在AP学习等基准测试中表现不佳,AP学习更倾向于基础教育。这种差异可能是由指导模型思考更⾼级常识的训练数据造成的。训练数据是学术研究成果,即论⽂,这可能会导致对基础常识的偏离和缺乏。
Galactica拥有300亿个参数,但在⼀般的基准恣意中,它的表现往往⽆法超过拥有70亿个参数的Llama,⽽建⽴在Galactica的GeoGalactica超越了建⽴在Llama之上的K2。
从MMLU结果可以明显看出,在处置了600万份与地球迷信相干的⽂献⽂档后,模型的一定技能,如代数、⽣物学、化学和数学,都得到了改善。这⼀现象似乎与关注数学地质学、⽣物地球迷信和化学地质学的论⽂有关,突显了地球迷信的跨学科性质。值得注意的是,可能是由于语料库中包含GitHub代码,机器学习能力也在训练之后得到了显著增强。
总体⽽⾔,与地球迷信密切相干的学科,包括与地质学及其⼦范畴有逻辑联系的学科,取得了显著进展。然⽽,与地球迷信⽆关的学科结果,如医学遗传学、医学和电⽓⼯程,表现都有所下降。除此之外,GeoGalactica和最初的Galactica在数学相干科⽬的平均表现相似。
人工评价
参考k2的⼈⼯评价中定义的开放性问题的评价指标:迷信性、正确性和连贯性。
迷信性:它表示⽣成的内容是否看起来像是地球迷信专业⼈员会说的话。
正确性:从地球迷信专家的⻆度来看,模型是否说服你,以及获取的信息是否正确。
连贯性:该指标⽤于评价模型的⼀致性和连贯性,即⽂本是否始终讨论一定主题并且读起来是否流畅。
每一个评价指标分成三个等级,分数越⾼越好。鉴于三个评价指标可以计算累积分数。评价参与者将从所有六个模型中收到相同输⼊的回复,专家评委将按照1、2、3、4、5和6的顺序对这些模型进⾏评分。
最后,将计算每一个模型的平均排名。具体的评价内容在论文中均有公开透明的记录。下面这边展示两个具体场景的实例展示:
名词解释
给论文命名
我们可以发现,这些问题是属于我们平时科研中经常遇到的,GeoGalactica继承Galactica的特征,在学术场景下是地学科研工作者又一探索的选择。
地学+AI的发展的速度越来越快
通过在⼴泛的地球迷信学术数据集上进⾏训练,并利⽤地球迷信范畴的常识密集型指令进⾏微调,GeoGalactica在地球迷信⾃然语⾔处置(NLP)恣意中表现优于现有模型。GeoGalactica得到了资深地球迷信家的验证,进⼀步证了它的有效性。
GeoGalactica的发布⽬标在于为推动⼈⼯智能在地球迷信范畴的发展做出积极贡献。在这个进程中,地学+AI的发展的速度越来越快,从之前的40年的时间间隔,到现在已经基本上做到了实时响应的效果。
结语
随着计算机科技的⻜速发展,地学范畴的⼤规模模型研究正经历着翻天覆地的变⾰。在计算机技术的引领下,地学⼤模型研发周期显著缩短。
GeoGalactica的快速诞⽣计算机的前沿技术可以很好的适配地学这样的自然迷信的范畴,极⼤地推动了地学范畴的前沿研究。
我们也期待,在未来有越来越多的垂直范畴的鉴于这些大模型的应用和探索!
关于Deep-time Digital Earth
GeoGalactica是继K2之后又一个在深时数字地球(DDE)国际大迷信计划的号召下,利用计算机的前沿技术深入地学范畴进行数据分析、恣意需求探索以及共商共建的科研项目。
DDE 国际大迷信计划是由中国地质大学王成善院士,中国迷信院地理迷信与资源研究所周成虎院士等中国地球迷信的迷信家领导的,致力于建设一个为应对全球科技挑战、支撑全球或者区域命运共同体提供社会所需常识的国际平台来实现聚合全球地学大数据,构建数据驱动的地球迷信发现的目的。