编辑 | ScienceAI
随着庞大言语模型(LLMs)在迷信研究畛域的广泛利用,评价这些模型在理解和利用迷信常识方面的本领变得尤为重要,但是迷信畛域全面评价 LLMs 迷信常识的高级基准非常缺乏。
近日,来自浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,定义了 L1 到 L5 不同层级的迷信智能,共包含化学和生物畛域 50,000 个不同档次的迷信评测题目,并利用该数据集用于对 20 个开源和闭源 LLMs 进行基准测试。
其中,拥有千亿至万亿参数的通用大言语模型如 GPT-4o、Gemini1.5-Pro 和 Claude3-Sonnet 显露出色,整体本能大幅优于中小型开源模型,如 Qwen1.5 和 Llama3 等。
相干研究以《SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models》为题,发布在预印平台 arXiv 上。
论文链接:https://arxiv.org/abs/2406.09098
一般来说,同一系列的模型的大小与其本能成正相干,例如,Galactica-30B 的显露就明显优于 Galactica-6.7B。
作者还评测了一系列迷信专业畛域大模型,如上海交通大学、苏州实验室和思必驰联合研发的 ChemDFM-13B,以及上海人工智能实验室开发的 ChemLLM 系列等。
此类畛域大模型大都在开源模型基础上,利用迷信畛域语料进一步预训练,并进行经过精巧设计的微调所得。
在专业畛域常识测试中,此类畛域大模型整体显露优秀,特别是百亿参数的ChemDFM-13B,不仅全面领先其他开源模型,其化学水平也整体逼近 GPT-4o、Gemini1.5-Pro 等千亿甚至万亿参数的通用大模型,显示出垂域迷信大模型的优势。
表 1:化学畛域中 LLMs 五个级别的零样本显露
从评测结果还可以发现,L1-L4 的本能与 L5 的本能排名有时相差较大。在化学畛域最高级的 L5 级任意中,ChemDFM-13B 甚至全面超越了通用大模型。
为了探索这个现象出现的原因,进一步观察各个维度任意的组成情况,可以发现 L1-L4 任意大都是论文新构建的以选择题出现的新任意;而 L5 中的分子描述生成和分子生成两个任意是较为典型的化学人工智能模型任意。
由此可以认为,对于这些模型来说,L5 评测的是在已训练任意上的本领,而 L1-L4 则更多的评测 LLM 的通用本领(指令遵循和任意泛化的本领等)。
总而言之,基座大模型的 SFT 不一定能提升模型的本能,SFT 任意的选择和处理至关重要。
SFT 过程中的任意选择、组合和处理对大言语模型在迷信畛域的专业化起到了举足轻重的影响;而在构造 SFT 数据集的过程中,应该不仅仅考虑对迷信畛域相干本领的增强,也应尽量维持甚至提高模型的通用言语本领;从而确保模型拥有足够的指令遵循和任意泛化本领,在更广泛的迷信任意上取得更优异的显露。
附:
在 SciKnowEval 框架中,研究者通过五个递进的迷信常识档次来评价 LLMs 的迷信常识,包括广泛学习、认真探询、深入思考、准确判断和实际利用。每个档次都旨在评价 LLMs 在不同方面的迷信常识和利用本领。
图 1:SciKnowEval 框架设计思路
L1: 广泛学习(即常识覆盖)。主要评价庞大言语模型对不同迷信畛域常识的广泛掌握,主要考查模型的记忆和理解多种迷信概念的本领。
L2: 认真探索(即常识探询和探索)。关注庞大言语模型在迷信环境中进行深入探索和探索的本领,包括分析迷信文献、识别核心概念及提出相干问题。
L3: 深入思考(即常识反思和推理)。评价模型在批判性思维、逻辑推理、进行数值计算、预测功能以及通过反思性推理解决问题的本领。
L4: 准确判断(即常识辨识和安全评价)。涉及庞大言语模型基于迷信常识做出正确、安全及符合道德的决策本领,包括对信息的危害性和毒性进行评价,以及理解迷信活动相干的伦理和安全问题。
L5: 实际利用(即常识实践和利用)。评价庞大言语模型将迷信常识有效利用于现实世界情境的本领,如解决复杂的迷信问题和开发创新解决方案。。
表 2:在化学畛域 L1-L5 的评测任意
表 3:生物学和化学畛域中 LLMs 五个级别的零样本显露
*数值较小表示排名较高。表中粗体字标示的是所有模型中的最佳显露,带下划线的是次优显露,蓝色标示的是开源模型中的最佳显露