首次大规模多说话评价,支持7种说话,生物医学范畴7B开源LLM

编辑 | X大说话模型 (LLM) 已应用于医疗保健和医学等业余范畴。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学范畴仍存在重大挑战。近日,法国阿维尼翁大学(Avignon Université )、南特大学(Nantes Université)和 Zenidoc 的研讨团队开发了 BioMistral,一个专为生物医学范畴量身定制的开源 LLM,利用 Mistral 作为其基础模型,并在 PubMed Central 上举行了进一步的预训练。研讨人员根据由 10 项既定的英语医学问答

首次大规模多说话评价,支持7种说话,生物医学范畴7B开源LLM

编辑 | X

大说话模型 (LLM) 已应用于医疗保健和医学等业余范畴。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学范畴仍存在重大挑战。

近日,法国阿维尼翁大学(Avignon Université )、南特大学(Nantes Université)和 Zenidoc 的研讨团队开发了 BioMistral,一个专为生物医学范畴量身定制的开源 LLM,利用 Mistral 作为其基础模型,并在 PubMed Central 上举行了进一步的预训练。

研讨人员根据由 10 项既定的英语医学问答 (QA) 任务组成的基准对 BioMistral 举行了全面评价。还探索通过量化和模型分开方法获得的轻量级模型。

结果证明了 BioMistral 与现有开源医疗模型比拟具有卓越的本能,并且与专有模型比拟具有竞争优势。

最后,为了解决英语以外的数据有限的问题,并评价医学 LLM 的多说话泛化能力,自动将该基准翻译和评价为 7 种其他说话。这标志着医学范畴 LLM 的首次大规模多说话评价。

相关研讨以「BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains」为题,发布在预印平台 arXiv 上。

首次大规模多说话评价,支持7种说话,生物医学范畴7B开源LLM

论文链接:https://arxiv.org/abs/2402.10373

研讨人员将实验中获得的数据集、多说话评价基准、脚本和所有模型都免费发布。

首次大规模多说话评价,支持7种说话,生物医学范畴7B开源LLM

开源地址:https://huggingface.co/BioMistral/BioMistral-7B

BLOOM 和 LLaMA 等开源 LLM,促进了其在医学等业余范畴的创新使用。

然而,将 LLM 融入医疗保健和医学带来了独特的挑战和机遇。

开源医疗模型的采用受到限制,主要是由于缺乏允许商业使用,且本能可与大型或专有模型相媲美的轻量级模型。为了解决这一差距,需要开发基于开源基础模型的专用模型,例如 GPT-Neo、LLaMa 2 或 Mistra,并在保持本能的同时优化它们,以便在消费级设备上使用。

在此,研讨团队提出了 BioMistral 7B,这是一种专为生物医学范畴量身定制的业余 LLM,源自 Mistral 7B Instruct v0.1,并在 PubMed Central 上进一步举行了预训练。

研讨贡献包括:

BioMistral 7B 的构建,这是生物医学范畴第一个基于 Mistral 的开源模型,包括对不同评价策略的分析,例如少样本上下文学习和监视微调。

一项原创研讨,引入了 10 项英语医学问答 (QA) 任务的基准,自动翻译成其他 7 种说话(西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语和中文),促进对现有最先进的开源医学 LLM 的评价,并揭示了其在不同说话背景下的多说话潜力和稳健性。

对模型在多说话环境下的真实性和校准性举行大量深入的定量分析。

对通过各种有效量化方法导出的一套轻量级模型举行严格评价。

探索 Mistral 7B Instruct 和 BioMistral 7B 模型之间的新颖模型分开技术,允许利用业余和通用 LLM 的常识推理技能。

BioMistral 7B 结合了量化和分开的模型变体,与其他开源 7B 模型比拟,在多说话医学评价基准上展示了最先进的本能。

首次大规模多说话评价,支持7种说话,生物医学范畴7B开源LLM

图 1:3 次情境学习的本能。分数代表准确性 (↑),并且是 3 个随机种子的平均值。BioMistral 7B Ensemble、DARE、TIES 和 SLERP 是结合了 BioMistral 7B 和 Mistral 7B Instruct 的模型分开策略。最佳模型用粗体显示,次佳模型用下划线显示。(来源:论文)

首次大规模多说话评价,支持7种说话,生物医学范畴7B开源LLM

图 2:BioMistral 7B 模型与基线比拟的监视微调 (SFT) 本能。*GPT-3.5 Turbo 本能是根据图 1 中的几次测试结果报告的。(来源:论文)

首次大规模多说话评价,支持7种说话,生物医学范畴7B开源LLM

图 3:量化 BioMistral 7B 在 3-shot 场景中的本能。最后一列表示相对于原始模型的平均本能增益/损失。(来源:论文)

研讨人员表示:「我们未来的研讨旨在通过人工评价来评价 BioMistral 7B 的生成质量。此外,我们计划在前人举行的实验的基础上,使用监视微调和直接偏好优化技术来增强其多说话和聊天功能。最后,我们打算通过在进一步的预训练过程中整合 Jeffrey 散度或 Platt 缩放等技术来提高模型的校准和可靠性。」

给TA打赏
共{{data.count}}人
人已打赏
理论

GPT-4可能也在用的推断解码是什么?一文综述前世今生和利用情况

2024-2-20 14:26:00

理论

受 ChatGPT 启发,分离 Transformer 和 RL-MCTS 进行从头药物安排

2024-2-22 14:14:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索