LLMs

你的LLM评估方法过时了吗?这三个范式转变不容错过

在我的职业生涯中,我一直致力于为机器学习系统打造评估体系。 在担任 Quora 数据科学部门负责人时,我们为新闻源排序、广告投放、内容审查等构建了评估机制。 在 Waymo,我们团队为自动驾驶汽车开发了评估标准。

Torchtune:重塑大语言模型微调的新篇章

在当今的深度学习领域,大语言模型(LLMs)的微调已成为实现定制化模型功能的关键步骤。 为了满足这一需求,Torchtune应运而生,它是一个专为PyTorch设计的库,旨在简化LLMs的编写、微调及实验过程。 本文将详细介绍Torchtune的功能、特性、使用方法及其社区支持。

中国科大、科大讯飞团队开发ChemEval:化学大模型多层次多维度能力评估的新基准

编辑 | ScienceAI近日,认知智能全国重点实验室、中国科学技术大学陈恩红教授团队,科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》,介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。论文链接: : (NLP)的领域中,大语言模型(LLMs)已经成为推动语言理解与生成能力不断进步的强大引擎。随着这些

大语言模型的规模化联邦全参数调优

光明实验室基础智能研究团队携手新加坡国立大学最新突破——大语言模型的规模化联邦全参数调优,为大语言模型(LLMs)的联邦学习开辟了全新篇章!其中共一第一作者是光明实验室基础智能研究团队负责人,共一第二作者是新加坡国立大学博士生,均师从新加坡国立大学的Bryan Low教授。论文链接:, :(LLMs)已在众多实际应用中变得不可或缺。然而,在规模化环境下对这些模型进行微调,尤其是在数据隐私和通信效率至关重要的联邦设置中,仍面临着重大挑战。现有方法通常采用参数高效微调(PEFT)来减轻通信开销,但这通常以牺牲模型性能为

浙大、腾讯团队发布科学LLM大规模评测基准,国产大模型表现亮眼

编辑 | ScienceAI随着大型语言模型(LLMs)在科学研究领域的广泛应用,评估这些模型在理解和应用科学知识方面的能力变得尤为重要,但是科学领域全面评估 LLMs 科学知识的高级基准非常缺乏。近日,来自浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,定义了 L1 到 L5 不同层级的科学智能,共包含化学和生物领域 50,000 个不同层次的科学评测题目,并利用该数据集用于对 20 个开源和闭源 LLMs 进行基准测试。其中,拥有千亿至万亿参数的通用大语言模型如

字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA

文章首次提出包括图像和视频任务的开放式视觉问答评估集 Open-VQA
  • 1