语言模型

【论文解读】System 2 Attention提高大语言模型客观性和事实性

一、简要介绍 本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相关工作。基于transformer的大语言模型(LLM)中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中,这将对下一token的生成产生不利影响。为了帮助纠正这些问题,论文引入了System 2 Attention(S2A),它利用LLM的能力,用自然语言进行推理,并遵循指示,以决定要处理什么。S2A重新生成输入上下文以使输入上下文只包含相关部分,然后再处理重新

获ICLR 2024杰出论文奖,97.47%体外成功率,蛋白质设计新算法

编辑 | 紫罗在今年的 ICLR 会议上,共评选出 5 篇杰出论文奖以及 11 篇荣誉提名。纽约大学和基因泰克(Genentech)合作发表的一篇关于蛋白质设计的研究论文获得杰出论文奖。这篇论文解决了基于序列的抗体设计问题,这是蛋白质序列生成模型的一个及时而重要的应用。为此,研究人员引入了一种创新而有效的新建模方法——离散「步行-跳跃」采样(Discrete Walk-Jump Sampling,dWJS)算法,用来专门针对处理离散蛋白质序列数据的问题。除了在计算机上验证该方法之外,还进行了广泛的湿实验室实验,来测

AI可以改写人类基因组吗?首次由AI从头设计的基因编辑器成功编辑人类细胞中DNA

编辑 | 凯霞生成式 AI 可以对话、写诗、画图、做视频、作曲、写代码......那么,AI 可以改写人类基因组吗?现在,新的 AI 技术正在为可编辑 DNA 的微观生物机制绘制蓝图,这预示着未来科学家将以更高的精度和速度对抗疾病。近日,美国 AI 蛋白质设计初创公司 Profluence 推出了 OpenCRISPRTM 计划,发布了世界上第一个开源的 AI 生成的基因编辑器。Profluence 展示了通过 AI 从头开始设计的可定制基因编辑器,对人类基因组的首次成功精确编辑。该技术基于驱动 ChatGPT 的

AI在用| 万万没想到,科技论文还能这么读

机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。Claude 3 具有非常大的内存( 200k 上下文窗口)和很强的调用准确性,它的上下文能力也因此成为最受欢迎、应用最广的技能。我们介绍过如何利用这种能力,没时间收听播客也能获取核心内容。今天,我们再介绍一个新技能,

AI4Science的基石:几何图神经网络,最全综述来了!人大高瓴联合腾讯AI lab、清华、斯坦福等发布

编辑 | XS2023 年 11 月,Nature 连续刊登了两篇重大成果:蛋白质生成方法 Chroma 和晶体材料设计方法 GNoME,均使用了图神经网络作为科学数据的表示工具。实际上,图神经网络,特别是几何图神经网络,一直是科学智能(AI for Science)研究的重要工具。这是因为,科学领域中的粒子、分子、蛋白质、晶体等物理系统均可被建模成一种特殊的数据结构——几何图。与一般的拓扑图不同,为了更好描述物理系统,几何图加入了不可或缺的空间信息,需要满足平移、旋转和翻转的物理对称性。鉴于几何图神经网络对于物理

计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型

编辑 | 萝卜皮来自深度语言模型的蛋白质表征,已经在计算蛋白质工程的许多任务中表现出最先进的性能。近年来,进展主要集中在参数计数上,最近模型的容量超过了它们所训练的数据集的大小。牛津大学(University of Oxford)的研究人员提出一个替代方向。他们证明,在密码子而不是氨基酸序列上训练的大型语言模型可以提供高质量的表征,并且在各种任务中都优于同类最先进的模型。在某些任务中,例如物种识别、蛋白质和转录本丰度预测等,该团队发现,基于密码子训练的语言模型优于所有其他已发布的蛋白质语言模型,包括一些包含超过 5

解开化学语言模型中的「黑匣子」,Transformer可快速学习分子的部分结构,但手性学习困难

编辑 | X近年来,自然语言处理(NLP)模型,特别是 Transformer 模型,已应用于像 SMILES 这样的分子结构的文字表示。然而,关于这些模型如何理解化学结构的研究很少。为了解决这个黑匣子,东京大学的研究人员使用代表性的 NLP 模型 Transformer 研究了 SMILES 的学习进度与化学结构之间的关系。研究表明,虽然 Transformer 可以快速学习分子的部分结构,但它需要扩展训练才能理解整体结构。一致的是,从训练开始到结束,使用不同学习步骤的模型生成的描述符进行分子特性预测的准确性是相

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

编辑 | X大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学领域仍存在重大挑战。近日,法国阿维尼翁大学(Avignon Université )、南特大学(Nantes Université)和 Zenidoc 的研究团队开发了 BioMistral,一个专为生物医学领域量身定制的开源 LLM,利用 Mistral 作为其基础模型,并在 PubMed Central 上进行了进一步的预训练。研究人员根据由 10 项既定的英语医学问答

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

最近的大型语言模型(LLMs)进步已经使我们处于革命性的时代,尤其是 LLMs 驱动的智能 Agents 在广泛任务中展现出了通用性和有效性。这些被称为「AI 科学家」的 Agent 已经开始探寻其在生物学和化学等各种领域内进行自主科学发现的潜力。此类 Agents 已经表现出了选择适合任务的工具,规划环境条件,以及实现实验自动化的能力。因此,Agent 可摇身一变成为真实的科学家,能够有效地设计和开展实验。在某些领域如化学设计中,Agent 所展现的能力已经超过了大部分非专业人士。然而,当我们享受着这种自动化 A

登 Nature 子刊,滑铁卢大学团队评论「量子计算机+大语言模型」当下与未来

编辑 | X模拟当今量子计算设备的一个关键挑战,是学习和编码量子比特之间发生的复杂关联的能力。基于机器学习语言模型的新兴技术已经显示出学习量子态的独特能力。近日,加拿大滑铁卢大学的研究人员在《Nature Computational Science》发表题为《Language models for quantum simulation》 的 Perspective 文章,强调了语言模型在构建量子计算机方面所做出的贡献,并讨论了它们在量子优势竞争中的未来角色。论文链接:,最近许多设备都声称具有量子优势。经典计算能力的

优于SOTA方法,语言模型结合几何深度学习技术,望石智慧开发3D分子生成模型Lingo3DMol

编辑 | X分子生成是 AI 助力小分子新药研发的核心技术。望石智慧始终专注于分子生成技术的开发。就在前几天,望石智慧的研究团队推出了 Lingo3DMol,用于在给定口袋 3D 结构的情况下生成小分子配体的 3D 结构。方法结合了语言模型和几何深度学习技术。研究人员在传统的 SMILES 分子表征的基础上,开发了新的分子表示方法  FSMILES。此外,研究训练了一个单独的非共价相互作用预测器,为生成模型提供必要的结合模式信息。Lingo3DMol 可以有效地穿越类似药物的化学空间,防止异常结构的形成。Lingo

低耗能高速度,EPFL和微软研究团队的新方法:深度物理神经网络的无反向传播训练

编辑 | 萝卜皮随着大规模深度神经网络(NN)和其他人工智能(AI)应用的最新发展,人们越来越担心训练和操作它们所需的能源消耗。物理神经网络可以成为这个问题的解决方案,但传统算法的直接硬件实现面临着多重困难。使用传统反向传播算法训练神经网络会面临一些挑战,例如缺乏可扩展性、训练过程中操作的复杂性以及对数字训练模型的依赖。洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)和微软研究团队(Microsoft Research)等机构组成的合作团队提出了一种通过

测试大语言模型的生物推理能力,GPT-4、PaLM2等均在测试之列

编辑 | 萝卜皮大型语言模型(LLM)的最新进展,为将通用人工智能 (AGI) 整合到生物研究和教育中提供了新机遇。在最新的研究中,佐治亚大学和梅奥诊所的研究人员评估了几个领先的 LLM(包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)回答概念生物学问题的能力。这些模型在包含 108 个问题的多项选择考试中进行了测试,涵盖分子生物学、生物技术、代谢工程和合成生物学等生物学主题。在这些模型中,GPT-4 获得了 90 分的最高平均分,并且在不同提示的试验中表现出最大的一致性。结果

GPT-4驱动的机器人化学家登Nature,自主设计反应并执行复杂实验

编辑 | X基于 Transformer 的大语言模型(LLM)在自然语言处理、生物、化学和计算机编程等各个领域取得了重大进展。但对于在实验室工作的研究人员或那些不熟悉计算机代码的人来说,人工智能方法并不那么容易理解。近日,卡内基梅隆大学的研究团队找到了如何让人工智能系统自学化学的方法。提出了一种基于 GPT-4 的智能 Agent(以下简称 Coscientist),用一个简单的语言提示就可以执行整个实验过程。能够自主设计、规划和执行复杂的科学实验。Coscientist 可以设计、编码和执行多种反应,在湿实验中

分类性能提高 10%,港中大利用大型蛋白质语言模型发现未知信号肽

编辑 | 萝卜皮信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的预测 SP 的计算工具忽视了极端的数据不平衡问题,而依赖于蛋白质的额外组信息。香港中文大学的研究人员开发了无偏生物体不可知信号肽网络(Unbiased Organism-agnostic Signal Peptide Network,USPNet),一种 SP 分类和切割位点预测深度学习方法。大量的实验结果表明,USPNet 的分类性能比之前的方法大幅提高了 10%。USPNet 的 SP 发现流程旨在从宏基因组数据中探

AI揭示微生物暗蛋白:使用机器学习来发现微生物蛋白质宇宙中的功能性「暗物质」

编辑 | 白菜叶宏基因组学项目揭示了地球生物圈中超过 80 亿个非冗余微生物蛋白质序列。其中,11.7 亿种蛋白质在超过 100,000 个可用参考基因组中没有可识别的同源物。了解这些微生物蛋白质的功能是一项艰巨的任务。幸运的是,机器学习最近在复杂生物数据建模和预测方面取得了前所未有的准确性。这些进步的最前沿是基于机器学习的方法,可以自信地预测许多(但不是全部)氨基酸序列的原子级蛋白质结构。最近的一项研究使用 ESMFold 预测器,该预测器利用大型语言模型,从欧洲生物信息学研究所的 MGnify 宏基因组数据库快

LLaMA 开源背后:一场永远改变硅谷的AI军备内幕

机器之能报道编辑:SiaOpenAI 内部的戏剧性事件让世界第一次看到了那些将决定AI未来人的激烈争斗。事实上,在此之前,硅谷已经发生了一场鲜为人知但激烈的竞争,旨在争夺这项技术的控制权。《纽约时报》采访了80多位高管、科学家和企业家,《纽约客》采访了微软和OpenAI两家 CTO,分别从不同角度讲述了一个关于野心、恐惧和金钱的幕后故事。在 OpenAI 于 2022 年 11 月推出 ChatGPT 的六周后,Meta 首席 AI 科学家 Yann LeCun 从纽约飞往硅谷参加 Meta 的例行管理会议。在总部

BAAI、北大&港中文团队提出 SegVol:通用且可交互的医学体素分割模型

编辑 | ScienceAI上周,北京智源人工智能研究院(BAAI)、北京大学和香港中文大学的研究团队开源了 SegVol 医学通用分割模型。与过去一些很棒的 Medical SAM 工作不同,SegVol 是第一个能够同时支持 box,point 和 text prompt 进行任意尺寸原分辨率的 3D 体素分割模型。作为一个便捷的通用分割工具,研究人员将 SegVol 代码和模型开源到 GitHub:BAAI-DCAI/SegVol,欢迎大家使用。目前开源的模型权重文件包括(1)使用 96k CTs 预训练 2