言语模型

计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大言语模型
编辑 | 萝卜皮来自深度言语模型的蛋白质表征，已经在计算蛋白质工程的许多任意中表现出最先进的本能。近年来，进展主要集中在参数计数上，最近模型的容量超过了它们所训练的数据集的大小。牛津大学（University of Oxford）的研讨人员提出一个替代方位。他们证明，在密码子而不是氨基酸序列上训练的大型言语模型可以供给高质量的表征，并且在各种任意中都优于同类最先进的模型。在某些任意中，例如物种识别…
应用
- 25
- 0
ScienceAI3月4日
解开化学言语模型中的「黑匣子」，Transformer可快速进修份子的部份布局，但手性进修困难
编辑 | X近年来，自然言语处理（NLP）模型，特别是 Transformer 模型，已应用于像 SMILES 这样的份子布局的文字表示。然而，关于这些模型如何懂得化学布局的研讨很少。为了解决这个黑匣子，东京大学的研讨职员运用代表性的 NLP 模型 Transformer 研讨了 SMILES 的进修进度与化学布局之间的关系。研讨解释，虽然 Transformer 可以快速进修份子的部份布局，但它…
理论
- 8
- 0
ScienceAI2月26日
分类性能提高 10%，港中大利用大型蛋白质言语模型发现未知信号肽
编辑 | 萝卜皮信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的展望 SP 的计算工具忽视了极端的数据不平衡问题，而依赖于蛋白质的额外组信息。香港中文大学的研讨职员开发了无偏生物体不可知信号肽网络（Unbiased Organism-agnostic Signal Peptide Network，USPNet），一种 SP 分类和切割位点展望深度学习法子。大量的实验…
应用
- 9
- 0
ScienceAI23年12月15日
大视觉言语模型基准数据集ReForm-Eval：新瓶装旧酒，给旧有的基准数据集换个情势就能用来评价新的大视觉言语模型
概要复旦DISC实验室推出了ReForm-Eval，一个用于综合评价大视觉言语模型的基准数据集。ReForm-Eval通过对已有的、不同任意情势的多模态基准数据集从事重构，建立了一个具有统一且适用于大模型评测情势的基准数据集。所建立的ReForm-Eval具有如下特点：建立了横跨8个评价维度，并为每个维度供应足量的评测数据（平均每个维度4000余条）；具有统一的评测题目情势（包括单选题和文本生成题…
理论
- 11
- 0
FudanDISC23年10月20日