NLP
入门 Transformer:概念、代码与流程详解
引言论文《Attention is All You Need》(Vaswani等,2017)提出了Transformer架构,这一模型通过完全摒弃标准的循环神经网络(RNN)组件,彻底改变了自然语言处理(NLP)领域。 相反,它利用了一种称为“注意力”的机制,让模型在生成输出时决定如何关注输入的特定部分(如句子中的单词)。 在Transformer之前,基于RNN的模型(如LSTM)主导了NLP领域。
自然语言处理(NLP):开启人机交互新篇章
在数字化时代,我们与智能设备的交互日益频繁,从设置闹钟到获取产品推荐,这些便捷的操作背后,离不开一项关键技术——自然语言处理(Natural Language Processing, NLP)。 NLP作为计算机科学的一个重要分支,正逐步改变着我们与机器的交流方式,使计算机能够更智能地理解和响应人类语言。 本文将深入探讨NLP的基本概念、关键技术、应用场景以及未来发展,带领读者走进这一充满无限可能的领域。
腾讯Hunyuan超越Llama 3,成为NLP领域新霸主
腾讯最近发布了一款名为Hunyuan的先进Moe(Mixture of Experts)模型,该模型在多个基准测试中表现出色,超越了Llama 3,成为自然语言处理(NLP)领域的新领导者。 地址如下:github: : :合成数据增强: Hunyuan-Large通过合成数据增强训练,能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据。 KV缓存压缩: 采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐。
AI 产业繁荣缩影:Hugging Face 平台托管模型数量破 100 万
AI 托管平台 Hugging Face 于本周四宣布,该平台收录的 AI 模型数量突破 100 万个,是 AI 领域快速发展的一个重要缩影。AI在线注:Hugging Face 成立于 2016 年,是一个旨在推动自然语言处理(NLP)技术和工具发展的开源社区和公司。团队致力于提供各种 NLP 任务中的最新技术、模型和工具,以及为开发者提供便捷的方式来使用、微调和部署这些技术。Hugging Face 首席执行官克莱门特・德朗格(Clément Delangue)在 X 上发表的一篇文章中写道,其公司托管了许多备
全球科技巨头集体「卷」AI,华为又在憋什么大招?
生成式 AI 的竞争,今年更加激烈了。今年 5 月以来,全球科技巨头们不约而同地开始展示在 AI 领域的最新成果和战略部署,一系列引人瞩目的发布和合作活动相继展开,预示着 AI 技术的快速发展和广泛应用。5 月 15 日,谷歌推出了 Gemini 1.5 Pro 和 Gemini 1.5 Flash 两款新的大型语言模型,并发布了声称效果超过 GPT-3 的生成视频模型 Veo。微软在 Build 2024 开发者大会上发布了 50 多项与 AI 相关的更新,包括 Team Copilot、Microsoft Fa
ChatGPT们的幕后先驱,斯坦福教授Manning的四十年NLP生涯
Christopher Manning 虽已成 NLP 领域先驱,却仍为 AI 大模型的未来殚精竭虑。今年 1 月份,2024 年度 IEEE 冯诺伊曼奖项结果正式公布,斯坦福大学语言学和计算机科学教授、AI 学者克里斯托弗・曼宁(Christopher Manning)获奖。曼宁教授是将深度学习应用于 NLP 领域的早期领军人物,在词向量 GloVe 模型、注意力、机器翻译、问题解答、自监督模型预训练、树递归神经网络、机器推理、依存解析、情感分析和总结等方面都有著名的研究。他还专注于解析、自然语言推理和多语言语言
终于,NLP顶会ACL投稿不用匿名了
再也不怕大会投稿被占坑了?对于自然语言处理领域的研究人员,最近有一条好消息。近日,计算语言学协会年会(ACL)正式宣布,该系列会议论文投稿已取消匿名期,同时允许作者在投稿期间宣传自身工作。新规定直接适用于下一个审稿周期。今年的 ACL 是第 62 届,将于 2024 年 8 月 11 日至 16 日在泰国曼谷举行。自 2022 年起,ACL 启用了滚动审稿机制(ACL Rolling Review,ARR),每月设 deadline。需要注意的是,在上一个截止日期之前提交给评审流程的论文仍受旧匿名政策的约束。大会声
NLP 泛化研究的分类与综述
编辑 | 白菜叶良好的泛化能力是自然语言处理(NLP)模型的主要需求之一,但「良好的泛化」意味着什么以及如何评估它还没有得到很好的理解。FAIR、阿姆斯特丹大学(University of Amsterdam)、爱丁堡大学(University of Edinburgh)的研究人员提出了一种用于表征和理解 NLP 泛化研究的分类法。该分类法基于广泛的文献综述,包含五个轴,泛化研究可能沿这些轴有所不同:他们的主要动机、他们想要解决的泛化类型、他们考虑的数据转移类型、数据转移的来源以及 NLP 建模流程中转移的轨迹。该
FDA 团队用基于DL的自然语言处理方法,识别定向药代动力学药物相互作用
编辑 | 萝卜皮在药物开发过程中,收集有关药物(对象)由于与另一种药物(沉淀剂)的药代动力学(PK)药物相互作用(DDI)而导致的临床暴露变化的信息至关重要。虽然已经发布了许多用于 DDI 的自然语言处理 (NLP) 方法,但大多数方法旨在评估文本中是否存在(以及何种)DDI 关系,而不识别 DDI 的方向(对象与沉淀药物)。在这里,美国食品药品监督管理局(Food and Drug Administration,FDA)的研究人员提出了一种从文献或药物标签中自动识别 PK DDI 方向性的方法。该团队重新注释了文
这几年让你大呼惊人的AI应用,都离不开这项技术
AI好像也更加懂人类,越来越接近“人的智能”。
Creator 面对面 | 大模型的最后一公里路“不太平”
自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的方向演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。
华夏基金与澜舟科技成立金融NLP联合实验室,共促金融科技创新
近日,境内头部基金公司华夏基金与NLP/AI领域领先者北京澜舟科技签署战略合作协议,成立金融NLP(自然语言处理)联合实验室,合作探索自然语言处理技术在金融领域的应用;合作建设基于华夏基金投资研究逻辑的舆情NLP能力;合作打造基于深度学习和预训练模型的金融行业搜索引擎,同时计划在其他数字化建设、创新技术合作、业务应用等方面展开合作。华夏基金首席数据官陈一昕,澜舟科技创始人兼首席执行官周明博士分别代表双方在北京签约。华夏基金首席数据官陈一昕表示,科技创新是发展数字经济的核心源动力。金融行业如何促进科技与金融业务场景的
5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型
在微软和英伟达的共同努力下, Turing NLG 17B 和 Megatron-LM 模型的继承者诞生了:5300 亿参数,天生强大,它的名字叫做「Megatron-Turing」。
- 1