ModernBERT 模型公布,接任“Hugging Face 下载榜第二”2018 年经典原版

Hugging Face、英伟达和约翰霍普金斯大学研究人员联手为 Hugging Face 上的热门模型 BERT 推出了全新版本 ModernBERT,号称在满足效率的同时新增支持处理长达 8192 个 Token 的上下文。

Hugging Face、英伟达和约翰霍普金斯大学研究人员联手为 Hugging Face 上的热门编码器模型 BERT 推出了全新版本 ModernBERT,号称在满足效率的同时新增支持处理长达 8192 个 Token 的上下文。

ModernBERT 模型公布,接任“Hugging Face 下载榜第二”2018 年经典原版

开发团队表示,尽管 BERT 模型自 2018 年发布以来仍被业界广泛使用,并且是 Hugging Face 上下载量第二大的模型(仅次于 RoBERTa),每月下载量超 6800 万次,但这款模型如今已有些落后。

在 BERT 模型首次发布 6 年后的今天,Hugging Face 和其他团队借鉴了近年来业界 LLM 的进展,对 BERT 模型架构和训练过程进行改进,最终公布了 ModernBERT 模型以接替原版 BERT 模型。

ModernBERT 模型公布,接任“Hugging Face 下载榜第二”2018 年经典原版

ModernBERT 模型公布,接任“Hugging Face 下载榜第二”2018 年经典原版

▲ ModernBERT 模型的基准测试结果

据悉,相关开发团队使用了 2 万亿个 Token 来训练 ModernBERT,使得该模型在多种分类测试和向量检索测试中都达到了目前业界领先水平,目前开发团队共计公布了两个版本的模型,分别是 1.39 亿参数和 3.95 亿参数版本,AI在线附项目地址如下(点此访问)。

相关资讯

一文详解BERT模型实现NER命名实体抽取

在自然语言处理和知识图谱中,实体抽取、NER是一个基本任务,也是产业化应用NLP 和知识图谱的关键技术之一。

盛名一时的BERT哪去了?这个问题的答案昭示了LLM范式的转变

编码器模型哪去了?如果 BERT 效果好,那为什么不扩展它?编码器 - 解码器或仅编码器模型怎么样了?在大型语言模型(LLM)领域,现在是仅解码器模型(如 GPT 系列模型)独领风骚的时代。那编码器 - 解码器或仅编码器模型发展如何呢?为什么曾经盛名一时的 BERT 却渐渐少有人关注了?近日,AI 创业公司 Reka 的首席科学家和联合创始人 Yi Tay 发布了一篇博客文章,分享了他的看法。Yi Tay 在参与创立 Reka 之前曾在 Google Research 和谷歌大脑工作过三年多时间,参与过 PaLM、

arXiv联手Hugging Face,论文链接到开源Demos一步到位

arXiv 作为超大规模的预印本网站,从诞生之初就造福了无数科研工作者。而它存在的意义,远不止让大家免费看论文这么简单。近日,Hugging Face 宣布与 arXiv 合作开发了一项新功能,即 Hugging Face Spaces 通过 Demos 选项卡与 arXivLabs 集成,该选项卡包含指向社区或作者自己创建的 Demos 的链接。用户只需将鼠标点到 Demos 选项卡,就可以查看源代码并试用。