B站开源轻量级 Index-1.9B 系列模型：2.8T 训练数据，支持脚色扮演

AI
6月20日
编辑

清源

B站昨日开源了轻量级 Index-1.9B 系列模型，包含基座模型、对照组、对话模型、脚色扮演模型等多个版本。IT之家附官方简介：Index-1.9B base ：基座模型，具有 19 亿非词嵌入参数量，在 2.8T 中英文为主的语料上预训练，多个评测基准上与同级别模型比处于领先。Index-1.9B pure ：基座模型的对照组，与 base 具有相同的参数和训练策略，不同之处在于严格过滤了该版本语料中所有指令相关的数据，以此来验证指令对 benchmark 的影响。Index-1.9B chat ：基于 i

B站昨日开源了轻量级 Index-1.9B 系列模型，包含基座模型、对照组、对话模型、脚色扮演模型等多个版本。

IT之家附官方简介：

Index-1.9B base ： 基座模型，具有 19 亿非词嵌入参数量，在 2.8T 中英文为主的语料上预训练，多个评测基准上与同级别模型比处于领先。

Index-1.9B pure ： 基座模型的对照组，与 base 具有相同的参数和训练策略，不同之处在于严格过滤了该版本语料中所有指令相关的数据，以此来验证指令对 benchmark 的影响。

Index-1.9B chat ：基于 index-1.9B base 通过 SFT 和 DPO 对齐后的对话模型，由于预训练中引入了较多互联网社区语料，聊天的趣味性明显更强。

Index-1.9B character ：在 SFT 和 DPO 的基础上引入了 RAG 来实现 fewshots 脚色扮演定制。

B站开源轻量级 Index-1.9B 系列模型：2.8T 训练数据，支持脚色扮演

据介绍，该模型在预训练阶段使用了 2.8T 规模的数据，中英比例为 4:5，代码占比 6%。目前，脚色扮演模型内置了脚色“三三”，用户也可以按需创建自己的脚色。

项目地址：https://github.com/bilibili/Index-1.9B/blob/main/README.md

{{userData.name}}已认证

B站开源轻量级 Index-1.9B 系列模型：2.8T 训练数据，支持脚色扮演

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

“HumanPlus”机器人问世：可师法人类举措弹钢琴、叠衣服，基于中国公司平台

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

编程利器：OpenAI 升级 ChatGPT 应用，可配合 Xcode 等工具使用简化开发流程

超 12000 公里，国产腔镜手术机器人完成远程手术、加速出海

腾讯：大模型 App 元宝不会嵌入商业搜索结果，目前专注于尽可能增加对用户的吸引力

入局AI Search，阿里国际推出全球首个B2B AI搜索引擎Accio

AI 开始“卷”智能体：OpenAI 被曝明年将推 Operator，可控制电脑、独立执行任务