B站开源轻量级 Index-1.9B 系列模型:2.8T 训练数据,支持脚色扮演

B站昨日开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、脚色扮演模型等多个版本。IT之家附官方简介:Index-1.9B base : 基座模型,具有 19 亿非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。Index-1.9B pure : 基座模型的对照组,与 base 具有相同的参数和训练策略,不同之处在于严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对 benchmark 的影响。Index-1.9B chat :基于 i

B站昨日开源了轻量级 Index-1.9B 系列模型,包含基座模型、对照组、对话模型、脚色扮演模型等多个版本。

IT之家附官方简介:

Index-1.9B base : 基座模型,具有 19 亿非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,多个评测基准上与同级别模型比处于领先。

Index-1.9B pure : 基座模型的对照组,与 base 具有相同的参数和训练策略,不同之处在于严格过滤了该版本语料中所有指令相关的数据,以此来验证指令对 benchmark 的影响。

Index-1.9B chat :基于 index-1.9B base 通过 SFT 和 DPO 对齐后的对话模型,由于预训练中引入了较多互联网社区语料,聊天的趣味性明显更强。

Index-1.9B character :在 SFT 和 DPO 的基础上引入了 RAG 来实现 fewshots 脚色扮演定制。

B站开源轻量级 Index-1.9B 系列模型:2.8T 训练数据,支持脚色扮演

B站开源轻量级 Index-1.9B 系列模型:2.8T 训练数据,支持脚色扮演

据介绍,该模型在预训练阶段使用了 2.8T 规模的数据,中英比例为 4:5,代码占比 6%。目前,脚色扮演模型内置了脚色“三三”,用户也可以按需创建自己的脚色。

项目地址:https://github.com/bilibili/Index-1.9B/blob/main/README.md

给TA打赏
共{{data.count}}人
人已打赏
AI

上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格

2024-6-20 8:33:50

AI

“HumanPlus”机器人问世:可师法人类举措弹钢琴、叠衣服,基于中国公司平台

2024-6-20 9:32:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索