中国电信开源 TeleChat-12B 星斗语义大模型，年内开源千亿级参数大模型

感谢中国电信已开源 120 亿参数 TeleChat-12B 星斗语义大模型，还表示将于年内开源千亿级参数大模型。相较 1 月开源的 7B 版本，12 版版本在内容、性能和应用等方面整体后果晋升 30%，其中多轮推理、安全问题等领域晋升超 40%。据介绍，TeleChat-12B 将 7B 版本 1.5T 训练数据晋升至 3T，优化数据洗濯、标注策略，持续建立专项任务 SFT (监督微调) 数据，优化数据建立规范，大大晋升数据质量；同时，鉴于电信星斗大模型用户真实回流数据，优化奖励模型和强化进修模型，有效晋升模型问

感谢中国电信已开源 120 亿参数 TeleChat-12B 星斗语义大模型，还表示将于年内开源千亿级参数大模型。

相较 1 月开源的 7B 版本，12 版版本在内容、性能和应用等方面整体后果晋升 30%，其中多轮推理、安全问题等领域晋升超 40%。

据介绍，TeleChat-12B 将 7B 版本 1.5T 训练数据晋升至 3T，优化数据洗濯、标注策略，持续建立专项任务 SFT (监督微调) 数据，优化数据建立规范，大大晋升数据质量；同时，鉴于电信星斗大模型用户真实回流数据，优化奖励模型和强化进修模型，有效晋升模型问答后果。

TeleChat-12B 在模型布局、训练数据、训练方法等方面进行了改进，在通用问答和知识类、代码类、数学类榜单上相比 TeleChat-7B 均有大幅晋升。

在模型布局方面，利用小规模的模型尝试多种模型布局的组合选择最优布局。相比 TeleChat-7B 模型，TeleChat-12B 模型采用了词嵌入层与输入层解耦的布局，将词嵌入层和输入 lm head 层参数分开，有助于增强训练稳定性和收敛性。

在训练数据方面，收集了覆盖书籍、百科、新闻、政务、法律、医药、专利、论文、数学、代码等诸多方面的大量中英文数据；通过优化数据洗濯策略大幅晋升数据的文本干净度、观点无偏性、内容有效性、格式规范性。

在训练方法方面，利用科学数据配比进修与课程进修的方法，利用小参数模型在多种数据配比的数据上拟合，得到对各个数据集难度的先验估计；训练过程中每隔一段时间自动化评估当前模型在所有数据集上的 loss，以及在评测集上的生成后果，动态晋升较难进修的数据集权重，保证模型在各个数据集上都有较佳的拟合后果。

中国电信表示，此次开源提供基础模型以及鉴于相应版本的对话模型、不仅支援传统的全量参数革新还支援 LoRA 等只革新部分参数的高效微调方法、支援 Deepspeed 微调、支援 int8、int4 量化和国产芯片训练推理，推动大模型国产化进程。IT之家附开源地点：

Github 开源地点：

https://github.com/Tele-AI/Telechat

Gitee 地点：

https://gitee.com/Tele-AI/tele-chat

{{userData.name}}已认证

中国电信开源 TeleChat-12B 星斗语义大模型，年内开源千亿级参数大模型

Github 开源地点：

Gitee 地点：

Adobe Acrobat 上线 AI 帮忙：可帮助用户总结 PDF 文档，4.99 美圆 / 月

十年征程结束：波士顿能源人形机器人 Atlas 服役

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）