MoE

全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点
Time-MoE 采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了 Time-300B 数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。
应用
- 6
- 0
问舟10月23日
元象发布中国最大 MoE 开源大模型：总参数 255B，激活参数 36B
元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B。该模型总参数 255B，激活参数 36B，官方号称效果能“大致达到”超过 100B 大模型的“跨级”性能跃升，同时训练时间减少 30%，推理性能提升 100%，使每 token 成本大幅下降。MoE（Mixture of Experts）混合专家模型架构，将多个细分领域的专家模型组合成一个超级模型，在扩大模型规模的…
应用
- 20
- 0
沛霖（实习）9月13日
微软发布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合专家模型
微软公司今天发布了 Phi-3.5 系列 AI 模型，其中最值得关注的是推出了该系列首个混合专家模型（MoE）版本 Phi-3.5-MoE。本次发布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款轻量级 AI 模型，基于合成数据和经过过滤的公开网站构建，上下文窗口为 128K，所有模型现在都可以在 Hugging Face 上以…
应用
- 12
- 0
故渊8月21日
算法、系统和应用，三个视角全面读懂混合专家（MoE）
LLM 很强，而为了实现 LLM 的可持续扩展，有必要找到并实现能提升其效率的方法，混合专家（MoE）就是这类方法的一大重要成员。最近，各家科技公司提出的新一代大模型不约而同地正在使用混合专家（Mixture of Experts：MoE）方法。混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》，三十多年来已经得到了广泛的探索和发…
基础
- 35
- 0
机器之心7月26日
“全球首创”单台 RTX 4090 服务器推理，昆仑万维开源 2 千亿稀疏大模型天工 MoE
昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE，基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来，号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型，也是首个支持用单台 RTX 4090 服务器（8 张 RTX 4090 显卡）推理的开源千亿 MoE 大模型。据介绍，本次开源的 Skywork-MoE 模…
AI
- 28
- 0
汪淼6月3日
元象首个MoE大模型开源：4.2B激活参数，效果堪比13B模型
元象发布XVERSE-MoE-A4.2B大模型，选择业界最前沿的混合大师模型架构（Mixture of Experts），激活参数4.2B，效果即可媲美13B模型。该模型全开源，无条件免费商用，让海量中小企业、研究者和开发者可在元象高功能“全家桶”中按需选用，推动低成本部署。GPT3、Llama与XVERSE等主流大模型发展遵循规模理论（Scaling Law），在模型训练和推理的过程中，…
应用
- 6
- 0
新闻助手4月2日
PRO | 为什么鉴于 MoE 的大模型更值得关注？
2023年，几乎 AI 的每一个领域都在以前所未有的速度进化，同时，AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下，Transformer 作为 AI 大模型主流架构的局面是否会撼动？为何探索鉴于 MoE （大师混同）架构的大模型成为业内新趋势？大型视觉模型（LVM）能否成为通用视觉的新突破？...我们从过去的半年发布的2023年机器之心PRO会员通讯中，挑选了 10 …
理论
- 3
- 0
机器之心2月8日
「天工2.0」MoE大模型发布——「天工AI」国内首个MoE架构免费向C端用户开放的大谈话模型使用全新问世
北京时间2月6日，昆仑万维正式发布新版MoE大谈话模型「天工2.0」与新版「天工AI智能帮忙」APP，这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大谈话模型AI使用。用户即日起可在各手机使用市场下载「天工AI智能帮忙」APP，体验昆仑万维「天工2.0」MoE大模型的卓越功能。「天工2.0」是昆仑万维自去年4月发布双千亿级大谈话模型「天工」以来的最大规模版本升级，其采用业内顶尖的…
应用
- 11
- 0
新闻助手2月6日
被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通大师混合架构部署
本文将介绍 MoE 的构建模块、训练方法以及在利用它们举行推理时需求考虑的权衡因素。大师混合 (MoE) 是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每一个子任务都由专门的迷你模型或「大师」处理。早些时候，有人爆料 GPT-4 是采用了由 8 个大师模型组成的集成系统。近日，Mistral AI 发布的 Mixtral 8x…
理论
- 9
- 0
机器之心1月22日