全球首次:时序大模型突破十亿参数,华人团队 Time-MoE 预训练数据达 3000 亿个时间点
Time-MoE 采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。 研发团队还发布了 Time-300B 数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。 在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。- 6
- 0
元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B
元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B。该模型总参数 255B,激活参数 36B,官方号称效果能“大致达到”超过 100B 大模型的“跨级”性能跃升,同时训练时间减少 30%,推理性能提升 100%,使每 token 成本大幅下降。MoE(Mixture of Experts)混合专家模型架构,将多个细分领域的专家模型组合成一个超级模型,在扩大模型规模的…- 20
- 0
微软发布 Phi-3.5 系列 AI 模型:上下文窗口 128K,首次引入混合专家模型
微软公司今天发布了 Phi-3.5 系列 AI 模型,其中最值得关注的是推出了该系列首个混合专家模型(MoE)版本 Phi-3.5-MoE。本次发布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款轻量级 AI 模型,基于合成数据和经过过滤的公开网站构建,上下文窗口为 128K,所有模型现在都可以在 Hugging Face 上以…- 12
- 0
算法、系统和应用,三个视角全面读懂混合专家(MoE)
LLM 很强,而为了实现 LLM 的可持续扩展,有必要找到并实现能提升其效率的方法,混合专家(MoE)就是这类方法的一大重要成员。最近,各家科技公司提出的新一代大模型不约而同地正在使用混合专家(Mixture of Experts:MoE)方法。混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》,三十多年来已经得到了广泛的探索和发…- 35
- 0
“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE
昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE,基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型,也是首个支持用单台 RTX 4090 服务器(8 张 RTX 4090 显卡)推理的开源千亿 MoE 大模型。据介绍,本次开源的 Skywork-MoE 模…- 28
- 0
元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型
元象发布XVERSE-MoE-A4.2B大模型 , 选择业界最前沿的混合大师模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,让海量中小企业、研究者和开发者可在元象高功能“全家桶”中按需选用,推动低成本部署。GPT3、Llama与XVERSE等主流大模型发展遵循规模理论(Scaling Law), 在模型训练和推理的过程中,…- 6
- 0
PRO | 为什么鉴于 MoE 的大模型更值得关注?
2023年,几乎 AI 的每一个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer 作为 AI 大模型主流架构的局面是否会撼动?为何探索鉴于 MoE (大师混同)架构的大模型成为业内新趋势?大型视觉模型 (LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年机器之心PRO会员通讯中,挑选了 10 …- 3
- 0
「天工2.0」MoE大模型发布——「天工AI」国内首个MoE架构免费向C端用户开放的大谈话模型使用全新问世
北京时间2月6日,昆仑万维正式发布新版MoE大谈话模型「天工2.0」与新版「天工AI智能帮忙」APP,这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大谈话模型AI使用。用户即日起可在各手机使用市场下载「天工AI智能帮忙」APP,体验昆仑万维「天工2.0」MoE大模型的卓越功能。「天工2.0」是昆仑万维自去年4月发布双千亿级大谈话模型「天工」以来的最大规模版本升级,其采用业内顶尖的…- 11
- 0
被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通大师混合架构部署
本文将介绍 MoE 的构建模块、训练方法以及在利用它们举行推理时需求考虑的权衡因素。大师混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每一个子任务都由专门的迷你模型或「大师」处理。早些时候,有人爆料 GPT-4 是采用了由 8 个大师模型组成的集成系统。近日,Mistral AI 发布的 Mixtral 8x…- 9
- 0
MoE
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!