参数

看听读全都会的六边形战士MiniCPM,来啦

MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。 图片简介MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。 它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。

中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元

一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。 在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

终于把机器学习中的超参数调优搞懂了!!!

大家好,我是小寒今天给大家分享机器学习中的一个关键知识点,超参数调优超参数调优是机器学习中调整模型超参数以优化模型性能的过程。 超参数是用户在模型训练前需要手动设置的参数,与训练过程中通过算法自动调整的参数(如神经网络中的权重)不同。 这些超参数直接控制着训练过程和模型的行为,例如学习率、隐藏层的数量、隐藏层的节点数等。

荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB

感谢荣耀今日正式发布 MagicOS 9.0,号称是“行业首个搭载智能体的个人化全场景 AI 操作系统”。 在 MagicOS 9.0 中,MagicOS 全新魔法大模型家族迎来升级,支持端云资源灵活调配,不同设备灵活部署,AI在线附各版本如下:500 万参数图像大模型,端侧部署,全系列支持4000 万参数图像大模型,端侧部署,中高端系列30 亿参数大语言模型,端侧部署,中高端系列10 亿参数多模态大模型,端侧部署,中高端系列1500 万参数语音大模型,端侧部署,全系列支持荣耀表示,MagicOS 9.0 升级支持 30 亿参数端侧大语言模型,相比 MagicOS 8.0 的 70 亿参数魔法大模型,加载速度提升 77%、出词速度提升 500%、功耗下降 80%。 此外,新版大模型的内存占用减少 1.6GB,存储占用减少 1.8GB。

330 亿参数昆仑大模型发布:中国能源化工行业首个通过备案的大模型,中国石油携手中国移动、华为和科大讯飞打造

科大讯飞集团官方公众号发布博文,表示昨日(8 月 28 日)在北京举办的成果发布会上,中国石油发布 330 亿参数昆仑大模型,是中国能源化工行业首个通过备案的大模型。昆仑大模型简介AI在线援引新闻稿,昆仑大模型由中国石油、中国移动、华为公司和科大讯飞联合打造,于今年 5 月签署合作共建协议,按照“五个一”行动计划,训练了 8 个大模型、研发了 18 个应用场景。图源:科大讯飞昆仑大模型已于 8 月 23 日通过了国家生成式人工智能服务备案,是中国能源化工行业首个通过备案的大模型。在顶层设计具有三大特点:一是创新提出

DeepMind 研究成本大起底,一篇 ICML 论文烧掉 1290 万美元

【新智元导读】DeepMind 最近被 ICML 2024 接收的一篇论文,完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和成本,大概是 Llama 3 预训练的 15%,耗费资金可达 12.9M 美元。发一篇顶会论文,需要多少实验预算?最近,DeepMind 发表了一项研究,对 LLM 扩大规模时各种算法和架构细节,比如参数和优化器的选择,进行了广泛的实证调查。这篇论文已被 ICML 2024 接收。论文地址: 页的论文涵盖了数以万计的模型,备选方案包括 3 种优化器、4 种参数化方案、几

13瓦功耗处理10亿参数,接近大脑效率,消除LLM中的矩阵乘法来颠覆AI现状

编辑 | 萝卜皮通常,矩阵乘法 (MatMul) 在大型语言模型(LLM)总体计算成本中占据主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度,这方面的成本只会增加。加州大学、LuxiTech 和苏州大学的研究人员声称开发出一种新方法,通过消除过程中的矩阵乘法来更有效地运行人工智能语言模型。这从根本上重新设计了目前由 GPU 芯片加速的神经网络操作方式。研究人员描述了如何在不使用 MatMul 的情况下创建一个自定义的 27 亿参数模型,性能与当前最先进的 Transformer 模型相当。该研究以「Scal

打破「非此即彼」,平衡 AI 与物理,中国科学院提出建立可学习的气候模型

平衡 AI-物理模型示意图。编辑 | X人工智能(AI)迅速发展,大模型正在重新定义我们理解和应对气候挑战的方式。AI 模型已经席卷了大气科学的各个领域。今年年初,中国科学院大气物理研究所黄刚研究员团队将物理与 AI 融合,提升了数值模式的降水预报技巧。近日,黄刚团队联合中国科学院大学、青岛海洋科学与技术国家实验室、同济大学和首尔国立大学在《Advances in Atmospheric Sciences》上,发表了题为「Toward a Learnable Climate Model in the Artific

iPhone 上本地每秒生成 12 个 tokens,微软发布 phi-3-mini 模型:38 亿参数

微软研究院近日发布技术报告,公布了 Phi-3 系列 AI 模型,共有 mini(38 亿参数)、small(70 亿参数)和 medium(140 亿参数)三个版本。微软表示拥有 38 亿参数的 phi-3-mini 通过 3.3 万亿个 tokens 上训练,其基准跑分性能超出 Mixtral 8x7B 和 GPT-3.5。微软表示 phi-3-mini 模型可以部署在手机等设备上,在 27 亿参数的 Phi-2 模型上,进一步整合了严格过滤的网络数据和合成数据。微软也坦言 phi-3-mini 模型虽然通过优

Meta 发布 Llama 3,号称是最强大的开源大语言模型

感谢Meta 公司今天发布新闻稿,宣布推出下一代大语言模型 Llama 3,共有 80 亿和 700 亿参数两种版本,号称是最强大的开源大语言模型。Meta 声称,Llama 3 的性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5,IT之家附上 Llama 3 的主要特点如下:向所有人开放:Meta 开源 Llama 3 的 80 亿参数版本,让所有人都能接触最前沿的人工智能技术。全球各地的开发人员、研究人员和好奇心强的人都可以进行游戏、构建和实验。更聪明、更安全:Llama

ChatGPT 参数规模被扒:只有 7B

ChatGPT 惨遭攻击,参数规模终于被扒出来了 —— 很可能只有 7B(70 亿)。消息来自南加州大学最新研究,他们使用一种攻击方法,花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的机密给挖了出来。果然,OpenAI 不 Open,自有别人帮他们 Open。具体来说,南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度(embedding size)为 4096 或 4608。而几乎所有已知的开源大模型如 Llama 和 Mistral,嵌入向量维度 4096 的时候

比传统量子化学计算快约40倍,机器学习揭示了如何将聚合物材料溶解在有机溶剂中

编辑 | 紫罗用有机溶剂溶解聚合物是高分子材料研究和开发中必不可少的过程,包括塑料回收、聚合物合成、精制、涂漆和涂层等。然而,预测和理解聚合物-溶剂二元系统的相平衡或相分离是聚合物化学中尚未解决的基本问题。日本统计数理研究所(The Institute of Statistical Mathematics)的研究人员利用三菱化学集团 (MCG) 的量子化学计算数据库,开发了一种新型机器学习系统,用于确定任何给定聚合物与其候选溶剂的混溶性,称为 χ 参数。该系统使科学家能够通过使用高通量量子化学计算整合计算机实验产生

Creator 面对面 | 北大河图在稀疏大模型训练架构上的几点探索

河图是北京大学数据与智能实验室自研的一款分布式深度学习框架,兼顾创新性和可用性,这也是国内首个由高校自主研发的分布式深度学习系统。底层的算子实现到上层的模型设计完全是由河图团队自主实现。

干货速递,百度BML自动超参搜索技术原理揭秘与实战攻略!

在人工智能领域,算法工程师在训练神经网络模型的过程中,完成网络构建和准备好训练数据后,往往需要对模型进行各种参数优化,以获得更好的模型效果。但调参其实并不简单,背后往往是通宵达旦的参数调试与效果验证,并需要做大量的实验,不仅耗时也耗费大量算力。这个时候,往往想尝试自动超参搜索,但又开始担心算力要求所带来的额外训练成本。莫慌!百度全功能AI开发平台BML带着免费算力额度与自动超参搜索能力来了!先来介绍百度最近全新升级的BML,何方神圣?全功能AI开发平台BML(Baidu Machine Learning) ,是为企
  • 1