参数

终于把机器学习中的超参数调优搞懂了！！！
大家好，我是小寒今天给大家分享机器学习中的一个关键知识点，超参数调优超参数调优是机器学习中调整模型超参数以优化模型性能的过程。超参数是用户在模型训练前需要手动设置的参数，与训练过程中通过算法自动调整的参数（如神经网络中的权重）不同。这些超参数直接控制着训练过程和模型的行为，例如学习率、隐藏层的数量、隐藏层的节点数等。
理论
- 972
- 0
程序员小寒11月25日
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型：功耗下降 80%，内存占用减少 1.6GB
感谢荣耀今日正式发布 MagicOS 9.0，号称是“行业首个搭载智能体的个人化全场景 AI 操作系统”。在 MagicOS 9.0 中，MagicOS 全新魔法大模型家族迎来升级，支持端云资源灵活调配，不同设备灵活部署，AI在线附各版本如下：500 万参数图像大模型，端侧部署，全系列支持4000 万参数图像大模型，端侧部署，中高端系列30 亿参数大语言模型，端侧部署，中高端系列10 亿参数多模…
应用
- 31
- 0
汪淼10月23日
330 亿参数昆仑大模型发布：中国能源化工行业首个通过备案的大模型，中国石油携手中国移动、华为和科大讯飞打造
科大讯飞集团官方公众号发布博文，表示昨日（8 月 28 日）在北京举办的成果发布会上，中国石油发布 330 亿参数昆仑大模型，是中国能源化工行业首个通过备案的大模型。昆仑大模型简介AI在线援引新闻稿，昆仑大模型由中国石油、中国移动、华为公司和科大讯飞联合打造，于今年 5 月签署合作共建协议，按照“五个一”行动计划，训练了 8 个大模型、研发了 18 个应用场景。图源：科大讯飞昆仑大模型已于 8 月…
应用
- 27
- 0
故渊8月29日
DeepMind 研究成本大起底，一篇 ICML 论文烧掉 1290 万美元
【新智元导读】DeepMind 最近被 ICML 2024 接收的一篇论文，完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和成本，大概是 Llama 3 预训练的 15%，耗费资金可达 12.9M 美元。发一篇顶会论文，需要多少实验预算？最近，DeepMind 发表了一项研究，对 LLM 扩大规模时各种算法和架构细节，比如参数和优化器的选择，进行了广泛的实证调查。这篇论文已…
应用
- 15
- 0
清源8月3日
13瓦功耗处理10亿参数，接近大脑效率，消除LLM中的矩阵乘法来颠覆AI现状
编辑 | 萝卜皮通常，矩阵乘法 (MatMul) 在大型言语模型（LLM）总体盘算成本中占据主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度，这方面的成本只会增加。加州大学、LuxiTech 和苏州大学的钻研职员声称开发出一种新格式，通过消除过程中的矩阵乘法来更有效地运行人工智能言语模型。这从根本上重新设计了目前由 GPU 芯片加速的神经网络操作方式。钻研职员描述了如何在不使用 MatMu…
理论
- 34
- 0
ScienceAI7月4日
打破「非此即彼」，倾斜 AI 与物理，中国迷信院提出建立可进修的景象模型
倾斜 AI-物理模型示意图。编辑 | X人工智能（AI）迅速发展，大模型正在重新定义我们明白和应对景象应战的方式。AI 模型已经席卷了大气迷信的各个领域。今年年初，中国迷信院大气物理研究所黄刚研究员团队将物理与 AI 融合，提升了数值形式的降水预报技巧。近日，黄刚团队联合中国迷信院大学、青岛海洋迷信与技术国家实验室、同济大学和首尔国立大学在《Advances in Atmospheric Scie…
理论
- 4
- 0
ScienceAI5月2日
iPhone 上本地每秒生成 12 个 tokens，微软发布 phi-3-mini 模型：38 亿参数
微软研究院近日发布技术报告，公布了 Phi-3 系列 AI 模型，共有 mini（38 亿参数）、small（70 亿参数）和 medium（140 亿参数）三个版本。微软表示拥有 38 亿参数的 phi-3-mini 通过 3.3 万亿个 tokens 上训练，其基准跑分功能超出 Mixtral 8x7B 和 GPT-3.5。微软表示 phi-3-mini 模型可以部署在手机等设备上，在 27 …
AI
- 6
- 0
故渊4月23日
Meta 发布 Llama 3，号称是最强大的开源大言语模型
感谢Meta 公司今天发布新闻稿，宣布推出下一代大言语模型 Llama 3，共有 80 亿和 700 亿参数两种版本，号称是最强大的开源大言语模型。Meta 声称，Llama 3 的性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5，IT之家附上 Llama 3 的主要特点如下：向所有人开放：Meta 开源 Llama 3 的 80 亿参数版本，让所有人都能接触…
AI
- 20
- 0
故渊4月19日
ChatGPT 参数领域被扒：只有 7B
ChatGPT 惨遭进犯，参数领域终于被扒出来了 —— 很可能只有 7B（70 亿）。消息来自南加州大学最新研究，他们使用一种进犯要领，耗费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的机密给挖了出来。果然，OpenAI 不 Open，自有别人帮他们 Open。具体来说，南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度（embedding size）…
AI
- 6
- 0
远洋3月17日
比传统量子化学较量争论快约40倍，呆板进修揭示了如何将聚合物材料溶解在有机溶剂中
编辑 | 紫罗用有机溶剂溶解聚合物是高份子材料钻研和开发中必不可少的过程，包括塑料回收、聚合物合成、精制、涂漆和涂层等。然而，展望和理解聚合物-溶剂二元体系的相平衡或相分离是聚合物化学中尚未解决的基本问题。日本统计数理钻研所（The Institute of Statistical Mathematics）的钻研职员利用三菱化学集团 (MCG) 的量子化学较量争论数据库，开发了一种新型呆板进修体系…
理论
- 4
- 0
ScienceAI23年10月27日
Creator 面对面 | 北大河图在稀薄大模型训练架构上的几点探索
河图是北京大学数据与智能实验室自研的一款分布式深度学习框架，兼顾创新性和可用性，这也是国内首个由高校自主研发的分布式深度学习系统。底层的算子实现到上层的模型设计完全是由河图团队自主实现。
AI
- 7
- 0
SOTA模型22年7月13日
谈话模型参数越多越好？DeepMind用700亿打败自家2800亿，训练优化出「小」模型
给定固定的 FLOPs 估算，应当如何权衡模型巨细和训练 token 的数目？DeepMind 得出了与先前不同的结论。
AI
- 21
- 0
机器之心22年4月3日
干货速递，baiduBML主动超参搜刮技术原理揭秘与实战攻略！
在人工智能领域，算法工程师在训练神经网络模型的过程中，完成网络构建和准备好训练数据后，往往需要对模型举行各种参数优化，以获得更好的模型效验。但调参其实并不简单，背后往往是通宵达旦的参数调试与效验验证，并需要做大量的实验，不仅耗时也耗费大量算力。这个时候，往往想尝试主动超参搜刮，但又开始担心算力要求所带来的额外训练成本。莫慌！baidu全功能AI开发平台BML带着免费算力额度与主动超参搜刮能力来了！…
AI
- 7
- 0
百度大脑21年8月11日