AI在线 AI在线

机器学习

机器学习|从0开发大模型之复现DeepSeek的aha moment

前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合一些开源的方案复现aha monent,并给出完整的代码和工具链。  1、什么是 aha monent DeepSeek-R1 论文中提到,模型让作者「见证了强化学习的力量和美感」,在DeepSeek-R1-Zero的中间版本,「顿悟时刻」来了:模型学会了以人类的语气进行反思。 aha monent 2、使用什么的基座模型和训练数据 由于显卡只有48G,可以用基座模型Qwen2.5,模型大小:0.5B,1.5B,3B训练数据有很多:(可以直接在huggingface上找到)    a.AI-MO/NuminaMath-TIR:包括72K行的数学问题,解决方案和答案,是从 NuminaMath-CoT 数据集提炼出来的   b.
4/3/2025 3:46:53 PM
周末程序猿

机器学习|从0开发大模型之DeepSeek的GRPO

DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩,论文发表于2024年2月份:,以下是该论文的摘要原文:复制翻译如下:复制对比数据1、什么是GRPOGRPO 是一种在线学习算法,核心思想是通过组内相对奖励来估计基线,从而避免使用额外的价值函数模型。 通过在训练期间使用受训模型自身生成的数据来迭代改进,GRPO 旨在最大化生成补全的优势,同时确保模型保持接近参考策略,下图是论文中的算法流程图:GRPOGRPO 是 PPO (Proximal Policy Optimization,近端策略优化,是一种强化学习算法,由OpenAI于2017年提出,旨在解决策略梯度方法中的训练不稳定问题) 的变体,主要区别是:GRPO 省略 value function modelGRPO 奖励计算,改成了一个 q 生成多个 r,然后 reward 打分GRPO算法流程:采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练,逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练,参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。
4/3/2025 3:40:41 PM
周末程序猿

谷歌 AI 发布 TxGemma:全新大规模语言模型助力药物开发

药物开发是一个复杂且成本高昂的过程,伴随着高失败率和漫长的开发周期。 传统的药物发现过程需要从靶点识别到临床试验的各个阶段进行大量的实验验证,这往往消耗大量的时间和资源。 然而,随着计算方法,特别是机器学习和预测建模的兴起,这一过程有望得到优化。
3/28/2025 2:32:00 PM
AI在线

大多数人工智能项目为何失败:应避免的十个错误

令人震惊的事实:70-80%的人工智能项目都失败了! 尽管人工智能 (AI) 及其彻底改变行业的潜力备受关注,但令人惊讶的是,70-80% 的 AI 项目都失败了——这真是一个现实的考验! 为什么这么多充满希望和潜力的人工智能计划最终都以失败告终?
3/28/2025 10:21:50 AM
晓晓

时间序列异常检测:MSET-SPRT组合方法的原理和Python代码实现

在异常检测领域,尤其针对工业机械、核反应堆和网络安全等复杂系统,传统方法往往难以有效处理高维度且相互关联的数据流。 多元状态估计技术(MSET) 与序贯概率比检验(SPRT) 的组合方法在此类场景中展现出显著优势。 MSET-SPRT是一种结合机器学习状态估计与统计假设检验的混合技术框架,通过其高精度和稳健性,被广泛应用于关键任务系统的监控与分析。
3/28/2025 10:10:30 AM
Abish Pius

2025苹果AI学者名单公布,黄子琪、孔令东、北大吉嘉铭、清华顾煜贤等12位年轻华人入选

刚刚,苹果机器学习研究中心(Apple Machine Learning Research)正式公布了 2025 年 AI(人工智能)、ML(机器学习)领域获得博士生奖学金的「苹果学者」名单。 今年共有 21 位年轻学者获得了苹果学者计划的资助,华人占了一半多。 苹果博士奖学金旨在奖励和支持计算机科学与工程领域极具潜力的博士研究生开展研究,每年颁发一次,今年已是第六年。
3/27/2025 1:02:21 PM
机器之心

作业帮编程课程体系全新升级 深度融合AI知识

2025年3月25日,作业帮编程宣布其课程体系全面升级,推出全新的“AI ”课程体系,旨在助力青少年更好地迎接AI时代。 此次升级以培养青少年的科技创新潜质为核心目标,通过深度融合AI知识与应用场景,帮助学生从知识性思维向创造性思维转变。 作业帮编程此次升级的课程体系分为八个阶段,每个阶段都融入了AI知识与人工智能技术的应用场景。
3/25/2025 5:15:00 PM
AI在线

数据越多越好?错了!关键在于如何“喂”给模型

咱们今天聊聊机器学习里的一个重点概念——特征工程。 我们人看东西、做判断,是不是得先抓住事物的关键特点? 比如说,你要判断一个苹果好不好吃,你会看它颜色、闻它香味、摸它硬度,甚至尝一口。
3/24/2025 6:40:00 AM
Python数智工坊

导致大多数企业AI项目失败的致命错误

在企业中的某个领域,或许正有一个AI项目正在走向失败,可能它是一个旨在将销售额提升30%的推荐引擎,可能它是一个旨在大幅减少停机时间的预测性维护系统,又可能是一个本打算彻底改变响应时间的客户服务聊天机器人。 这些雄心勃勃的计划上落满的灰尘,代表的不仅仅是资源的浪费,还有期望的破灭,这让未来推动创新变得更加困难。 期望与现实之间的差距把AI项目想象成冰山。
3/20/2025 1:25:36 PM
Bernard Marr

受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜

@小米技术 官微今日发文称,小米大模型团队在音频推理领域取得突破性进展。受 Deepseek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以 64.5% 的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首,现同步开源。
3/17/2025 11:33:57 AM
远洋

AI助力房地产市场腾飞,预计2030年规模将达1803.45亿美元

全球人工智能(AI)在房地产市场的应用正在迅速崛起,预计到2030年将达到1803.45亿美元,年均增长率高达35%。 这一市场的快速发展得益于机器学习、预测分析等技术的进步,以及房地产管理对自动化的日益需求。 在这一市场中,主要参与者包括 Zillow 集团、Compass、Redfin 公司和 Reonomy 等。
3/14/2025 11:46:00 AM
AI在线

马来西亚Maxis与华为携手推动智能网络运营的AI与ML技术应用

马来西亚电信公司 Maxis 与华为技术(马来西亚)有限公司宣布达成战略合作,旨在通过人工智能(AI)和机器学习(ML)技术,提升网络运营的智能化水平。 这一合作不仅是为了加速 Maxis 的数字化转型,更是希望通过智能化的自我优化网络技术,提升用户体验和运营效率。 根据 Maxis 的声明,此次合作将涵盖一个全面的联合项目,致力于将 AI 和 ML 技术深度整合进 Maxis 的网络运营中。
3/12/2025 4:56:00 PM
AI在线

Science子刊,AI与生物物理建模相结合,设计新型蛋白质

编辑 | 萝卜皮机器学习 (ML) 正在改变计算蛋白质设计的世界,数据驱动方法在实验成功率方面超越了基于生物物理的方法。 然而,它们通常被报告为案例研究,缺乏整合和标准化,因此很难进行客观比较。 在最新的研究中,德国莱比锡大学(Leipzig University)的跨学科研究团队在 Rosetta 软件框架内建立了一个精简且多样化的工具箱,用于预测氨基酸概率的方法,以便对这些模型进行并排比较。
3/6/2025 4:42:00 PM
ScienceAI

利用DeepSeek人工智能和人工智能可解释性预防银行欺诈

分析人工智能驱动的欺诈检测使用XGBoost、SHAP和实时仪表板提高了准确性和透明度,提供了可扩展的解决方案来打击欺诈。 随着人工智能(AI)和机器学习(ML)的发展,银行业的欺诈检测取得了显著进展。 然而,一个持续存在的挑战是欺诈决策的可解释性——我们如何证明为什么一个特定的交易被标记为欺诈?
3/6/2025 11:35:18 AM
Harris编译

使用Rust构建高性能机器学习模型

译者 | 布加迪审校 | 重楼机器学习主要使用Python来完成。 Python之所以大受欢迎,是由于它易于学习,并且有许多机器学习库。 而现在,Rust正成为一种强有力的替代语言。
3/4/2025 8:00:00 AM
布加迪

科大讯飞出品!人人都能懂的AI大模型科普课

在当今科技飞速发展的时代,一个名为"AIGC"(Al Generated Content,人工智能生成内容)的概念正逐渐走进公众视野,并迅速成为各界热议的话题。 无论是社交媒体上的讨论,还是专业论坛中的交流,AIGC都成为了不可忽视的存在。 它不仅代表着技术进步的一个重要里程碑,更是预示着未来内容创作方式的一场深刻变革。
3/4/2025 1:06:18 AM
团队iFlytek STC UXD

PVUW视频分割Workshop@CVPR 2025 | 征稿!比赛!

第四届真实世界下的像素级视频理解挑战赛(The 4th PVUW challenge)主页/Call for Paper::复杂场景视频目标分割挑战赛(MOSE Challenge):参赛、数据集下载::基于动作描述的指向性视频分割挑战赛(MeViS Challenge):参赛、数据集下载: 真实世界下的像素级视频理解(Pixel-level Video Understanding in the Wild, PVUW)挑战赛将于 CVPR 2025 期间在美国田纳西州纳什维尔的 Music City Center 举办。 像素级场景理解是计算机视觉中的核心问题之一,旨在识别图像中每个像素的类别、掩码和语义。 然而,现实世界是动态的,基于视频的,而非静态的图像状态,因此学习进行视频分割对于实际应用来说更为合理和实用。
3/3/2025 4:37:00 PM
新闻助手

机器学习特征筛选:向后淘汰法原理与Python实现

向后淘汰法(Backward Elimination)是机器学习领域中一种重要的特征选择技术,其核心思想是通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。 该方法从完整特征集出发,逐步剔除不重要的特征,最终保留对预测结果最具影响力的变量子集。 向后淘汰法的工作原理向后淘汰法遵循一个迭代式的特征筛选过程,具体步骤如下:初始模型构建:首先使用数据集中的全部特征构建模型。
3/3/2025 10:28:38 AM
Ravindu Ruminates