模型训练

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

群组相对策略优化（Group Relative Policy Optimization，GRPO）已被证明是一种有效的算法，可用于训练大语言模型（LLMs），使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调（Supervised Fine-Tuning）与 GRPO 技术的结合，引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。为了进一步探索其实践应用，我们尝试将这些技术应用于现实场景中。

4/7/2025 2:25:00 AM

如何避免交叉验证中的数据泄露？

大家好，我是小寒在机器学习中，交叉验证（Cross-Validation）是一种常用的模型评估技术，目的是通过将数据集分割为多个子集，反复训练和验证模型，以便更好地估计模型的性能。然而，在交叉验证过程中，数据泄露（Data Leakage）是一个非常严重的问题，它会导致模型的评估结果过于乐观，进而使得模型在实际应用中表现不佳。什么是数据泄露数据泄露是指在模型训练过程中，模型不恰当地接触到了与验证集或测试集相关的信息，导致模型的训练过程中“提前知道”了本应该不在训练数据中的信息。

1/22/2025 7:59:59 AM

程序员小寒

将偏好学习引入模型训练，北大李戈团队新框架，可显著提升代码准确性与执行效率

代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的HumanEval得分再多提升10个百分点，最高增幅接近1/3。

11/27/2024 1:36:10 PM

优设专访忠忠：从设计师到SD模型训练师的跨界之路

7/4/2024 7:53:12 AM

优设专栏主编

超详细！写给设计师的LoRa模型训练SOP

写在前面：在推进 AIGC 技术在我们业务中的应用过程中，我发现许多同事，特别是设计师和跨部门协作的团队，对 LoRA 模型在图像生成中的真正价值理解还不够深入。我们似乎更多地停留在"别人在做,我也要做"的从众心态，而没有真正认识到 LoRA 模型的战略意义和变革潜力。这种认知差距可能会导致我们在实践中走一些弯路，无法充分发挥 LoRA 模型的优势，也难以实现 AIGC 技术在业务中的最大化赋能。因此，我针对 LoRA 模型训练流程进行了系统梳理和优化，希望能给大家一些启发，帮助我们更好地理解和应用这一强大的工

4/8/2024 6:51:01 AM

NIC

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 50组多风格提示词，全面测评Midjourney V7生图效果！ Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o 全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 大语言模型神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 架构