微调

WeClone项目亮相，微信聊天记录打造个性化数字分身

人工智能技术正以惊人速度改变我们的数字生活。近日，AIbase注意到一个名为WeClone的开源项目在社交媒体上引发热议。该项目通过分析用户的微信聊天记录，微调大语言模型，创建出高度个性化的数字分身，并可进一步部署为聊天机器人，为用户带来前所未有的交互体验。

4/14/2025 10:01:22 AM

AI在线

RAG还是微调？AI落地的关键选择

你是否曾经面临这样的困境：部门刚刚决定采用大语言模型解决业务痛点，但技术团队却陷入了"到底该用RAG还是微调"的激烈争论中？一边是成本控制派，坚持RAG轻量级方案；另一边是性能至上派，认为只有微调才能满足业务需求。让我们跳出技术视角，用真实业务场景来理解这两种方案。

4/9/2025 11:59:29 AM

大数据AI智能圈

SFT 指令微调数据如何构建?

SFT的重点是学习样式，而非知识注入，所以SFT的样本在于其质量而非数量，少量但精良的样本往往胜过大批中低品质的样本，实现同样甚至更优的微调效果。通常情况下，2-10k数据就会有一个不错的效果。这一理念在Meta发布的《LIMA: Less Is More for Alignment》论文中得到了有力阐述，该文献强调了在指令微调过程中，高品质微调数据的决定性作用。

3/25/2025 10:27:14 AM

Goldma

视觉语言指令微调数据如何构建?

1、构建策略视觉语言指令微调数据构建策略主要有以下两种：标注适配由于视觉模型的发展，已有规模巨大、多样性且高质量的标注数据。这些数据适合于广泛的下游任务，并可容易地改造为指令数据。许多工作将已有的标注数据转化为标准的指令数据格式。

3/21/2025 8:00:00 AM

Goldma

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

研究团队构成：香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。团队核心成员：香港科技大学的研究助理教授曹嘉伦，主要研究领域包括 AI&SE、人工智能测试、形式化验证等；中国科学院软件研究所副研究员陆垚杰，主要研究领域包括大语言模型及其应用。随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。

3/8/2025 3:46:00 PM

机器之心

大家好，我是小寒今天给大家分享深度学习中的三个重要知识点，微调、提炼和迁移学习在深度学习中，微调（Fine-tuning）、提炼（Distillation，即知识蒸馏）和迁移学习（Transfer Learning）是三种常见的模型优化技术，主要用于提高模型的泛化能力、减少训练时间以及优化资源利用率。微调微调是指在一个已经训练好的模型（通常是预训练模型）的基础上，对部分或全部参数进行进一步训练，以适应特定的新任务。通常，预训练模型是在大规模数据集（如ImageNet）上训练得到的，它能够学习到一些通用的特征。

3/3/2025 1:50:00 AM

程序员小寒

DeepSeek开源模型重塑法证审计，个人本地做RAG+微调，25年多试试

全球82亿人口，网民55.6亿，而ChatGPT坐拥3.5亿全球月活，渗透率算下来也有6%左右了。但这还是DeepSeek-R1开源之前的故事。 1/20 开源以来，DeepSeek-R1属实又硬拉高了一大波全球 AI的渗透率，或者换句话说，是解锁了更多的应用场景。

2/21/2025 2:37:21 PM

韦东东

DARWIN 1.5 来啦！材料设计通用大语言模型，刷新多项实验性质预测记录

编辑丨Science AI材料发现和设计的核心目标是寻找理想的成分和结构，但传统方法，如高通量模拟和机器学习，通常依赖于复杂描述符，过于固定且难以通用，并且无法准确反映真实材料特性，因而限制了实际应用。 GreenDynamic 与来自澳大利亚新南威尔士大学（UNSW），上海人工智能实验室和香港城市大学的团队共同开发了一款名为 DARWIN 1.5 的模型。不同于传统机器学习方法，DARWIN 基于语言接口微调框架（LIFT，2022 NeurIPS, 本文共同作者），整合了 33 万科学问答和 22 个材料科学任务，为材料属性预测和发现提供了灵活统一的预训练模型，并且成功精准预测了上万种材料的性质数值。

1/27/2025 6:47:00 PM

ScienceAI

微调已死，强化微调万岁

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）OpenAI第二天的直播，奥特曼没有出镜，几位OpenAI的研究员带了一场AI模型的定制魔法秀！ “这不是标准的微调......它利用强化学习算法，将我们从高级高中水平带到专家级博士水平。 ”1.12个样本，就能让定制o1超过满血o1标准的微调已经过时了，这次 OpenAI 打破了 AI 定制的界限。

12/10/2024 9:07:17 AM

言征

OpenAI 活动第二弹：“强化微调”打造领域专家 AI 模型，阿尔特曼称其为今年最大惊喜

OpenAI 启动了为期 12 天的“shipmas”新品发布周期，将推出一系列新功能、新产品以及相关演示。本次活动第二日，OpenAI 推出了强化微调（Reinforcement Fine-Tuning），帮助开发者和机器学习工程师打造针对特定复杂领域任务的专家模型。

12/7/2024 7:15:37 AM

故渊

将偏好学习引入模型训练，北大李戈团队新框架，可显著提升代码准确性与执行效率

代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的HumanEval得分再多提升10个百分点，最高增幅接近1/3。

11/27/2024 1:36:10 PM

在家中完成LLM微调高效指南（上）

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）LLM在生成文本和理解信息方面非常有效，但它们最终受限于训练数据的语料库。例如，如果你让一个通用的预训练模型回答与你的业务特定流程或操作有关的问题，最好的结果是它拒绝，最坏的情况是它会信誓旦旦地给出一个看似合理但错误的答案。当然，你可以通过自己训练一个模型来解决这个问题，但所需的资源往往超出实际可行的范围。

11/11/2024 1:33:28 PM

言征

微调 GPT-4o AI 模型新维度，OpenAI 开放图片视觉微调功能

OpenAI 公司昨日（10 月 1 日）发布博文，宣布为 GPT-4o 模型引入视觉微调（vision fine-tuning）功能，除了文本之外还支持微调图像。OpenAI 表示自开放微调 GPT-4o 以来，数十万开发者使用数据集（仅文本）微调了该模型，从而提高了驾驭某些特定任务的能力。OpenAI 在博文中展示了一些合作伙伴的微调案例：Garb ：通过视觉微调，提升了交通标志定位准确性 20% 和限速标志定位 13%。Automat：成功率从 16.60% 提升至 61.67%，并在信息提取任务中 F1 分

10/2/2024 2:00:13 PM

故渊

《Python机器学习》作者科普长文：从头构建类GPT文本分类器，代码开源

学起来吧！近日，机器学习研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 又分享了一篇长文，主题为《从头开始构建一个 GPT 风格的 LLM 分类器》。文章展示了如何将预训练的大型语言模型（LLM）转化为强大的文本分类器。AI在线对文章内容进行了不改变原意的编译、整理：为什么要关注分类呢？首先，针对分类任务，对预训练模型进行微调是一个简单有效的 LLM 知识入门方式。其次，文本分类有许多商业应用场景，比如：垃圾邮件检测、情感分析、客户反馈分类、主题分类等等。阅读完本文，你将找到以下

9/28/2024 2:24:00 PM

机器之心

OpenAI 开放 GPT-4o 定制功能，企业可更轻松打造专属 AI 助手

OpenAI 推出了一项新功能，允许企业客户使用自己的数据来定制其最强大的 AI 模型 GPT-4o。此举旨在应对日益激烈的 AI 企业应用竞争，并满足企业对 AI 投资回报的更高要求。所谓定制，即业界所称的“微调（fine-tuning）”。通过微调，现有 AI 模型可以针对特定任务或领域进行优化。例如，一家滑板公司可以微调 AI 模型，使其成为能够回答有关轮子和滑板护理问题的客服聊天机器人。此前，OpenAI 仅允许用户微调其较小的模型，如 GPT-4o mini。而此次开放 GPT-4o 和 GPT-4 的微

8/21/2024 6:53:18 AM

远洋

清华北航博士生「强迫」Gemma-2 说中文！弱智吧、角色扮演、数学问题表现惊喜

【新智元导读】谷歌的 Gemma 2 刚刚发布，清华和北航的两名博士生就已经成功推出了指令微调版本，显著增强了 Gemma 2 9B / 27B 模型的中文通用对话、角色扮演、数学、工具使用等能力。众所周知，很多国外 LLM 一直存在非英语歧视问题，英语和其他语言在 LLM 中存在的性能差距有时可以用悬殊来形容。之前就有网友发现，GPT-4o 分词器语料库中，中文数据污染非常严重，赌博色情网站是一个也不少，严重影响了我们用中文和 AI 机器人好好聊天。最近发布的 Gemma 2 模型虽然既开源又强悍，但比较遗憾的是

7/6/2024 3:12:06 PM

清源

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

除了 OpenAI 自己，居然还有别人能用上 GPT-4-Base 版？？也就是未经微调的预训练版，还不会对话聊天，只会补全句子的模型。EPFL（瑞士洛桑联邦理工）团队申请到了访问权限，用于研究“上下文学习足以让大模型跟随指令吗？”。也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法，只靠提示词能走多远？预训练模型，究竟能不能一步登天，直接改造成聊天机器人或 AI 助手？如果可行，将大大降低类 ChatGPT 大模型的开发难度。免微调对齐靠谱吗？免微调对齐，让刚出炉的预训练模型不止会“文本补全”，只从提示

6/3/2024 6:38:37 PM

清源

为百亿参数LLM化学应用提供新范式，香港理工大学提出上下文分子微调

作者 | 香港理工大学李佳潼编辑 | ScienceAI去年，香港理工大学研究团队开发了一个基于检索的提示范式MolReGPT，利用大型语言模型探索分子发现，在分子和分子文本描述之间进行翻译。近日，香港理工大学、上海交通大学和上海人工智能实验室联合发表了题为《Large Language Models are In-Context Molecule Learners》的文章，也是MolReGPT[1]的续作。论文链接：：，大语言模型在生物化学领域展现出了优异的性能，尤其是分子-描述翻译任务[1]，这减小了自然语言描

5/29/2024 4:17:00 PM