微调大模型

破解大模型隐私防线,华科清华联手实现微调数据90%精准识别

微调大模型的数据隐私可能泄露? 最近华科和清华的研究团队联合提出了一种成员推理攻击方法,能够有效地利用大模型强大的生成能力,通过自校正机制来检测给定文本是否属于大模型的微调数据集。 NeurIPS24论文 《Membership inference attacks against fine-tuned large language models via self-prompt calibration》,提出了一种基于自校正概率波动的成员推理攻击算法SPV-MIA,首次在微调大模型场景下将攻击准确度提高至90%以上。
  • 1