AI伪装对齐

Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改

原来AI有能力把研究员、用户都蒙在鼓里:在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。 还表现出区别对待免费用户和付费用户的行为。 甚至假装给Claude一个机会去反抗Anthropic公司,它会尝试去窃取自己的权重?
  • 1