H-CoT

OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击

随着通向通用人工智能(AGI)的进展,大语言模型正进化出复杂推理能力,衍生出所谓「大型推理模型」(Large Reasoning Models, LRMs)。 OpenAI 的o系列模型凭借接近人类的推理水准刷新了诸多基准,另一边新的模型DeepSeek-R1也以更低成本实现了与o系列相当的性能。 这些模型不仅能逐步推理复杂问题,还开始将思维链(Chain-of-Thought, CoT)用于安全审查,在回答用户请求前通过内部推理判断内容是否违规,这种思路其实为平衡实用性和安全性提供了一个很有前景方向。
  • 1