AI幻觉
三大模型巨头比拼思考“幻觉”:DeepSeek 不敌 ChatGPT,Gemini 用词最少
近日,智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验:提供相同的提示词,让 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 进行推理分析,研究三个模型在应对幻觉问题上的性能对比。 其研究发现:ChatGPT 03-mini 在应对大模型幻觉问题上占有绝对优势,能够灵活切换不同的策略进行思考推理。 相比之下,DeepSeek R1 和 Gemini 2.0 Flash 虽然能够尝试使用策略,但表现了出对这些策略的抗拒,且推理过程存在错误或混乱。
西湖大学研发 AI 文本检测模型,助力辨别人工智能创作
近日,西湖大学的研究团队成功研发出一种能够检测人工智能生成文本的新模型。 该团队的负责人张岳教授在接受采访时表示,这一模型采用无监督算法,可以有效判断一篇文章是否由 AI 创作,尤其在人工智能迅速发展的当下显得尤为重要。 张岳教授提到,随着科技的不断进步,AI 在创作领域的应用日益普及。
如何应对 AI“一本正经的胡说八道”?研究人员希望它会承认“我不知道”
当前 AI 的训练数据几乎不包含“我不知道”这样的表述,因此它们天生不会谦逊。Cohen 和 Dobler 通过调整 AI 训练过程,使其在可能出错时,至少一部分情况下会选择回答“我不知道”,从而提高整体准确性。
- 1