图灵测试

用「图灵测试」检验AI尤其是大语言模型,真的科学吗?

当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否像人一样聪明呢?在发布后的近两年时间里,ChatGPT 表现出了一些非常类似人类的行为,比如通过律师资格考试。这让一些人怀疑,计算机的智力水平是否正在接近人类。大多数计算机科学家认为,机器的智力水平还不能与人类相提并论,但他们还没有就如何衡量智力或具体衡量什么达成共识。检验机器智能的经典实验是图灵测试,由艾伦・图灵在其 1950 年发表的论文《Computing Machinery and Intelligence》中提出。图灵认为,如果计算机

ChatGPT后,人工智能的终极里程碑却倒了

大模型的拟人行为,在让我们产生恐怖谷效应。「图灵测试是一个糟糕的测试标准,因为对话能力和推理完全是两码事。」最近几天,AI 圈里一个新的观点正在流行。如今已是生成式 AI 时代,我们评价智能的标准该变了。「机器能思考吗?」这是艾伦・图灵在他 1950 年的论文《计算机器与智能》中提出的问题。图灵很快指出,鉴于定义「思考」的难度,这个问题「毫无意义,不值得讨论」。正如哲学辩论中常见的做法,他建议用另一个问题代替它。图灵设想了一个「模仿游戏」,在这个游戏中,一位人类评判员分别与一台计算机和一名人类(陪衬者)对话,双方都

GPT-4能「伪装」成人类吗?图灵测试结果出炉

纯文本对话,安能辩我是 AI?在测试 AI 时,图灵测试是一个饱受争议但也久负盛名的评估方法,因此总会有研究者不畏繁琐,对新兴的语言模型进行图灵测试。近日,对 GPT-4 的图灵测试结果新鲜出炉了。                                 此图由AI生成「机器能够思考吗?」为了解答这个问题,图灵设计了一个能间接提供答案的模仿游戏。该游戏的最初设计涉及到两位见证者(witness)和一位审问者(interrogator)。两位见证者一个是人类,另一个是人工智能;他们的目标是通过一个纯文本的交互
  • 1