图灵测试 - AI在线

用「图灵测试」检验AI尤其是大语言模型，真的科学吗？

当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否像人一样聪明呢？在发布后的近两年时间里，ChatGPT 表现出了一些非常类似人类的行为，比如通过律师资格考试。这让一些人怀疑，计算机的智力水平是否正在接近人类。大多数计算机科学家认为，机器的智力水平还不能与人类相提并论，但他们还没有就如何衡量智力或具体衡量什么达成共识。检验机器智能的经典实验是图灵测试，由艾伦・图灵在其 1950 年发表的论文《Computing Machinery and Intelligence》中提出。图灵认为，如果计算机

ChatGPT后，人工智能的终极里程碑却倒了

大模型的拟人行为，在让我们产生恐怖谷效应。「图灵测试是一个糟糕的测试标准，因为对话能力和推理完全是两码事。」最近几天，AI 圈里一个新的观点正在流行。如今已是生成式 AI 时代，我们评价智能的标准该变了。「机器能思考吗？」这是艾伦・图灵在他 1950 年的论文《计算机器与智能》中提出的问题。图灵很快指出，鉴于定义「思考」的难度，这个问题「毫无意义，不值得讨论」。正如哲学辩论中常见的做法，他建议用另一个问题代替它。图灵设想了一个「模仿游戏」，在这个游戏中，一位人类评判员分别与一台计算机和一名人类（陪衬者）对话，双方都

GPT-4能「伪装」成人类吗？图灵测试结果出炉

纯文本对话，安能辩我是 AI？在测试 AI 时，图灵测试是一个饱受争议但也久负盛名的评估方法，因此总会有研究者不畏繁琐，对新兴的语言模型进行图灵测试。近日，对 GPT-4 的图灵测试结果新鲜出炉了。此图由AI生成「机器能够思考吗？」为了解答这个问题，图灵设计了一个能间接提供答案的模仿游戏。该游戏的最初设计涉及到两位见证者（witness）和一位审问者（interrogator）。两位见证者一个是人类，另一个是人工智能；他们的目标是通过一个纯文本的交互