近期的一项研讨表明,OpenAI 最新的聊天机器人 GPT-4o 能够供应公德方面的解说和提议,且质量优于“公认的”公德大师所供应的提议。
据 The Decoder 当地时间周六报道,美国北卡罗莱纳大学教堂山分校和艾伦 AI 研讨所的研讨人员从事了两项研讨,将 GPT 模型与人类的公德推理能力从事比拟,以探讨大言语模型是否可被视为“公德大师”。
IT之家汇总研讨内容如下:
研讨一
501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的公德解说。结果表明,人们觉得 GPT 的解说比人类参与者的解说更符合公德、更值得相信、更周密。
评价者也觉得人工智能的评价比其他人更可靠。虽然悬殊很小,但关键发现是 AI 可以匹配甚至超越人类水平的公德推理。
研讨二
将 OpenAI 最新的 GPT-4o 模型生成的提议与《纽约时报》“伦理学家”专栏中著名伦理学家 Kwame Anthony Appiah 的提议从事了比拟。900 名参与者对 50 个“伦理困境”的提议质量从事了评分。
结果表明,GPT-4o 在“几乎每个方面”都胜过人类大师。人们觉得 AI 生成的提议在公德上更正确、更值得相信、更周密、更准确。只有在感知细微差别方面,人工智能和人类大师之间没有显著悬殊。
研讨人员觉得,这些结果表明 AI 可以通过“比拟公德图灵测试”(cMTT)。而文本分析显示,GPT-4o 在供应提议时使用的公德和积极言语比人类大师更多。这可以部分解说为什么 AI 的提议评分更高 —— 但不是唯一因素。
需要注意的是,这项研讨仅仅针对美国参与者从事,后续仍需进一步研讨人们如何看待 AI 生成的公德推理的文化悬殊。
论文地址:https://osf.io/preprints/psyarxiv/w7236