谷歌新规引担忧：消息称外包人员被迫评估自己不擅长的 Gemini 回复

作者：远洋

2024-12-19 10:19

据 TechCrunch 报道，谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整，引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样，因自身专业知识不足而跳过某些特定的评估任务，这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现偏差。

据 TechCrunch 报道，谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整，引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样，因自身专业知识不足而跳过某些特定的评估任务，这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现偏差。

为了改进 Gemini，谷歌与其外包公司日立旗下的 GlobalLogic 合作，由后者雇佣的合同工负责评估人工智能生成的回复，评估标准包括“真实性”等因素。此前，如果评估员认为某个问题超出了自身专业领域，例如一个关于心脏病学的专业问题，而评估员本身并无相关科学背景，他们可以选择“跳过”该回应，从而避免评估针对该提示（prompt）的人工智能回复。

然而，上周 GlobalLogic 宣布了一项来自谷歌的变更：评估员不得再以缺乏专业知识为由跳过任何提示。内部通信显示，此前的指导方针是：“如果您没有评估此提示所需的关键专业知识（例如编码、数学），请跳过此任务。”而新的指导方针则改为：“您不应跳过需要特定领域知识的提示。”取而代之的是，评估员需要“评估您理解的提示部分”，并注明自己缺乏相关领域知识。

这项变更引发了人们对 Gemini 在某些主题上准确性的担忧，因为现在评估员有时需要评估一些他们完全不熟悉的、高度专业的技术性人工智能回复，例如关于罕见疾病的问题。一位合同工在内部通信中表示：“我原以为跳过的目的是通过将其交给更专业的人来提高准确性？”

根据新的指导方针，评估员现在只能在两种情况下跳过提示：一是提示或回复“完全缺失信息”，二是提示包含需要特殊同意书才能评估的有害内容。

这项新规的实施，意味着一些对专业性要求极高的领域，例如医疗健康等，将由缺乏相关背景知识的评估员进行评估，这无疑增加了 Gemini 输出不准确信息的风险。外界担忧，此举可能会对用户造成误导，尤其是在涉及健康等重要问题时，不准确的信息可能会带来严重后果。

截至AI在线发稿时，谷歌尚未回应相关报道。

谷歌新规引担忧：消息称外包人员被迫评估自己不擅长的 Gemini 回复

相关资讯

91.1% 准确率，性能远超 GPT-4 系列模型，谷歌推出多模态医学大模型 Med-Gemini

谷歌发布 3 款 Gemini 实验 AI 模型：1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

AI 聊天机器人大战升温：谷歌 Gemini 预告片展示惊艳语音视频交互能力