google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

去年,google发布了 GoEmotions 数据集,该数据集包含 58K 人为标注的 Reddit 谈论,其中涉及 27 种心情。

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

但一位名叫 Edwin Chen 的呆板学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的差错。

他们本来尝试自己在 GoEmotions 数据集上训练模型,注意到似乎存在一些深层的品质成绩。于是他们随机抽取了 1000 条谈论,在其中 308 条中发现了严重差错

这里举一些有代表性的例子:

aggressively tells friend I love them—— 被符号为「愤怒」

Yay, cold McDonald's. My favorite.—— 被符号为「喜爱」

Hard to be sad these days when I got this guy with me—— 被符号为「悲伤」

Nobody has the money to. What a joke—— 被符号为「愉悦」

……

光是从抽取的谈论中,他们就统计到了 25 种被差错符号的心情。

在人为智能领域,数据标注是一项无比基础,但也无比环节的工作。好的数据对于训练模型至关重要,当数据面临如此离谱的差错时,又该怎么训练模型并评价模型的性能呢?

Edwin Chen 最后发问:「我们真的可以相信google能够创造出公正的理想世界人为智能吗?」

所以,是什么导致了这些成绩?

有人说:「有没有可能,他们没请人为标注员,或者请的人为标注员并未把持熟练的英语?」

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

据了解,GoEmotions 数据集的标注还是有人为参与的,只不过这些标注员是「以英语为母语的印度人」。

在论文的第 3.3 节中,有这么一段话:「我们给每个样本分派了三个评价者。对于那些评价者没有达成一致的样本,我们分派了两个额外的评价者。所有评价者都是以英语为母语的印度人。」

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

因为根据「Cowen et al. (2019b) 这项研究的结论,印度和美国两地的英语使用者的心情判断维度很大程度上是相同的。

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

事实是,尽管把持了熟练的英语,标注员之中的许多人可能不了解所标注文本的文化、社会背景。但这却是环节要点之一,尤其是对于 NLP 数据集,标注者必须具备充分的文化意识。

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

也就是说,鉴于很多标注员可能缺乏必要的背景知识,即使大多数的数据标注都不存在争议了(如上图),也不代表标注结果就是完全正确的。

造成这种成绩的另一个重要原因是,数据集中的数据都没有附加的元数据 (比如作者或子版块名称)。原论文中也提到了这一点:

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

语言不是处于真空之中的,它所在的版块等信息无比重要。google在构建数据集时却忽略了这一点。

这不是一个孤立事件:作者还提到,假如连google这种拥有大量资源的公司都难以创建准确的数据集,那么我们见过的其他数据集品质更是难以想象。

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

好消息是,已经有学者关注到了这个成绩。上个月,吴恩达发起了「以数据为中心的 AI」倡议,他表示,专注于提升人为智能系统的数据品质将有助于释放其全部力量。

如果你想部署理想中 work 的呆板学习模型,是时候关注高品质数据集而不是更大的模型了。

参考链接:

https://arxiv.org/pdf/2005.00547.pdf

https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled

给TA打赏
共{{data.count}}人
人已打赏
AI

行业现状令人失望,工作之后我又回到UC伯克利读博了

2022-7-19 14:21:00

AI

Creator 面对面 | 大模型的末了一千米路“不太平”

2022-7-19 15:44:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索