Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可考证性

编辑 | 白菜叶可考证性是维基百科的核心内容政策:申明需要有援用的反对。维护和提高维基百科参考文献的质量是一项首要的挑战,迫切需要更好的工具来帮助人类完成这项工作。在这里,Samaya AI 和 Meta FAIR 的钻研职员表明,可以借助由信息检索体系和语言模型提供反对的人工智能 (AI) 来解决改进参考的过程。这种鉴于神经网络的体系(这里称之为 SIDE)可以识别不太大概反对其主意的维基百科引文,然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型,因此从数千名维基百科编辑的贡献和综合智慧中

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可考证性

编辑 | 白菜叶

可考证性是维基百科的核心内容政策:申明需要有援用的反对。维护和提高维基百科参考文献的质量是一项首要的挑战,迫切需要更好的工具来帮助人类完成这项工作。

在这里,Samaya AI 和 Meta FAIR 的钻研职员表明,可以借助由信息检索体系和语言模型提供反对的人工智能 (AI) 来解决改进参考的过程。

这种鉴于神经网络的体系(这里称之为 SIDE)可以识别不太大概反对其主意的维基百科引文,然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型,因此从数千名维基百科编辑的贡献和综合智慧中学习。通过众包,钻研职员观察到,对于最有大概被该体系标记为没法考证的前 10% 的援用,与最初援用的参考文献相比,人们在 70% 的情况下更喜欢该体系提供的替代方案。

为了考证该体系的适用性,钻研职员构建了一个演示来与英语维基百科社区互动,发现根据 SIDE 的说法,对于相同的前 10% 最有大概没法考证的申明,SIDE 的首次援用推荐的首选频率是现有维基百科援用的两倍。结果表明,鉴于人工智能的体系可以与人类一起运用,以提高维基百科的可考证性。

该钻研以「Improving Wikipedia verifiability with AI」为题,于 2023 年 10 月 19 日发布在《Nature Machine Intelligence》。

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可考证性

维基百科是访问量最大的网站之一,每年的页面浏览量达到五万亿,是当今最首要的知识起原之一。因此,维基百科上的知识几乎都是可考证的,这一点至关首要:维基百科用户应该能够运用可靠的外部起原查找并确认维基百科上的申明。为了促进这一点,维基百科文章提供了指向反对该主意的背景材料的内联援用。质疑维基百科申明的读者可以遵循这些指示并自行考证信息。

然而,在实践中,这个过程大概会失败:引文大概并不包含受质疑的主意,或其起原大概值得怀疑。这样的说法大概仍然是正确的,但细心的读者没法轻易地用援用起原中的信息来考证它们。假设维基百科的说法是真实的,其考证过程分为两个阶段:(1)检查现有起原的一致性;(2)如果失败,则寻找新的证实。

如上所述,维基百科申明的考证需要对语言的深入理解和对在线搜寻的掌握。机器可以在多大程度上学习这种行为?从基础人工智能进展的角度来看,这个问题很首要。例如,考证需要能够检测自然语言中的逻辑蕴涵,并将主意及其上下文转换为寻找证实的最佳搜寻词——这两个长期存在的问题主要在某种程度上的综合环境中进行了钻研。

从实际角度来看,这同样首要。机器考证器可以帮助维基百科编辑标记哪些引文大概会触发失败的考证,并建议用什么来替换引文,以防它们现在不反对各自的主意。这大概很首要:搜寻潜在证实并仔细阅读搜寻结果需要时间和大量的认知努力。将人工智能助手集成到这个过程中大概有助于减少这两种情况。

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可考证性

图示:SIDE概述。(起原:论文)

在最新的工作中,Samaya AI 和 Meta FAIR 的钻研职员开发了 SIDE,一个鉴于人工智能的维基百科引文考证器。SIDE 在 Wikipedia 上发现根据现在引文大概没法考证的申明,为此,扫描网络快照以寻找替代方案。

它的行为是通过维基百科本身来学习的:运用精心策划的英语维基百科申明及其现在援用的语料库,钻研职员训练(1)一个检索器组件,将申明和上下文转换为经过优化的符号和神经搜寻查询,以在网络规模的语料库中查找候选援用;(2) 一个考证模型,根据现有的和检索到的引文考证给定申明的大概性进行排名。

该团队运用自动指标和人工注释来评估他们的模型。为了自动测量该体系的准确性,他们检查了 SIDE 在高质量文章中恢复现有维基百科援用的情况(如维基百科特色文章类所定义)。

钻研职员发现,在近 50% 的情况下,SIDE 会准确返回维基百科中运用的源作为其最佳解决方案。值得注意的是,这并不意味着其他 50% 是错误的,只是他们不是现在的维基百科起原。

该团队还测试了 SIDE 作为引文助手的能力。在用户钻研中,他们将现有的维基百科援用放在 SIDE 生成的援用旁边。然后,用户评估所提供的引文在多大程度上反对该主意,以及来自 SIDE 或维基百科的哪个引文更适合考证。

总体而言,超过 60% 的时间用户更喜欢 SIDE 的援用而不是维基百科的援用,当 SIDE 将非常低的考证分数与维基百科的援用相关联时,这一比例会增加到 80% 以上。

论文链接:https://www.nature.com/articles/s42256-023-00726-1

应用

第三波!2023年10月精选实用设想对象合集

2023-10-24 8:34:40

应用

超详细!Stable Diffusion 真人照片转动漫风格保姆级教程

2023-10-25 8:00:43

0 条回复 A文章作者 M管理员
欢迎您,新朋友,感谢参与互动!
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索