评价
超越现有指标57.3%,邢波教授、胡志挺教授团队提出统一NLG评价框架
长期以来,评价机器生成的文本比较困难。近日,CMU邢波(Eric Xing)教授和UCSD胡志挺(Zhiting Hu)教授的团队提出用一种运算符,统一各类生成任务的评价方式,为未来各种新任务、新要求提供了更加统一的指导。实验表明,基于统一框架设计的评价指标,在多个任务上超过了现有指标与人工评分的相似度,现在通过PyPI和GitHub可以直接调用。
「Pop SOTA!List for AI Developers 2021」社区评价 TOP 128 价值工作完整名录发布!
2022 年初,我们对 2021 年度发布于 arXiv 的「SOTA」AI 论文进行了一轮分析,试图找到 2021 年度,对 AI 开发者最具价值的「Pop SOTA!」工作。但面对超过 2 万篇的「SOTA」工作,我们产生了疑惑 —— 自称「SOTA」的工作就一定是先进的吗?对广大 AI 开发者来说,什么样才是先进的技术工作?是思路具有启发性?还是跑出的实验分数高?是易于实现,对数据资源、计算资源的需求可控?还是放出的代码实现即插即用,可用性强?
- 1