谷歌推出 Cappy “打分”框架，可评估 AI 准确性“教模型更聪明”

作者：漾仔

2024-03-17 04:18

据谷歌官方新闻稿，谷歌近日推出了一项名为 Cappy 的模型打分框架，该框架以 RoBERTa 语言模型为基础，主要用于检测模型输出的内容，并为相关内容打分，之后相关分数将会作为参考基准让模型学习，从而让模型更聪明。▲ 图源谷歌官方新闻稿（下同）此外，Cappy 框架也可以作为大语言模型的“候选机制”，该框架可以内置在模型中，并对模型预输出的内容生成分数，并选择分数最高的回应作为最终输出，以提高大语言模型输出内容的正确性。研究人员提到，相对于业界其他方案，Cappy 框架的 RAM 用量更低，这是由于相关框架无需

据谷歌官方新闻稿，谷歌近日推出了一项名为 Cappy 的模型打分框架，该框架以 RoBERTa 语言模型为基础，主要用于检测模型输出的内容，并为相关内容打分，之后相关分数将会作为参考基准让模型学习，从而让模型更聪明。

谷歌推出 Cappy “打分”框架，可评估 AI 准确性“教模型更聪明”

▲ 图源谷歌官方新闻稿（下同）

此外，Cappy 框架也可以作为大语言模型的“候选机制”，该框架可以内置在模型中，并对模型预输出的内容生成分数，并选择分数最高的回应作为最终输出，以提高大语言模型输出内容的正确性。

谷歌推出 Cappy “打分”框架，可评估 AI 准确性“教模型更聪明”

研究人员提到，相对于业界其他方案，Cappy 框架的 RAM 用量更低，这是由于相关框架无需访问模型参数，因此该框架也能够兼容各种闭源大模型，包括仅支持通过 Web API 访问的模型。

IT之家从报告中得知，研究人员使用 PromptSource 的 11 项语言理解分类任务中测试 Cappy 框架，该框架虽然仅拥有 3.6 亿参数，但报告显示该框架的实际纠错性能优于规模更大的 OPT-175B 和 OPT-IML-30B 模型，因此具有一定前瞻意义。

谷歌推出 Cappy “打分”框架，可评估 AI 准确性“教模型更聪明”

相关标签：

模型框架输出分数 Cappy

相关资讯

又遇到「GPT写的review」了？看看北大&密歇根的这个研究工作

又遇到「GPT写的review」了？看看北大&密歇根的这个研究工作

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文是对发表在计算经济学顶级会议ACM Conference on Economics and Computation (EC'24)上的论文Eliciting Informative T

Geekbench AI 性能跑分工具 1.0 发布，支持 PC 手机全平台

Geekbench AI 性能跑分工具 1.0 发布，支持 PC 手机全平台

感谢Primate Labs 今日发布了 Geekbench AI 基准测试的第一个版本。虽然名称是新的，但该软件是 Geekbench ML 改名而来的。AI在线从 Primate Labs 官方博客获悉，Geekbench ML 包括计算机视觉和自然语言处理测试，已经进行了一段时间的预览。开发者意识到，ML（机器学习）这个术语并不太适合推广工具，取而代之的是更适合营销的 Geekbench AI（人工智能）测试。Geekbench AI 1.0 基准测试支持跨平台，但由于 AI 算法在不同平台上的表现可能截然不

六位一线 AI 工程师分享自身总结，公开大模型应用摸爬滚打一年心得

六位一线 AI 工程师分享自身总结，公开大模型应用摸爬滚打一年心得

六位一线 AI 工程师和创业者，把在大模型应用开发上摸爬滚打一整年的心得，全！分！享！了！（奇怪的六一儿童节大礼包出现了）这篇干货长文，一时间成为开发者社区热议的话题。有网友评价为，大模型领域少有的“有操作性”的实用见解，非常值得一读。这 6 位作者来自不同背景，比如有大厂工程师，也有独立开发者，还有咨询顾问。但他们的共同之处，是过去一年里一直在大模型之上构建真实应用程序，而不只是炫酷的 Demo 演示，他们认为：现在正是非机器学习工程师或科学家，也能把 AI 构建到产品中的时候。在他们的一系列分享中，网友热议的亮

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品阿里云与黑芝麻智能完成大模型车载芯片级适配突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手啥玩意值8499元？马斯克在线打call，国产AI威震天秒售罄

标签云