弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

AI
4月4日
编辑

清源

离大谱了，弱智吧登上正经 AI 论文，还成了最好的华文训练数据？？具体来说，应用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是钻研团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项尝试中取得最高分。没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的华文社区，画风通常是这样的：最离谱的是，弱智吧 AI 代码能力也超过了应用专业技术问答社区思否数据训练的 AI，这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项钻研来自中科院

离大谱了，弱智吧登上正经 AI 论文，还成了最好的华文训练数据？？

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

具体来说，应用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是钻研团队精心挑选的数据集。

在问答、头脑风暴、分类、生成、总结、提取等 8 项尝试中取得最高分。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的华文社区，画风通常是这样的：

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

最离谱的是，弱智吧 AI 代码能力也超过了应用专业技术问答社区思否数据训练的 AI，这下吧友自己都闹不明白了。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

其他平台围观网友也纷纷蚌埠住。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

这项钻研来自中科院深圳先进技术钻研院、中科院自动化钻研所，滑铁卢大学等众多高校、钻研机构联合团队。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

作者之一也现身评论区，透露应用弱智吧数据训练 AI 属于灵机一动，以前只用来尝试。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

弱智吧数据究竟如何达成这一成就，具体到论文中看。

弱智发言成指令微调神器

这项钻研起初为解决华文大模型训练中的诸多成绩：

华文数据集很多是从英文翻译过来的，没有很好地契合华文的语言习惯和文化背景

不少数据集是用 AI 生成的，质量难以保证，容易出现事实性错误

即使是人为标注的数据集，也存在数据量小、覆盖领域不全面等成绩

为了解决这些痛点，团队从华文互联网的各种知识源头直接收集数据，比如知乎、豆瓣、百科、小红书等，经过一系列严格的清洗和人为审核，打造成高质量、多样化的华文指令微调数据集 COIG-CQIA。

除了探索不同数据源的作用，团队还专门从中抽取出一个精华子集 CQIA-Subset。

在众多数据来源中，弱智吧成了最特别的一个。

由 500 个点赞最高的帖子标题 + 人为或 GPT-4 的回复组成指令微调数据集，经过人为审核后，最终留下了 240 组指令-回复数据对。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

分别用各种数据集训练零一万物 Yi 系列开源大模型，在 BELLE-Eval 尝试集上应用 GPT-4 评分得到结果。

在规模较小的 Yi-6B 模型上，纯弱智吧版本总分排名第三，还不算太突出。

看来小模型还没能领悟弱智的精髓。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

到了 Yi-34B，弱智吧版本表现就一骑绝尘了。

只有在改写和数学任务上没能取得最高分，但成绩也比较靠前。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

另外，在安全评估上弱智吧版本也能排上第二。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

对于这类现象，钻研人员在分析中也给出简单猜测：

可能是弱智吧成绩增强了 AI 的逻辑推理能力，从而使指令遵循任务受益。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

当然弱智吧并不是这项钻研的全部，它的真正贡献在于为华文大模型开发提供了一个高质量的指令微调数据集 COIG-CQIA。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

通过对各种华文互联网数据源的探索，这项钻研为构建华文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样，但也存在不少有害信息风险；而百科类数据专业性强，但覆盖面可能不够广。

弱智吧上大分

这项钻研一发，网友集体笑不活。除了“XSWL、思路开阔了”这样的纯围观，也有网友认真讨论起了弱智吧有如此奇效的原因。

大家都比较认可的一个原因是弱智吧题目的“异质”。

像脑筋急转弯，增加了指令多样性，所以提升了模型最终性能：

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

通用数据集多半已经在 pretrain 阶段见过了，再训一遍只会加重 overfitting。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

另一个原因是弱智吧数据文本质量很高，用词准确且简洁。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

千言万语汇成一句话：把弱智吧只当简单的段子合集真的是严重低估了它的价值！

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

雀食，要不此前弱智吧成绩也经常被大家用来尝试大模型呢。

事实上从 ChatGPT 诞生之初，弱智吧就深度参与了大模型的发展，可以算是这一波 AI 浪潮的重要见证者了。

一开始只是网友拿来拷打 AI，搞搞节目效果。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

后来大家发现，弱智吧成绩中充满陷阱，刚好可以用来分辨 AI 能力高低。

还记得 23 年初那会儿，各家大模型第一版还不太能很好应对这类成绩，如 2023 年 3 月的文心一言：

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

后续版本也渐入佳境了，如 2023 年 8 月的文心一言：

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

直到今天，弱智吧成绩都是每个新发布大模型都必须要过的一关，被戏称为弱智吧 Benchmark。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

▲ 秘塔写作猫

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

▲Inspo

再后来，AI 公司们自己也开始重视起来，如百度官方就搞过联动直播。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

当初网友为了调戏大模型专门搜集的弱智吧成绩尝试集，没想到有一天也能摇身一变，成了训练集。

弱智吧竟成最佳华文 AI 训练数据？中科院等：8 项尝试第一，远超知乎豆瓣小红书

思路确实是被打开了～

论文地址：

https://arxiv.org/abs/2403.18058

参考链接：

[1]https://x.com/9hills/status/1775358963724554410

[2]https://zhuanlan.zhihu.com/p/690640864

[3]https://tieba.baidu.com/p/8964992247

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨西风

给TA打赏

共{{data.count}}人

人已打赏

AI 华文弱智数据模型

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3，加入图象局部修改功能

2024-4-4 11:52:06

OpenAI 展示 Sora AI 生成的首支音乐短片《Worldweight》

2024-4-4 16:29:28

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部