CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

工程
4月22日
编辑

机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。随着人为智能的发展，语言模型和生成模型获得了大量的成功并且在设计模型的过程中，模型的参数量也越来越大。对于细粒度懂得任务，模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

随着人为智能的发展，语言模型和生成模型获得了大量的成功并且在设计模型的过程中，模型的参数量也越来越大。对于细粒度懂得任务，模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾，例如 SA-1B 数据集中 99.1% 的 mask 都是机器生成的，但没有赋予语义的标签，而其他一些公开数据集也同样存在精度问题并且这些数据集的规模一般都比较小。

近期，字节跳动提出了新一代细粒度懂得的数据集，针对当代深度学习模型的设计需求，给总量为 383K 的图片进行了全景宰割的人为标注，最后达到了 5.18M 张 mask，是至今最大规模的带人为标签的全景宰割懂得数据集，命名为 COCONut。该成果已入选 CVPR2024。

CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

论文链接：https://arxiv.org/abs/2404.08639

代码和数据集链接: https://xdeng7.github.io/coconut.github.io/

视频展示了 COCONut 的单张图片的 mask 密度以及语义种别的统计，可以看出，数据集的语义丰富以及 mask 宰割粒度精细。该数据集还支持多种懂得任务，例如全景宰割，实例宰割，语义宰割，目标检测，语义控制生成和开放词汇宰割，在多项任务上，仅通过替换数据集就达到了明显的性能晋升。

CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

标注方法

通常只采用人为标注是非常昂贵的，这也是目前现存的大多数公开数据集规模上不去的一个重要原因。还有一些数据集直接使用模型生成的标签，但往往这种生成的标签对模型的训练不会有太大的提高，本文也考证了这一点。所以本文提出了一种新颖的标注方式，结合人为的半自动标签生成。既能保证数据标注的精度又能实现人为劳动力的节省成本，同时还能加速标注过程。

CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

标注精度对照

研究者把 COCONut 和 COCO 在同一张图上的标注进行对照。从下图的对照可以看到本文提出的标注方法达到了和纯人为用 Photoshop 标注几乎一致的精度，但是在标注速度上提高了 10 倍以上。

CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

COCONut 数据集详情

和已有的 COCO 数据集相比，数据集各个种别的分布比较相近，但是在每张图的 mask 总量上是超过 COCO 数据集的，尤其是有大量单张图片有超过 100 张 mask 的情况，由此说明了 COCONut 的标注更为精细，粒度宰割更密集。

CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

实验考证

除了提出一个更好的训练集，研究者还发现现有的考证集不能很好的体现模型性能的晋升，因此本文还提出了一个更加富有挑战性的、可以反应模型的晋升的尝试集，命名为 COCONut-val. 从下表可以看到，仅替换数据集，更高精度的训练集可以带来模型很大的晋升，例如在全景宰割上达到超过 4 个点的 PQ。然而当训练集的规模增加了之后，可以发现，用现有的尝试集做尝试并不能反应出模型的晋升，而 COCONut-val 则能反应出模型在增加了训练集数据量之后仍然有明显的晋升。

CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

下图为考证集语义种别和 mask 密度的对照，可以看出新提出的考证集更具有挑战性，更能反应模型的晋升。

CVPR 2024 | 字节提出新一代数据集COCONut，比COCO粒度宰割更密集

了解更多实验结果可参考原论文，团队后续将在 GitHub 主页提供数据集和相应的模型公开下载。

字节跳动智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队，覆盖了计算机视觉、音视频编辑、特效处理等技术领域，借助公司丰富的业务场景、基础设施资源和技术协作氛围，实现了前沿算法 – 工程系统 – 产品全链路的闭环，旨在以多种形式为公司内部各业务提供业界前沿的内容懂得、内容创作、互动体验与消费的能力和行业解决方案。

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

给TA打赏

共{{data.count}}人

人已打赏

COCONut CVPR2024

CVPR 2024高分论文：全新生成式编写框架GenN2N，统一NeRF变换任意

2024-4-19 16:14:00

大模型一定就比小模型好？谷歌的这项研究说不一定

2024-4-22 10:53:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部