还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

工程
4月3日
编辑

机器之心

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技巧和钻研一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和实质重点分歧，揭示出与横屏视频数据分歧的特点。针对这一分歧，字节跳动技巧团队发布了专注于竖屏视频理解的数据集，提出了多个针对竖屏视频处理的技巧点以及一个初始规划。这项钻研对准确的竖屏视频理解和基础技巧架构有较为重要的意义，论文已入选 CVPR2024。视频 demo 揭示、数据特点演示以及竖屏视频种别分类，请见：，对视频实质的分类、特征提取，以及推荐等有着重要的作用。竖屏视频是目前社交媒体平

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技巧和钻研一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和实质重点分歧，揭示出与横屏视频数据分歧的特点。

针对这一分歧，字节跳动技巧团队发布了专注于竖屏视频理解的数据集，提出了多个针对竖屏视频处理的技巧点以及一个初始规划。这项钻研对准确的竖屏视频理解和基础技巧架构有较为重要的意义，论文已入选 CVPR2024。

视频 demo 揭示、数据特点演示以及竖屏视频种别分类，请见 https://mingfei.info/PMV

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

论文地址：https://arxiv.org/abs/2312.13746

视频分类作为基础的计算机视觉技巧，对视频实质的分类、特征提取，以及推荐等有着重要的作用。竖屏视频是目前社交媒体平台上主导的短视频格式，受到用户的广泛青睐。而竖屏的视频分类技巧在目前的钻研中鲜有关注，为了激发这一规模的钻研，团队提出了一个专用的数据集 PortraitMode-400，蕴含真实的视频数据和 400 个结构化的种别标签。

进一步，通过自建数据和公开数据子集试验，团队初步揭示了横屏数据和竖屏数据之间的分歧，和独特的先验分布，并针对分歧的技巧点进行试验，提出了针对竖屏视频处理的技巧规划。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

团队首先从公开数据 Kinetics-700 中抽取蕴含竖屏视频数量的子集 S100-PM，并对应的抽取同等数量的横屏视频失去 S100-LM。团队分别在 S100-PM 和 S100-LM 上训练两个相同的模型（不含任何预训练），并在相同的尝试集上进行公平尝试，以观察竖屏和横屏视频所含的分歧数据特点。

如下方所示，以上半为例，团队将 S100-PM 训练的模型在竖屏尝试集上做滑窗尝试（16×9 个不重叠的均匀分布的滑窗）失去 Probing-P，同样的可以失去 S100-LM 训练模型的尝试结果 Probing-L。为了观察 S100-PM 模型对 S100-LM 模型的优势，团队做差值图失去 c 图，黄色框 1 表示此位置竖屏训练的模型以大于 9 个点的差值显著优于横屏训练的模型。同样的，团队可以失去下半所示的差值图，S100-LM 训练模型在横屏中下区域的准确率低于 S100-PM 训练模型。

可以观察失去，在确保所有训练和尝试条件一致的情况下，训练数据的分歧带来准确率空间分布上的显著差异，而且差值呈哑铃状分布。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

横屏与竖屏视频的分歧，说明竖屏视频是一种分歧于以往数据的新视频格式，有着分歧的数据特点。为了进一步推动规模钻研，团队提出了数据集 PortraitMode-400，通过自底向上的方式综合大量的热门搜索词，人工筛查和提取失去 400 个蕴含显著动作实质的种别集合，涵盖从饮食运动到休闲娱乐等等规模。每个种别蕴含至少 100 个公开的竖屏视频链接，并已通过人工审查的方式确保数据的高质量可用。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

此外，团队还真对竖屏视频数据的分歧特点进行试验，以期提出一套合理有效的技巧规划。为此，团队利用分歧的模型种别，如 CNN（X3D）、Transformer（MViT v2）、Hyrid-Transformer（Uniformer）在竖屏数据上进行广泛试验。团队发现，与传统横屏数据处理相比，竖屏数据对数据预处理有着不一样的倾向。

如下图上半所示，在 CNN 模型下倾向于 Inception-style 规划，而在 Transformer 类模型下倾向于 shorter-side resize 规划。进一步的，团队发现更好的保持原始视频在训练时的长宽比，可以在同等尝试条件下获得更好的准确率。

如下半所示，随着采样框长宽比增大，Transformer 类模型表现逐渐增强，而 CNN 模型表现相反。这些试验现象表明了，竖屏数据分歧于横屏数据的特点；提供了分歧模型架构下的训练偏好设置。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

最后，团队还在时间信息显著性、音频模态重要性等方面进行了试验。发现时间信息的加入和音频模态的引入，都可以对竖屏数据的准确率带来不小的提升，揭示了在相关规模的钻研空间和可能性。

还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

应用落地和展望

视频分类作为基础的计算机视觉技巧，对视频实质的分类、特征提取，以及推荐等有着重要的作用。针对竖屏视频的专门钻研可以进一步推动相关技巧的发展，增强实质推荐等关键能力，进一步激发竖屏规模的其他类型钻研，如生成等。

给TA打赏

共{{data.count}}人

人已打赏

CVPR2024 字节跳动

可编写的DALL·E 3要来了？一句话就能PS图片

2024-4-1 14:54:00

长文本之罪：Claude团队新逃狱技术，Llama 2到GPT-4无一幸免

2024-4-3 14:50:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部