Video Pose Transformer
CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
目前,Video Pose Transformer(VPT)在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来,这些 VPT 的计算量变得越来越大,这些巨大的计算量同时也限制了这个领域的进一步发展,对那些计算资源不足的研究者十分不友好。例如,训练一个 243 帧的 VPT 模型通常需要花费好几天的时间,严重拖慢了研究的进度,并成为了该领域亟待解决的一大痛点。那么,该如何有效地提升 VPT 的效率同时几乎不损失精度呢?来自北京大学的团队提出了一种基于沙漏 Tokenizer 的高效三维人体姿态估计框架HoT,
4/1/2024 11:36:00 AM
机器之心
- 1
资讯热榜
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
谷歌
智能
Midjourney
大模型
学习
GPT
DeepSeek
用户
AI创作
AI
微软
图像
开源
Meta
技术
论文
Stable Diffusion
算法
生成式
蛋白质
马斯克
芯片
Gemini
计算
神经网络
代码
AI设计
Sora
研究
腾讯
3D
开发者
GPU
场景
伟达
模型
英伟达
预测
机器学习
华为
模态
Transformer
文本
驾驶
神器推荐
深度学习
AI视频
AI for Science
苹果
搜索
干货合集
LLaMA
视频生成
算力
百度
2024
Copilot
科技
应用
Anthropic
特斯拉
AI应用场景
安全
具身智能
写作
机器
字节跳动
AGI
视觉
DeepMind
API
架构
语音