像素
Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作
Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同,从 3 亿到 20 亿不等。它们采用视觉转换器架构,任务共享相同的编码器,而每个任务有不同的解码器头。二维姿势预估:这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应,有助于了解人的姿势和动作。身体部位分割:这项任务将图像分割成不同的身体部位,如头部、躯干、手臂和腿部。图像中的每个像
8/24/2024 2:36:02 PM
故渊
「十亿像素」引领视觉智能技术变革,2022 GigaVision挑战赛圆满落幕
2012 年,深度学习在 ImageNet 图像挑战赛中取得了巨大的突破,被广泛认为是第三次人工智能革命的标志性事件。以此为开端,十多年间,从人脸识别、跟踪到动作识别,围绕各类视觉智能任务的技术都取得了显著的进展,人工智能理论与技术的大变革时代终于到来。
2/28/2023 2:21:00 PM
机器之心
CVPR 2021 Oral | 室内动态场景中的相机重定位
本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的 Oral 论文 “Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments”(通过在空间划分中鲁棒的神经路由实现室内动态场景的相机重定位)的解读。
该论文由北京大学陈宝权研究团队与山东大学、北京电影学院、斯坦福大学和 Google Research 合作,针对室内动态变化场景的相机重定位问题,提出在场景空间划分中进行路由的思想,记忆场景静态信息的同时感知场景动态信息,从而实现鲁棒的相机位姿预测。
实验证明,该方法显著提升了动态变化场景中的相机重定位效果。
7/18/2022 5:03:00 PM
北京大学前沿计算研究中心
- 1
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
Haisnap横空出世,小白用户也能轻松打造AI应用
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
本地部署DeepSeek+DiFy平台构建智能体应用
韩国初创公司 RLWRLD 获 1480 万美元融资,致力于机器人基础模型开发
ChatGPT重磅更新:新增图像库功能,可查看自己用GPT生成的所有图片
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
驾驶
xAI
文本
搜索
字节跳动
大语言模型
Copilot
Claude
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练