像素

Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同，从 3 亿到 20 亿不等。它们采用视觉转换器架构，任务共享相同的编码器，而每个任务有不同的解码器头。二维姿势预估：这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应，有助于了解人的姿势和动作。身体部位分割：这项任务将图像分割成不同的身体部位，如头部、躯干、手臂和腿部。图像中的每个像

8/24/2024 2:36:02 PM

故渊

「十亿像素」引领视觉智能技术变革，2022 GigaVision挑战赛圆满落幕

2012 年，深度学习在 ImageNet 图像挑战赛中取得了巨大的突破，被广泛认为是第三次人工智能革命的标志性事件。以此为开端，十多年间，从人脸识别、跟踪到动作识别，围绕各类视觉智能任务的技术都取得了显著的进展，人工智能理论与技术的大变革时代终于到来。

2/28/2023 2:21:00 PM

机器之心

CVPR 2021 Oral | 室内动态场景中的相机重定位

本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的 Oral 论文 “Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments”（通过在空间划分中鲁棒的神经路由实现室内动态场景的相机重定位）的解读。该论文由北京大学陈宝权研究团队与山东大学、北京电影学院、斯坦福大学和 Google Research 合作，针对室内动态变化场景的相机重定位问题，提出在场景空间划分中进行路由的思想，记忆场景静态信息的同时感知场景动态信息，从而实现鲁棒的相机位姿预测。实验证明，该方法显著提升了动态变化场景中的相机重定位效果。

7/18/2022 5:03:00 PM

北京大学前沿计算研究中心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练