计算机视觉

一文教你如何利用 Python 进行图像处理

图像处理是计算机视觉领域的一个重要分支，广泛应用于各种场景，如社交媒体滤镜、医疗影像分析、自动驾驶等。 Python 作为一门强大的编程语言，提供了多种库来帮助我们轻松地进行图像处理。今天，我们就一起来学习如何使用 Python 进行图像处理。

11/20/2024 4:12:31 PM

小白PythonAI编程

提高深度学习模型效率的三种模型压缩方法

译者 | 李睿审校 | 重楼近年来，深度学习模型在自然语言处理（NLP）和计算机视觉基准测试中的性能稳步提高。虽然这些收益的一部分来自架构和学习算法的改进，但数据集大小和模型参数的增长是重要的驱动因素。下图显示了top-1 ImageNet分类精度作为GFLOPS的函数，GFLOPS可以用作模型复杂性的指标。

11/18/2024 8:08:21 AM

李睿

优化计算机视觉和图像处理中的图像格式：OpenCV 中的 PNG、JPG 和 WEBP

在计算机视觉和图像处理应用中，选择正确的图像格式可以影响性能和质量。无论你是在预处理数据以训练深度学习模型、在实时系统上运行推理，还是处理大型数据集，了解PNG、JPG和WEBP的优势和劣势可以帮助你做出明智的选择。让我们深入了解每种格式在图像处理方面的独特特性，并提供实际的代码示例，展示如何使用Python中的OpenCV加载和保存这些格式。

11/7/2024 4:03:09 PM

二旺

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI近年来，大语言模型（LLMs）已在自然语言、计算机视觉等通用领域引发了新一轮技术革命，通过大规模语料和模型参数进行预训练，LLMs能够掌握语言的共性规律，能够对多种下游任务产生质的提升，已经形成了新的人工智能范式。在生命科学领域，单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据，形成了海量的生命「语料」。如果把基因表达值看作单词，组合在一起构成细胞「句子」，进而形成组织「段落」和器官「文章」，并将不同物种作为生命「语种」，利用LLMs相关技

10/8/2024 2:03:00 PM

ScienceAI

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（Distributed Artificial Intelligence， DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AI Agent正在接棒大语言模型，成为当前AI圈的热点话题。Auto-GPT

8/22/2024 4:25:00 PM

新闻助手

计算机视觉华人史：权龙与他的学生们

作者 | 赖文昕编辑 | 陈彩娴「简单，是终极的复杂。」群星闪耀时1988 年的冬天，一辆火车从法国出发、开往卢森堡。火车上有一行四人，来自法国南锡，他们精神焕发，兴高采烈地讨论着即将开始的旅程。

6/28/2024 10:38:00 AM

赖文昕

超 1.2 万人参加 CVPR 2024，谷歌研究院获得最佳论文

作者：赖文昕马蕊蕾编辑：陈彩娴北京时间今天凌晨，美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式公布了最佳论文等奖项。今年共有 2 篇论文获得了这份全球最重要的计算机视觉领域的大奖，团队成员分别来自谷歌研究院、加州大学圣地亚哥分校、南加州大学、剑桥大学及布兰迪斯大学。本周（6.17-6.21），第四十一届国际计算机视觉与模式识别会议（CVPR）在美国西雅图拉开帷幕。

6/20/2024 2:40:00 PM

赖文昕

商汤绝影系列原生态大模型亮相2024北京车展：智能汽车加速驶入AGI时代

商汤绝影，率先完成了智能驾驶的四大技术基座布局。

4/25/2024 7:08:00 PM

李泽南

专访上海大学方昱春教授：数据驱动的手语识别研究，如何破解数据之困？｜GAIR live

在科技日新月异的今天，手语识别作为一种新兴的跨学科研究领域，正逐渐走进公众视野。近期，我们邀请了上海大学的方昱春教授，这位在计算机视觉和手语研究领域深耕多年的资深专家，与我们分享了她如何将计算机视觉技术与手语研究相融合，开辟出一片新的研究天地。方教授的研究重点在于利用计算机视觉技术（CV）探索手语识别，特别是通过深度学习方法来求解这一复杂而神奇的自然语言交流形式。

3/18/2024 2:42:00 PM

吴彤

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

遮挡是计算机视觉很基础但依旧未解决的问题之一，因为遮挡意味着视觉信息的缺失，而机器视觉系统却依靠着视觉信息进行感知和理解，并且在现实世界中，物体之间的相互遮挡无处不在。牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作系统性解决了任意物体的遮挡补全问题，并且为这一问题提出了一个新的更加精确的评估数据集。该工作受到了 MPI 大佬 Michael Black、CVPR 官方账号、南加州大学计算机系官方账号等在 X 平台的点赞。以下为论文「Amodal Ground Truth and Compl

3/8/2024 2:45:00 PM

机器之心

独家 | 美团AI平台视觉中心负责人魏晓林离职

作者：赖文昕编辑：陈彩娴纵观个人履历，魏晓林深耕计算机视觉领域17年。 2007年，魏晓林在美国德克萨斯A&M大学攻读计算机科学博士学位，师承计算机视觉、图形学领域专家柴金祥。 2011年任Google总部高级工程师，是推动Google 3D Maps从零到一发布的核心研发人员。

3/8/2024 10:53:00 AM

赖文昕

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

与聋哑人交流，是一件成本很高的事情。首先要看得懂手语，其次是会打手语。在全球任何一个国家，手语都被归属为一门“小语种”。

3/6/2024 9:48:00 AM

吴彤

ICLR 2024 Spotlight｜厦门大学、Intel、大疆联合出品，从网络视频中学习零样本图像匹配大模型

图像匹配是计算机视觉的一项基础任务，其目标在于估计两张图像之间的像素对应关系。图像匹配是众多视觉应用如三维重建、视觉定位和神经渲染 (neural rendering) 等的基础和前置步骤，其精确度和效率对于后续处理十分重要。传统算法（SIFT）在面临长基线或极端天气等复杂场景时，其匹配的准确度和密度往往有限。为了解决这些问题，近年来，基于深度学习的匹配模型逐渐流行。然而，由于缺乏大规模且多样化的具有真值标签的训练数据，目前的匹配模型通常是在 ScanNet 和 MegaDepth 上分别训练室内和室外两个模型。这

2/29/2024 2:56:00 PM

机器之心

金出武雄和他的中国学生们，计算机视觉五十载风云

突破性的成就对金出武雄来说并不新鲜。自上世纪八十年代以来，金出武雄（Takeo Kanade）一直是卡内基梅隆大学的基础。他发起、领导、合作了几个主要的自主移动机器人和各种应用系统，譬如该校的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM)，只要是与计算机视觉技术的相关项目，总能看到金出武雄的名字。

1/31/2024 11:09:00 AM

吴彤

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

能够有效实现多模态交叉提示跟踪。目标跟踪是计算机视觉的一项基础视觉任务，由于计算机视觉的快速发展，单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性，我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷，以实现复杂环境下全天候目标跟踪。然而，现有的多模态跟踪任务也面临两个主要问题：由于多模态目标跟踪的数据标注成本高，大多数现有数据集规模有限，不足以支持构建有效的多模态跟踪器；因为不同的成像方式在变化的环境中对物体的敏感度不同，开放世界中主导模态是动态变化的，多模态数据之间的主导相关

1/24/2024 2:41:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练