计算机视觉
从零开始构建 DINO:自监督视觉 Transformer
DINO模型输出的狗冲刺无标签自蒸馏(DINO)《从几个“补丁”中重建完整图像 | 构建可扩展学习器的掩模自编码器》这边文章讲了如何构建可扩展学习器,这是我对视觉变换器系列的继续,其中我解释了最重要的架构及其从零开始的实现。 自监督学习自监督学习(SSL)是一种机器学习类型,模型通过无需手动标记的示例来学习理解数据。 相反,它从数据本身生成其监督信号。
YOLO、SSD 和 Faster R-CNN 三种方案实现物体识别的对比
本文旨在开发一个能够准确检测和分割视频中物体的计算机视觉系统。 我将使用最先进的三种SoA(State-of-the-Art)方法:YOLO、SSD和Faster R-CNN,并评估它们的性能。 然后,我通过视觉分析结果,突出它们的优缺点。
传统视觉项目 | 使用 OpenCV 进行运动检测
在技术不断重塑我们与世界互动方式的时代,计算机视觉已成为最令人兴奋的创新领域之一。 从自动驾驶汽车到家庭安防系统,检测和解释运动的能力已成为现代应用的重要组成部分。 在这些进步的背后,OpenCV(开源计算机视觉库)扮演了核心角色,它使开发者能够构建强大而高效的图像和视频处理系统。
基于 OpenCV 和 Matplotlib 的物体移动可视化
在计算机视觉中,一个基本目标是从静态图像或视频序列中提取有意义的信息。 为了理解这些信号,通常有助于对其进行可视化。 例如,在跟踪高速公路上行驶的单个汽车时,我们可以围绕它们绘制边界框,或者在检测传送带上产品线中的问题时,我们可以使用不同的颜色来标记异常。
微调 YOLO 做车辆、人员、交通标志检测 | 附代码+数据集
目标检测在计算机视觉中是一个至关重要的任务,而YOLO(You Only Look Once)因其速度和准确性而脱颖而出。 在本指南中,我将带你了解如何微调一个YOLO模型,以检测各种道路标志和物体,例如:车辆行人不同颜色的交通灯人行横道速度限制标志禁止标志警告标志本指南适用于使用Linux的用户。 对于Windows用户,Poetry和Cuda的安装可能会有所不同。
提升 YOLO 模型:使用 Albumentations 进行高级数据增强
在计算机视觉领域迅速发展的今天,YOLO(You Only Look Once)模型已成为实时目标检测任务的热门选择。 从自动驾驶到视频监控,YOLO模型因其速度和准确性而表现出色。 然而,与任何机器学习模型一样,训练数据的质量极大地影响着它们的性能。
关于计算机视觉中的自回归模型,这篇综述一网打尽了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
基于视觉 Transformer(ViT)进行图像分类
近年来,Transformer 架构彻底改变了自然语言处理(NLP)任务。 视觉Transformer(ViT)将这一创新更进一步,将变换器架构适应于图像分类任务。 本教程将指导您使用ViT对花卉图像进行分类。
一文教你如何利用 Python 进行图像处理
图像处理是计算机视觉领域的一个重要分支,广泛应用于各种场景,如社交媒体滤镜、医疗影像分析、自动驾驶等。 Python 作为一门强大的编程语言,提供了多种库来帮助我们轻松地进行图像处理。 今天,我们就一起来学习如何使用 Python 进行图像处理。
提高深度学习模型效率的三种模型压缩方法
译者 | 李睿审校 | 重楼近年来,深度学习模型在自然语言处理(NLP)和计算机视觉基准测试中的性能稳步提高。 虽然这些收益的一部分来自架构和学习算法的改进,但数据集大小和模型参数的增长是重要的驱动因素。 下图显示了top-1 ImageNet分类精度作为GFLOPS的函数,GFLOPS可以用作模型复杂性的指标。
优化计算机视觉和图像处理中的图像格式:OpenCV 中的 PNG、JPG 和 WEBP
在计算机视觉和图像处理应用中,选择正确的图像格式可以影响性能和质量。 无论你是在预处理数据以训练深度学习模型、在实时系统上运行推理,还是处理大型数据集,了解PNG、JPG和WEBP的优势和劣势可以帮助你做出明智的选择。 让我们深入了解每种格式在图像处理方面的独特特性,并提供实际的代码示例,展示如何使用Python中的OpenCV加载和保存这些格式。
中国科学院团队发布GeneCompass:解析基因调控密码,打造干湿融合新范式
作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI近年来,大语言模型(LLMs)已在自然语言、计算机视觉等通用领域引发了新一轮技术革命,通过大规模语料和模型参数进行预训练,LLMs能够掌握语言的共性规律,能够对多种下游任务产生质的提升,已经形成了新的人工智能范式。在生命科学领域,单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据,形成了海量的生命「语料」。如果把基因表达值看作单词,组合在一起构成细胞「句子」,进而形成组织「段落」和器官「文章」,并将不同物种作为生命「语种」,利用LLMs相关技
分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告
会议简介随着科技的飞速发展,人工智能已经成为了推动社会进步的重要力量。在这个时代,我们有幸见证并参与到分布式人工智能(Distributed Artificial Intelligence, DAI)的创新与应用中。分布式人工智能是人工智能领域的重要分支,这几年引起了越来越多的关注。基于大型语言模型(LLM)的智能体(Agent)异军突起,通过结合大模型的强大语言理解和生成能力,展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AI Agent正在接棒大语言模型,成为当前AI圈的热点话题。Auto-GPT
计算机视觉华人史:权龙与他的学生们
作者 | 赖文昕编辑 | 陈彩娴「简单,是终极的复杂。 」群星闪耀时1988 年的冬天,一辆火车从法国出发、开往卢森堡。 火车上有一行四人,来自法国南锡,他们精神焕发,兴高采烈地讨论着即将开始的旅程。
超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文
作者:赖文昕 马蕊蕾编辑:陈彩娴北京时间今天凌晨,美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式公布了最佳论文等奖项。 今年共有 2 篇论文获得了这份全球最重要的计算机视觉领域的大奖,团队成员分别来自谷歌研究院、加州大学圣地亚哥分校、南加州大学、剑桥大学及布兰迪斯大学。 本周(6.17-6.21),第四十一届国际计算机视觉与模式识别会议(CVPR)在美国西雅图拉开帷幕。
商汤绝影系列原生态大模型亮相2024北京车展:智能汽车加速驶入AGI时代
商汤绝影,率先完成了智能驾驶的四大技术基座布局。
专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
在科技日新月异的今天,手语识别作为一种新兴的跨学科研究领域,正逐渐走进公众视野。 近期,我们邀请了上海大学的方昱春教授,这位在计算机视觉和手语研究领域深耕多年的资深专家,与我们分享了她如何将计算机视觉技术与手语研究相融合,开辟出一片新的研究天地。 方教授的研究重点在于利用计算机视觉技术(CV)探索手语识别,特别是通过深度学习方法来求解这一复杂而神奇的自然语言交流形式。
「AI透视眼」,三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题
遮挡是计算机视觉很基础但依旧未解决的问题之一,因为遮挡意味着视觉信息的缺失,而机器视觉系统却依靠着视觉信息进行感知和理解,并且在现实世界中,物体之间的相互遮挡无处不在。牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作系统性解决了任意物体的遮挡补全问题,并且为这一问题提出了一个新的更加精确的评估数据集。该工作受到了 MPI 大佬 Michael Black、CVPR 官方账号、南加州大学计算机系官方账号等在 X 平台的点赞。以下为论文「Amodal Ground Truth and Compl