计算机视觉

Meta 出品!Pippo:输入单张人物图片生高分辨率多视角图片

近日,Meta Reality Labs 的研究团队联合高效发布了一项名为 “Pippo” 的创新性生成模型,能够从一张随意拍摄的照片中,生成一段高达1K 分辨率的密集周转视频。 这一突破性技术,标志着计算机视觉和图像生成领域的又一重要进展。 Pippo 模型的核心在于其多视图扩散转换器的设计。

OpenCV | 附代码:使用 ORB 算法检测和跟踪对象

本文中,我将解释什么是ORB,何时应该使用它? 并演示如何使用ORB创建一个对象跟踪器。 文末附完整代码及C 实现。

使用 Yolo-NAS 轻松进行对象检测

学习如何使用 Python 和 yolo-NAS 进行对象检测。 YOLO(You Only Look Once,你只看一次)彻底改变了计算机视觉领域。 YOLO 的第一个版本由 Joseph Redmon 等人在 2016 年发布,它在速度和准确性方面都打破了基准。

自定义训练的 YOLOv8 模型进行邮票整理

还记得人们过去常常寄信和明信片的日子吗? 明信片上通常描绘了你所访问的城市或国家的一些风景如画的景色,但对许多人来说,邮票才是主要的吸引力。 它们被视为微型艺术品,被认为是非常值得收藏的。

计算机视觉:使用 YOLOv8 创建交通热力图

在一个由数据驱动和导向的世界中,解释、可视化并基于这些数据做出决策的能力变得越来越重要。 这意味着,应用正确的工具和技术可能决定一个项目的成败。 在计算机视觉领域,有许多技术可以解释从视频(录制、流媒体或实时)中获取的数据。

从零开始构建 DINO:自监督视觉 Transformer

DINO模型输出的狗冲刺无标签自蒸馏(DINO)《从几个“补丁”中重建完整图像 | 构建可扩展学习器的掩模自编码器》这边文章讲了如何构建可扩展学习器,这是我对视觉变换器系列的继续,其中我解释了最重要的架构及其从零开始的实现。 自监督学习自监督学习(SSL)是一种机器学习类型,模型通过无需手动标记的示例来学习理解数据。 相反,它从数据本身生成其监督信号。

YOLO、SSD 和 Faster R-CNN 三种方案实现物体识别的对比

本文旨在开发一个能够准确检测和分割视频中物体的计算机视觉系统。 我将使用最先进的三种SoA(State-of-the-Art)方法:YOLO、SSD和Faster R-CNN,并评估它们的性能。 然后,我通过视觉分析结果,突出它们的优缺点。

传统视觉项目 | ​使用 OpenCV 进行运动检测

在技术不断重塑我们与世界互动方式的时代,计算机视觉已成为最令人兴奋的创新领域之一。 从自动驾驶汽车到家庭安防系统,检测和解释运动的能力已成为现代应用的重要组成部分。 在这些进步的背后,OpenCV(开源计算机视觉库)扮演了核心角色,它使开发者能够构建强大而高效的图像和视频处理系统。

基于 OpenCV 和 Matplotlib 的物体移动可视化

在计算机视觉中,一个基本目标是从静态图像或视频序列中提取有意义的信息。 为了理解这些信号,通常有助于对其进行可视化。 例如,在跟踪高速公路上行驶的单个汽车时,我们可以围绕它们绘制边界框,或者在检测传送带上产品线中的问题时,我们可以使用不同的颜色来标记异常。

微调 YOLO 做车辆、人员、交通标志检测 | 附代码+数据集

目标检测在计算机视觉中是一个至关重要的任务,而YOLO(You Only Look Once)因其速度和准确性而脱颖而出。 在本指南中,我将带你了解如何微调一个YOLO模型,以检测各种道路标志和物体,例如:车辆行人不同颜色的交通灯人行横道速度限制标志禁止标志警告标志本指南适用于使用Linux的用户。 对于Windows用户,Poetry和Cuda的安装可能会有所不同。

提升 YOLO 模型:使用 Albumentations 进行高级数据增强

在计算机视觉领域迅速发展的今天,YOLO(You Only Look Once)模型已成为实时目标检测任务的热门选择。 从自动驾驶到视频监控,YOLO模型因其速度和准确性而表现出色。 然而,与任何机器学习模型一样,训练数据的质量极大地影响着它们的性能。

关于计算机视觉中的自回归模型,这篇综述一网打尽了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

基于视觉 Transformer(ViT)进行图像分类

近年来,Transformer 架构彻底改变了自然语言处理(NLP)任务。 视觉Transformer(ViT)将这一创新更进一步,将变换器架构适应于图像分类任务。 本教程将指导您使用ViT对花卉图像进行分类。

一文教你如何利用 Python 进行图像处理

图像处理是计算机视觉领域的一个重要分支,广泛应用于各种场景,如社交媒体滤镜、医疗影像分析、自动驾驶等。 Python 作为一门强大的编程语言,提供了多种库来帮助我们轻松地进行图像处理。 今天,我们就一起来学习如何使用 Python 进行图像处理。

提高深度学习模型效率的三种模型压缩方法

译者 | 李睿审校 | 重楼近年来,深度学习模型在自然语言处理(NLP)和计算机视觉基准测试中的性能稳步提高。 虽然这些收益的一部分来自架构和学习算法的改进,但数据集大小和模型参数的增长是重要的驱动因素。 下图显示了top-1 ImageNet分类精度作为GFLOPS的函数,GFLOPS可以用作模型复杂性的指标。

优化计算机视觉和图像处理中的图像格式:OpenCV 中的 PNG、JPG 和 WEBP

在计算机视觉和图像处理应用中,选择正确的图像格式可以影响性能和质量。 无论你是在预处理数据以训练深度学习模型、在实时系统上运行推理,还是处理大型数据集,了解PNG、JPG和WEBP的优势和劣势可以帮助你做出明智的选择。 让我们深入了解每种格式在图像处理方面的独特特性,并提供实际的代码示例,展示如何使用Python中的OpenCV加载和保存这些格式。

中国科学院团队发布GeneCompass:解析基因调控密码,打造干湿融合新范式

作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI近年来,大语言模型(LLMs)已在自然语言、计算机视觉等通用领域引发了新一轮技术革命,通过大规模语料和模型参数进行预训练,LLMs能够掌握语言的共性规律,能够对多种下游任务产生质的提升,已经形成了新的人工智能范式。在生命科学领域,单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据,形成了海量的生命「语料」。如果把基因表达值看作单词,组合在一起构成细胞「句子」,进而形成组织「段落」和器官「文章」,并将不同物种作为生命「语种」,利用LLMs相关技

分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告

会议简介随着科技的飞速发展,人工智能已经成为了推动社会进步的重要力量。在这个时代,我们有幸见证并参与到分布式人工智能(Distributed Artificial Intelligence, DAI)的创新与应用中。分布式人工智能是人工智能领域的重要分支,这几年引起了越来越多的关注。基于大型语言模型(LLM)的智能体(Agent)异军突起,通过结合大模型的强大语言理解和生成能力,展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AI Agent正在接棒大语言模型,成为当前AI圈的热点话题。Auto-GPT