计算机视觉

OpenCV 应用中九个惊艳的图像处理实例

大家好！今天我们将一起探索OpenCV中的9个实用且惊艳的图像处理技术。无论你是初学者还是有一定基础的朋友，这篇文章都会让你收获满满。

4/10/2025 8:20:00 AM

手把手PythonAI编程

用 OpenCV 实现图像识别的十个基础算法

一、OpenCV简介与图像读写基础1. OpenCV是什么？ OpenCV 是一个强大的计算机视觉库，广泛用于图像和视频处理。

3/25/2025 8:30:00 AM

手把手PythonAI编程

李飞飞团队推出新型图像处理技术，打破传统界限

在计算机视觉领域，如何高效地处理图像一直是研究的热点话题。近日，斯坦福大学的李飞飞教授和吴佳俊教授的团队发布了一项新的研究成果，提出了一种名为 “FlowMo” 的创新型图像 tokenizer。这种新方法在不依赖卷积神经网络（CNN）和生成对抗网络(GAN)的情况下，显著提升了图像重建的质量。

3/21/2025 6:03:00 PM

AI在线

YOLOv8 图像分类及 .tflite 部署

目标检测是计算机视觉中用于识别和定位图像或视频中对象的一种技术。图像定位是使用边界框来识别一个或多个对象的正确位置的过程，这些边界框对应于对象周围的矩形形状。这个过程有时会与图像分类或图像识别混淆，后者的目标是将图像或图像中的对象预测为一个类别或类别之一。

2/24/2025 9:50:21 AM

二旺

解决 NLP 任务的 Transformer 为什么可以应用于计算机视觉？

几乎所有的自然语言处理任务，从语言建模和masked词预测到翻译和问答，在2017年Transformer架构首次亮相后都经历了革命性的变化。 Transformer在计算机视觉任务中也表现出色，只用了2-3年的时间。在这篇文章中，我们探索了两种基础架构，它们使Transformer能够闯入计算机视觉的世界。

2/24/2025 8:20:00 AM

二旺

Meta 出品！Pippo：输入单张人物图片生高分辨率多视角图片

近日，Meta Reality Labs 的研究团队联合高效发布了一项名为 “Pippo” 的创新性生成模型，能够从一张随意拍摄的照片中，生成一段高达1K 分辨率的密集周转视频。这一突破性技术，标志着计算机视觉和图像生成领域的又一重要进展。 Pippo 模型的核心在于其多视图扩散转换器的设计。

2/17/2025 10:32:00 AM

AI在线

OpenCV | 附代码：使用 ORB 算法检测和跟踪对象

本文中，我将解释什么是ORB，何时应该使用它？并演示如何使用ORB创建一个对象跟踪器。文末附完整代码及C 实现。

2/17/2025 7:00:00 AM

二旺

使用 Yolo-NAS 轻松进行对象检测

学习如何使用 Python 和 yolo-NAS 进行对象检测。 YOLO（You Only Look Once，你只看一次）彻底改变了计算机视觉领域。 YOLO 的第一个版本由 Joseph Redmon 等人在 2016 年发布，它在速度和准确性方面都打破了基准。

2/11/2025 8:30:00 AM

二旺

自定义训练的 YOLOv8 模型进行邮票整理

还记得人们过去常常寄信和明信片的日子吗？明信片上通常描绘了你所访问的城市或国家的一些风景如画的景色，但对许多人来说，邮票才是主要的吸引力。它们被视为微型艺术品，被认为是非常值得收藏的。

2/7/2025 2:52:11 PM

二旺

计算机视觉：使用 YOLOv8 创建交通热力图

在一个由数据驱动和导向的世界中，解释、可视化并基于这些数据做出决策的能力变得越来越重要。这意味着，应用正确的工具和技术可能决定一个项目的成败。在计算机视觉领域，有许多技术可以解释从视频（录制、流媒体或实时）中获取的数据。

1/24/2025 7:37:19 AM

二旺

从零开始构建 DINO：自监督视觉 Transformer

DINO模型输出的狗冲刺无标签自蒸馏（DINO）《从几个“补丁”中重建完整图像 | 构建可扩展学习器的掩模自编码器》这边文章讲了如何构建可扩展学习器，这是我对视觉变换器系列的继续，其中我解释了最重要的架构及其从零开始的实现。自监督学习自监督学习（SSL）是一种机器学习类型，模型通过无需手动标记的示例来学习理解数据。相反，它从数据本身生成其监督信号。

1/9/2025 11:14:13 AM

机器学习

YOLO、SSD 和 Faster R-CNN 三种方案实现物体识别的对比

本文旨在开发一个能够准确检测和分割视频中物体的计算机视觉系统。我将使用最先进的三种SoA（State-of-the-Art）方法：YOLO、SSD和Faster R-CNN，并评估它们的性能。然后，我通过视觉分析结果，突出它们的优缺点。

1/6/2025 12:20:00 PM

二旺

传统视觉项目 | 使用 OpenCV 进行运动检测

在技术不断重塑我们与世界互动方式的时代，计算机视觉已成为最令人兴奋的创新领域之一。从自动驾驶汽车到家庭安防系统，检测和解释运动的能力已成为现代应用的重要组成部分。在这些进步的背后，OpenCV（开源计算机视觉库）扮演了核心角色，它使开发者能够构建强大而高效的图像和视频处理系统。

12/31/2024 12:30:00 PM

二旺

基于 OpenCV 和 Matplotlib 的物体移动可视化

在计算机视觉中，一个基本目标是从静态图像或视频序列中提取有意义的信息。为了理解这些信号，通常有助于对其进行可视化。例如，在跟踪高速公路上行驶的单个汽车时，我们可以围绕它们绘制边界框，或者在检测传送带上产品线中的问题时，我们可以使用不同的颜色来标记异常。

12/25/2024 4:35:53 PM

二旺

微调 YOLO 做车辆、人员、交通标志检测 | 附代码+数据集

目标检测在计算机视觉中是一个至关重要的任务，而YOLO（You Only Look Once）因其速度和准确性而脱颖而出。在本指南中，我将带你了解如何微调一个YOLO模型，以检测各种道路标志和物体，例如：车辆行人不同颜色的交通灯人行横道速度限制标志禁止标志警告标志本指南适用于使用Linux的用户。对于Windows用户，Poetry和Cuda的安装可能会有所不同。

12/23/2024 1:10:00 PM

二旺

提升 YOLO 模型：使用 Albumentations 进行高级数据增强

在计算机视觉领域迅速发展的今天，YOLO（You Only Look Once）模型已成为实时目标检测任务的热门选择。从自动驾驶到视频监控，YOLO模型因其速度和准确性而表现出色。然而，与任何机器学习模型一样，训练数据的质量极大地影响着它们的性能。

12/4/2024 4:50:35 PM

二旺

关于计算机视觉中的自回归模型，这篇综述一网打尽了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

12/1/2024 2:10:00 PM

机器之心

基于视觉 Transformer（ViT）进行图像分类

近年来，Transformer 架构彻底改变了自然语言处理（NLP）任务。视觉Transformer（ViT）将这一创新更进一步，将变换器架构适应于图像分类任务。本教程将指导您使用ViT对花卉图像进行分类。

11/21/2024 4:06:02 PM

二旺

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练