首页
/ 正文

opencv python（手把手讲解）

更新时间: 2025-03-22 20:54:18

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战(已更新的所有项目都能学习) / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新开坑项目:《Spring AI 项目实战》 正在持续爆肝中，基于 Spring AI + Spring Boot 3.x + JDK 21...， 点击查看 ;

《从零手撸：仿小红书（微服务架构）》 已完结，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 90w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3100+ 小伙伴加入学习，欢迎点击围观

前言：OpenCV Python 的应用与价值

在数字时代，图像与视频处理技术已渗透到生活的方方面面，从社交媒体滤镜到自动驾驶系统，从医疗影像分析到工业自动化，视觉数据的处理需求持续增长。作为计算机视觉领域的核心工具，OpenCV（Open Source Computer Vision Library）凭借其高效性和开源特性，成为开发者实现图像处理、视频分析和机器学习任务的首选库。而Python语言因其简洁的语法和丰富的生态，成为OpenCV最友好的开发接口。

本文将从编程初学者的角度出发，逐步讲解OpenCV Python的基础知识与核心功能。通过循序渐进的案例演示，帮助读者掌握图像读取、滤波、边缘检测、对象识别等实用技能，并结合实际应用场景理解技术原理。无论是想开发个人项目，还是为后续学习深度学习打下基础，本文都将提供清晰的路径与实用指南。

安装与环境配置：开启视觉编程的第一步

安装方法

在开始编码前，需确保系统已安装Python环境（推荐3.6+版本）。OpenCV Python可通过pip直接安装，命令如下：

pip install opencv-python

此命令会自动安装核心模块opencv-python，若需额外功能（如视频编解码器），可安装完整版：

pip install opencv-contrib-python

验证安装

编写简单脚本验证安装是否成功：

import cv2
print("OpenCV version:", cv2.__version__)

运行后若显示版本号，则说明环境配置完成。若遇到路径问题，可检查Python环境变量或尝试使用虚拟环境工具（如conda）隔离依赖。

基础图像操作：读取、显示与保存

图像读取与数据结构

使用cv2.imread()函数加载图片，参数0表示读取灰度图，1表示彩色图：

image = cv2.imread("example.jpg", 1)

OpenCV将图像存储为NumPy数组，其中每个元素代表像素的BGR（蓝绿红）值。例如，image.shape返回三维元组，如(height, width, 3)，第三个维度对应颜色通道。

图像显示与窗口交互

通过cv2.imshow()创建窗口展示图像：

cv2.imshow("Image Window", image)
cv2.waitKey(0)  # 等待按键按下
cv2.destroyAllWindows()

此代码会暂停执行，直到用户按下任意键。若需指定显示时间（毫秒），可将0替换为具体数值，如cv2.waitKey(1000)。

图像保存

使用cv2.imwrite()将处理后的图像保存为文件：

cv2.imwrite("processed_image.jpg", processed_image)

图像处理核心技巧：从基础到进阶

颜色空间转换：理解图像的“调色盘”

OpenCV默认使用BGR格式存储图像，而大多数Python库（如Matplotlib）使用RGB格式。可通过cv2.cvtColor()进行转换：

rgb_image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

图像滤波：模糊与锐化

均值模糊

通过滑动窗口计算均值，减少噪声：

blurred = cv2.blur(image, (5, 5))  # 窗口大小5x5

高斯模糊

利用高斯权重分布，保留更多边缘细节：

gaussian = cv2.GaussianBlur(image, (5,5), 0)

中值模糊

对椒盐噪声特别有效：

median = cv2.medianBlur(image, 5)

边缘检测：发现图像的“轮廓线”

Canny边缘检测

通过多尺度检测边缘，返回二值图像：

edges = cv2.Canny(image, 100, 200)  # 低阈值100，高阈值200

Sobel算子

检测特定方向的梯度：

sobel_x = cv2.Sobel(image, cv2.CV_64F, 1, 0, ksize=3)

对象检测与识别：从简单轮廓到复杂算法

轮廓检测：寻找形状的“边界”

通过二值图像提取轮廓：

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
ret, thresh = cv2.threshold(gray, 127, 255, 0)
contours, hierarchy = cv2.findContours(thresh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

可绘制轮廓：

cv2.drawContours(image, contours, -1, (0,255,0), 3)

颜色分割：用阈值锁定目标

通过HSV颜色空间分离特定颜色：

hsv = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)
lower_blue = np.array([110,50,50])
upper_blue = np.array([130,255,255])
mask = cv2.inRange(hsv, lower_blue, upper_blue)

预训练模型：快速实现人脸检测

使用Haar级联分类器检测人脸：

face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
faces = face_cascade.detectMultiScale(gray, 1.1, 4)
for (x,y,w,h) in faces:
    cv2.rectangle(image, (x,y), (x+w, y+h), (255,0,0), 2)

视频与实时处理：捕捉动态世界

读取视频文件

cap = cv2.VideoCapture("video.mp4")
while cap.isOpened():
    ret, frame = cap.read()
    if not ret:
        break
    # 在此处添加处理逻辑
    cv2.imshow('Video', frame)
    if cv2.waitKey(25) & 0xFF == ord('q'):
        break
cap.release()

实时摄像头捕获

cap = cv2.VideoCapture(0)  # 0表示默认摄像头
while True:
    ret, frame = cap.read()
    # 处理frame
    cv2.imshow("Live Camera", frame)
    if cv2.waitKey(1) == 27:  # 按ESC退出
        break
cap.release()
cv2.destroyAllWindows()

实战案例：车牌识别系统

系统流程

灰度化与二值化：提取车牌区域
边缘检测：定位车牌轮廓
透视变换：矫正车牌角度
字符分割：分离车牌数字与字母
OCR识别：调用Tesseract进行文字识别

关键代码片段

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
edges = cv2.Canny(gray, 50, 150)
contours, _ = cv2.findContours(edges, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
for cnt in contours:
    approx = cv2.approxPolyDP(cnt, 0.02*cv2.arcLength(cnt,True), True)
    if len(approx) ==4:
        # 进行透视变换
        pts1 = np.float32([approx[0], approx[1], approx[2], approx[3]])
        pts2 = np.float32([[0,0],[500,0],[0,200],[500,200]])
        matrix = cv2.getPerspectiveTransform(pts1, pts2)
        result = cv2.warpPerspective(image, matrix, (500,200))
        # 调用OCR库处理result

进阶方向与资源推荐

深度学习结合

通过cv2.dnn模块集成深度学习模型，例如：

model = cv2.dnn.readNet("model.weights", "model.cfg")
blob = cv2.dnn.blobFromImage(image, 1/255, (416,416), swapRB=True)
model.setInput(blob)
outputs = model.forward()

开源社区资源

官方文档：OpenCV-Python Tutorials
项目灵感：GitHub上的OpenCV-Contrib 仓库
问题解答：Stack Overflow的OpenCV标签

结论：从代码到创造力的跨越

OpenCV Python为开发者提供了从基础图像处理到复杂视觉任务的完整工具链。通过本文的学习，读者已掌握了从环境配置到实战项目的全流程能力。建议读者通过以下路径深化技能：

实践优先：从简单项目（如自动美颜滤镜）逐步挑战复杂任务（如物体追踪）
理解算法：结合数学基础（如卷积、梯度计算）理解代码背后的原理
探索生态：学习与PIL、NumPy等库的协同使用，或结合TensorFlow实现AI视觉应用

视觉技术的边界正在不断扩展，而OpenCV Python正是打开这一领域的金钥匙。保持好奇心，将代码转化为解决问题的工具，你将在计算机视觉的世界中发现无限可能。