首页
/ 正文

Python3 正则表达式（手把手讲解）

更新时间: 2025-03-23 16:29:21

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战(已更新的所有项目都能学习) / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新开坑项目:《Spring AI 项目实战》 正在持续爆肝中，基于 Spring AI + Spring Boot 3.x + JDK 21...， 点击查看 ;

《从零手撸：仿小红书（微服务架构）》 已完结，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 100w+ 字，讲解图 4013+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3700+ 小伙伴加入学习，欢迎点击围观

前言

在编程世界中，数据处理是一个核心任务。无论是解析日志、提取网页信息，还是验证用户输入，正则表达式（Regular Expression）都是开发者手中一把不可或缺的“瑞士军刀”。Python 3 对正则表达式的支持尤为强大，其内置的 re 模块提供了丰富的功能。本文将通过循序渐进的方式，为编程初学者和中级开发者揭开 Python 3 正则表达式的神秘面纱，结合实际案例解析其核心语法与应用场景。

正则表达式基础语法：构建你的“模式语言”

什么是正则表达式？

正则表达式是一种特殊的文本匹配语言，它通过特定的符号和规则，定义文本的搜索模式。可以将其想象为“文本的乐高积木”——通过组合不同的符号，开发者可以灵活地构建出复杂的数据筛选规则。例如，^\d{4}-\d{2}-\d{2}$ 这个正则表达式可以匹配类似 2023-12-25 的日期格式。

Python 中的 `re` 模块入门

Python 的正则表达式功能主要通过 re 模块实现。使用前需先导入该模块：

import re

核心方法与流程

编译正则表达式：使用 re.compile() 将字符串转换为正则表达式对象，提升复用效率。
```
pattern = re.compile(r"\d{3}-\d{2}-\d{4}")  # 匹配美国电话号码格式  
```
匹配操作：通过 match()、search()、findall() 等方法执行具体操作。
- match()：从字符串开头严格匹配
- search()：在任意位置查找匹配项
- findall()：返回所有匹配结果的列表

示例代码：

text = "Contact: 123-45-6789 (ID) and 987-65-4321 (SSN)"  
pattern = re.compile(r"\d{3}-\d{2}-\d{4}")  
matches = pattern.findall(text)  
print(matches)  # 输出：['123-45-6789', '987-65-4321']

常用元字符与特殊符号：正则表达式的“语法词典”

基础元字符

正则表达式通过特殊符号定义匹配规则，以下是最常用的元字符：

符号	含义	示例模式与说明
`.`	匹配任意单个字符（除换行符）	`a.c` 匹配 "abc"、"a2c"，但不匹配 "ac"
`^`	匹配字符串开头	`^Hello` 匹配以 "Hello" 开头的文本
`$`	匹配字符串结尾	`\.jpg$` 匹配以 ".jpg" 结尾的文件名
`*`	匹配前一项 0 次或多次	"go*gle" 匹配 "ggle"、"google"
`+`	匹配前一项 1 次或多次	"go+gle" 不匹配 "ggle"
`?`	匹配前一项 0 次或 1 次	"colou?r" 匹配 "color" 或 "colour"

比喻解释：

* 和 + 像贪吃的小动物，会尽可能多地吞噬符合条件的字符。
? 则像犹豫的旁观者，只决定是否“额外吃一口”。

字符组与范围匹配

使用 [] 定义字符组，匹配其中任意一个字符。例如：

[abc] 匹配 "a"、"b" 或 "c"
[^abc] 匹配非 a、b、c 的字符
[0-9] 匹配任意数字

进阶技巧：

使用 \d 等预定义缩写（\d = [0-9]，\w = [a-zA-Z0-9_]）可简化模式。
结合 | 实现“或”逻辑，如 apple|banana 匹配 "apple" 或 "banana"。

高级功能：分组、量词与前瞻断言

分组与捕获

通过 () 将模式分组，可以实现以下功能：

捕获组：获取匹配的子字符串。

pattern = re.compile(r"(\d{3})-(\d{2})-(\d{4})")  
match = pattern.search("SSN: 123-45-6789")  
print(match.group(1))  # 输出 "123"（第一个分组）

非捕获组：使用 (?:...) 忽略分组结果。适用于仅需要逻辑分组的情况。

量词的精确控制

默认的 * 和 + 是“贪婪”匹配，会尽可能多匹配字符。若需“非贪婪”模式，可在量词后加 ?：

.*? 匹配尽可能少的字符
.+? 匹配至少 1 个字符，但尽可能少

案例对比：

text = "<title>Python Tutorial</title>"  
greedy = re.search(r"<.*>", text)  # 输出整个字符串  
non_greedy = re.search(r"<.*?>", text)  # 输出 "<title>"

前瞻与后顾断言

通过 ?=（正向肯定）和 ?!（负向否定）实现“条件匹配”：

Q(?=E)：匹配 Q 后跟 E 的位置，但不包含 E。例如，colou?r(?=ing) 匹配 "coloring" 中的 "color"。
(?!...)：确保当前位置不跟随特定模式。

实战案例：正则表达式在 Python 中的典型应用

案例 1：邮箱地址验证

邮箱地址的正则表达式相对复杂，需匹配用户名、@ 符号、域名及顶级域名：

email_pattern = re.compile(r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$")  
print(email_pattern.match("user.name+tag@domain.co.uk"))  # 匹配成功

案例 2：提取网页中的链接

使用正则表达式从 HTML 中提取所有 <a> 标签的 href 属性：

html = "<a href='https://example.com'>Link</a>..."  
link_pattern = re.compile(r'href=["\']([^"\']+)["\']')  
matches = link_pattern.findall(html)  
print(matches)  # 输出 ['https://example.com']

案例 3：日期格式转换

将不同格式的日期统一转换为 YYYY-MM-DD：

text = "Events on 12/25/2023 and 25-12-2023"  
date_pattern = re.compile(r"(\d{1,2})[/-](\d{1,2})[/-](\d{4})")  
new_text = date_pattern.sub(r"\3-\g<2>-\g<1>", text)  
print(new_text)  # 输出 "Events on 2023-12-25 and 2023-25-12"

常见问题与调试技巧

性能优化与陷阱

避免过度使用 .*：贪婪匹配可能导致性能下降，优先使用精确的字符组。
转义特殊字符：如需匹配 . 或 * 字符本身，需用反斜杠 \ 转义。
区分多行模式：re.MULTILINE 标志会影响 ^ 和 $ 的行为，需根据需求设置。

调试工具推荐

使用在线工具（如 Regex101 ）实时测试正则表达式。

Python 中通过 re.DEBUG 标志打印编译过程：

re.compile(r"^\d+", re.DEBUG)  
# 输出详细解析步骤

结论

正则表达式是 Python 3 开发者必须掌握的技能之一。通过本文的学习，读者应能理解其基础语法、掌握常见元字符的用法，并能通过实际案例解决数据处理问题。无论是验证输入、解析日志，还是从文本中提取结构化数据，Python 3 的 re 模块都能提供高效且灵活的解决方案。建议读者通过实践逐步积累经验，并借助调试工具优化复杂模式的编写。记住，正则表达式如同一把双刃剑——合理使用能大幅提升效率，但过度复杂化反而可能适得其反。

在未来的开发中，不妨尝试将正则表达式与 Python 的其他功能（如文件操作、网络请求）结合，探索其更广泛的应用场景。通过持续练习，你将发现这把“文本处理利器”能为你的编程之路带来更多可能性。

Python3 正则表达式（手把手讲解）

前言

正则表达式基础语法：构建你的“模式语言”

什么是正则表达式？

Python 中的 `re` 模块入门

核心方法与流程

常用元字符与特殊符号：正则表达式的“语法词典”

基础元字符

字符组与范围匹配

高级功能：分组、量词与前瞻断言

分组与捕获

量词的精确控制

前瞻与后顾断言

实战案例：正则表达式在 Python 中的典型应用

案例 1：邮箱地址验证

案例 2：提取网页中的链接

案例 3：日期格式转换

常见问题与调试技巧

性能优化与陷阱

调试工具推荐

结论

最新发布

Clion 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

RubyMine 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Rider 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

GoLand 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Pycharm 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

PhpStorm 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Webstorm 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

IDEA 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Pycharm 2026.1.3 最新激活码，破解版安装教程（亲测至2099年）

Rider 2026.1.3 最新激活码，破解版安装教程（亲测至2099年）

Python3 正则表达式（手把手讲解）

前言

正则表达式基础语法：构建你的“模式语言”

什么是正则表达式？

Python 中的 re 模块入门

核心方法与流程

常用元字符与特殊符号：正则表达式的“语法词典”

基础元字符

字符组与范围匹配

高级功能：分组、量词与前瞻断言

分组与捕获

量词的精确控制

前瞻与后顾断言

实战案例：正则表达式在 Python 中的典型应用

案例 1：邮箱地址验证

案例 2：提取网页中的链接

案例 3：日期格式转换

常见问题与调试技巧

性能优化与陷阱

调试工具推荐

结论

最新发布

Clion 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

RubyMine 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Rider 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

GoLand 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Pycharm 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

PhpStorm 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Webstorm 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

IDEA 2026.1.4 最新激活码，破解版安装教程（亲测至2099年）

Pycharm 2026.1.3 最新激活码，破解版安装教程（亲测至2099年）

Rider 2026.1.3 最新激活码，破解版安装教程（亲测至2099年）

Python 中的 `re` 模块入门