首页
/ 正文

Python os.walk() 方法（一文讲透）

更新时间: 2025-03-23 22:24:28

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战(已更新的所有项目都能学习) / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新开坑项目:《Spring AI 项目实战》 正在持续爆肝中，基于 Spring AI + Spring Boot 3.x + JDK 21...， 点击查看 ;

《从零手撸：仿小红书（微服务架构）》 已完结，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 100w+ 字，讲解图 4013+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3700+ 小伙伴加入学习，欢迎点击围观

在 Python 开发中，处理文件和目录的操作是许多项目的核心需求。无论是数据处理、自动化脚本，还是系统管理工具，开发者经常需要遍历文件夹中的所有文件和子目录。此时，os.walk() 方法便成为了一个不可或缺的利器。它如同一位经验丰富的探险家，在复杂的文件系统中精准地导航，帮助开发者高效地完成文件搜索、批量处理等任务。本文将深入解析 os.walk() 方法的原理、使用技巧及实战案例，帮助读者掌握这一工具的核心价值。

一、os.walk() 方法的入门理解

1.1 基本概念与核心功能

os.walk() 是 Python 标准库 os 模块中的一个生成器函数，专门用于递归遍历指定目录下的所有文件和子目录。它的设计灵感来源于“文件系统遍历”这一常见需求，可以避免手动编写复杂的循环逻辑，显著提升开发效率。

核心功能：

自动遍历指定目录及其所有子目录。
返回每一步遍历的路径信息（目录路径、子目录列表、文件列表）。
支持灵活控制遍历顺序和行为。

形象比喻：
想象你是一名探险家，需要探索一座迷宫般的森林。os.walk() 就像一张动态的地图，它会逐层展开你面前的每个岔路口（子目录），并记录下每片区域（路径）中的所有宝藏（文件）。无论森林多么复杂，它都能系统地带你走完每一条路径。

1.2 基本语法与参数说明

语法结构

for root, dirs, files in os.walk(path, topdown=True, follow_links=False):  
    # 处理逻辑

参数详解

path：
- 必需参数，指定要遍历的目录路径（字符串类型）。
- 例如："/home/user/documents" 或 "./project"。
topdown（可选，默认 True）：
- 控制遍历方向：
  - True：自顶向下遍历（先访问父目录，再进入子目录）。
  - False：自底向上遍历（先访问最深层的子目录，再返回父目录）。
- 比喻：若 topdown=True，就像从山顶向下俯瞰山谷；若 topdown=False，则如同从山谷底部一步步爬到山顶。
follow_links（可选，默认 False）：
- 是否跟随符号链接（软链接）：
  - True：遍历链接指向的目标路径。
  - False：仅遍历原始路径，忽略链接。

返回值

os.walk() 生成一个三元组 (root, dirs, files)：

root：当前遍历的目录路径（字符串）。
dirs：当前目录下的子目录列表（字符串列表）。
files：当前目录下的文件列表（字符串列表）。

二、实战案例：掌握 os.walk() 的基础用法

2.1 案例 1：遍历目录并打印所有文件路径

需求：遍历指定目录下的所有文件，并输出完整路径。

代码示例：

import os  

target_dir = "./example_folder"  

for root, _, files in os.walk(target_dir):  
    for file in files:  
        file_path = os.path.join(root, file)  
        print(f"文件路径：{file_path}")

关键点解析：

使用 os.path.join() 合并路径，避免手动拼接字符串导致的错误。
dirs 参数未被使用，故用 _ 占位（Python 中的常见习惯）。

2.2 案例 2：统计指定目录下的文件总数

需求：统计某个目录及其子目录中所有文件的总数。

代码示例：

import os  

def count_files(directory):  
    total = 0  
    for _, _, files in os.walk(directory):  
        total += len(files)  
    return total  

print(f"总文件数：{count_files('./data')}")

逻辑说明：

每次遍历到一个目录时，累加其文件数量（len(files)）。
最终返回总和，实现统计功能。

三、进阶技巧：优化与扩展 os.walk() 的能力

3.1 控制遍历方向：topdown 参数的应用

场景：需要先处理子目录中的文件，再处理父目录中的文件。

代码示例：

import os  

for root, dirs, files in os.walk("./project", topdown=False):  
    print(f"当前路径：{root}")  
    # 可在此处添加对子目录或文件的操作

效果：

输出路径的顺序会从最深层的子目录开始，逐级向上。

3.2 过滤特定文件类型

需求：仅遍历 .txt 文件，并统计其总大小。

代码示例：

import os  

total_size = 0  

for root, _, files in os.walk("./documents"):  
    for file in files:  
        if file.endswith(".txt"):  
            file_path = os.path.join(root, file)  
            total_size += os.path.getsize(file_path)  

print(f"所有 .txt 文件总大小：{total_size} 字节")

技巧：

使用 str.endswith() 过滤文件扩展名。
os.path.getsize() 可获取文件的字节大小。

3.3 动态修改遍历路径：修改 dirs 列表

场景：跳过某些子目录的遍历（例如排除 node_modules）。

代码示例：

import os  

exclude_dir = "node_modules"  

for root, dirs, _ in os.walk("./src"):  
    # 移除需要排除的子目录  
    dirs[:] = [d for d in dirs if d != exclude_dir]  
    print(f"当前遍历的目录：{root}")

关键点：

通过 dirs[:] = ... 直接修改原列表，而非赋值新列表（否则 os.walk() 无法感知变化）。

四、常见问题与解决方案

4.1 问题 1：如何避免递归遍历过深导致的栈溢出？

解答：

限制递归深度：通过自定义函数控制遍历层级。
使用其他工具：如 pathlib 模块的 Path.rglob()（适合简单需求）。

代码示例（限制层级）：

import os  

def walk_with_depth(path, max_depth):  
    root_depth = path.count(os.sep)  
    for root, _, _ in os.walk(path):  
        current_depth = root.count(os.sep)  
        if current_depth - root_depth < max_depth:  
            yield root  

for dir_path in walk_with_depth("./data", 2):  
    print(dir_path)

4.2 问题 2：如何处理权限不足或文件被占用的情况？

解答：

异常处理：使用 try-except 捕获 PermissionError 等异常。
忽略错误继续执行：通过日志记录问题路径，避免程序崩溃。

代码示例：

import os  

for root, dirs, files in os.walk("./sensitive_dir"):  
    try:  
        # 处理文件或目录  
        pass  
    except PermissionError as e:  
        print(f"权限不足：{e}")

五、对比其他方法：为何选择 os.walk()？

5.1 与 glob 模块的对比

os.walk()：适合需要递归遍历并处理多级目录的场景，返回路径层级信息。
glob.glob()：适合通过通配符（如 *.py）快速匹配文件，但不支持递归遍历子目录（除非使用 **）。

示例：

import glob  
print(glob.glob("*.txt"))  # 当前目录的 .txt 文件  

print(glob.glob("**/*.txt", recursive=True))

5.2 与 pathlib.Path 的对比

pathlib 提供了面向对象的路径操作，Path.rglob() 可实现递归搜索：

from pathlib import Path  

for file in Path("./docs").rglob("*.md"):  
    print(file)

优势：代码更简洁，但功能不如 os.walk() 细致（例如无法直接获取子目录列表）。

六、结论

os.walk() 方法是 Python 处理文件系统遍历的“瑞士军刀”，其简洁性、灵活性和强大功能使其成为开发者必备的工具之一。通过本文的学习，读者可以掌握其基础用法、进阶技巧及常见问题的解决方案，从而在自动化脚本、数据分析、系统管理等场景中高效应用。

延伸思考：

结合多线程或异步编程，加速大规模文件处理。
结合正则表达式，实现更复杂的文件过滤逻辑。

掌握 os.walk() 的核心逻辑后，开发者可以进一步探索其他文件操作工具（如 shutil），构建更复杂的文件管理系统。希望本文能成为您 Python 文件操作旅程中的可靠指南！

Python os.walk() 方法（一文讲透）

一、os.walk() 方法的入门理解

1.1 基本概念与核心功能

1.2 基本语法与参数说明

语法结构

参数详解

返回值

二、实战案例：掌握 os.walk() 的基础用法

2.1 案例 1：遍历目录并打印所有文件路径

2.2 案例 2：统计指定目录下的文件总数

三、进阶技巧：优化与扩展 os.walk() 的能力

3.1 控制遍历方向：topdown 参数的应用

3.2 过滤特定文件类型

3.3 动态修改遍历路径：修改 dirs 列表

四、常见问题与解决方案

4.1 问题 1：如何避免递归遍历过深导致的栈溢出？

4.2 问题 2：如何处理权限不足或文件被占用的情况？

五、对比其他方法：为何选择 os.walk()？

5.1 与 glob 模块的对比

5.2 与 pathlib.Path 的对比

六、结论

最新发布

Pycharm 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

Clion 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

Webstorm 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

PhpStorm 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

GoLand 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

RubyMine 2026.2 最新激活码，破解版安装教程（亲测至2099年）

Rider 2026.2 最新激活码，破解版安装教程（亲测至2099年）

DataGrip 2026.2.1 最新激活码,破解版安装教程（亲测至2099年~）

IDEA 2026.2.0.1 最新激活码，破解版安装教程（亲测至2099年）

Clion 2026.2 最新激活码，破解版安装教程（亲测至2099年）