如何使用glob()递归地查找文件?

这是我所拥有的:

glob(os.path.join('src','*.c'))

但是我想搜索src的子文件夹。这样做是可行的:

glob(os.path.join('src','*.c'))
glob(os.path.join('src','*','*.c'))
glob(os.path.join('src','*','*','*.c'))
glob(os.path.join('src','*','*','*','*.c'))

但这显然是有限和笨拙的。

当前回答

根据其他答案，这是我目前的工作实现，检索根目录中的嵌套XML文件:

files = []
for root, dirnames, filenames in os.walk(myDir):
    files.extend(glob.glob(root + "/*.xml"))

我真的很喜欢python:)

2012-07-28 22:09:23

其他回答

pathlib.Path.rglob

使用pathlib模块中的pathlib. path .rglob，该模块是在Python 3.5中引入的。

from pathlib import Path

for path in Path('src').rglob('*.c'):
    print(path.name)

如果你不想使用pathlib, use可以使用glob.glob('**/*.c')，但不要忘记传入递归关键字参数，这会在大目录上花费过多的时间。

对于以点(.)开头的匹配文件的情况;如当前目录下的文件或基于Unix系统的隐藏文件，请使用操作系统。步行解决方案如下。

os.walk

对于较旧的Python版本，请使用os。递归遍历目录和fnmatch。过滤器匹配一个简单的表达式:

import fnmatch
import os

matches = []
for root, dirnames, filenames in os.walk('src'):
    for filename in fnmatch.filter(filenames, '*.c'):
        matches.append(os.path.join(root, filename))

2010-02-02 18:26:54

考虑pathlib.rglob()。

这就像调用Path.glob()，在给定的相对模式前添加“**/”:

import pathlib


for p in pathlib.Path("src").rglob("*.c"):
    print(p)

也可以在这里看到@taleinat的相关帖子和其他地方的类似帖子。

2019-05-23 12:11:17

对于python >= 3.5，可以使用**，递归=True:

import glob
for f in glob.glob('/path/**/*.c', recursive=True):
    print(f)

如果递归为True(默认为False)，模式**将匹配任何文件和零或者更多的目录和子目录。如果模式后面跟着一个操作系统。Sep，只有目录和子目录匹配。

Python 3演示

2019-08-25 09:45:19

如果这可能会引起任何人的兴趣，我已经介绍了前三种建议的方法。我在globbed文件夹中有大约500K个文件(总共)，并且有2K个文件符合所需的模式。

下面是(非常基本的)代码

import glob
import json
import fnmatch
import os
from pathlib import Path
from time import time


def find_files_iglob():
    return glob.iglob("./data/**/data.json", recursive=True)


def find_files_oswalk():
    for root, dirnames, filenames in os.walk('data'):
        for filename in fnmatch.filter(filenames, 'data.json'):
            yield os.path.join(root, filename)

def find_files_rglob():
    return Path('data').rglob('data.json')

t0 = time()
for f in find_files_oswalk(): pass    
t1 = time()
for f in find_files_rglob(): pass
t2 = time()
for f in find_files_iglob(): pass 
t3 = time()
print(t1-t0, t2-t1, t3-t2)

我得到的结果是: os_walk: ~ 3.6秒 rglob ~ 14.5秒 iglob: ~ 16.9秒

平台:Ubuntu 16.04, x86_64(核心i7)，

2020-06-13 17:39:18

Johan和Bruno就上述最低要求提供了出色的解决方案。我刚刚发布了Formic，它实现了Ant FileSet和glob，可以处理这种情况和更复杂的场景。您的需求的实现是:

import formic
fileset = formic.FileSet(include="/src/**/*.c")
for file_name in fileset.qualified_files():
    print file_name

2012-05-15 08:53:18

如何使用glob()递归地查找文件?

推荐文章

最新文章

标签