Python re模块中的search()和match()函数有什么区别?

我读过Python 2文档(Python 3文档),但我似乎从来都不记得它。我得不停地查资料,重新学习。我希望有人能用例子清楚地回答这个问题,这样(也许)我就能记住它了。或者至少我可以有一个更好的地方带着我的问题回来,重新学习的时间也会更少。


当前回答

您可以参考下面的示例来了解re.match和re.search的工作原理

a = "123abc"
t = re.match("[a-z]+",a)
t = re.search("[a-z]+",a)

Re.match将返回none,但re.search将返回abc。

其他回答

Re.search在整个字符串中搜索模式,而re.match不搜索模式;如果不匹配,则只能在字符串的开头匹配它。

更短:

搜索扫描整个字符串。 Match只扫描字符串的开头。

以下是前任说的:

>>> a = "123abc"
>>> re.match("[a-z]+",a)
None
>>> re.search("[a-z]+",a)
abc

匹配比搜索快得多,所以如果要处理数百万个样本,可以使用regex.match((.*?)word(.*?))而不是使用regex.search("word"),从而获得大量性能。

@ivan_bilan在上面接受的答案下的评论让我思考这样的黑客是否真的能加速任何东西,所以让我们来看看你能真正获得多少吨的性能。

我准备了以下测试套件:

import random
import re
import string
import time

LENGTH = 10
LIST_SIZE = 1000000

def generate_word():
    word = [random.choice(string.ascii_lowercase) for _ in range(LENGTH)]
    word = ''.join(word)
    return word

wordlist = [generate_word() for _ in range(LIST_SIZE)]

start = time.time()
[re.search('python', word) for word in wordlist]
print('search:', time.time() - start)

start = time.time()
[re.match('(.*?)python(.*?)', word) for word in wordlist]
print('match:', time.time() - start)

我做了10次测量(1M, 2M,…), 1000万字),这给了我以下的情节:

可以看到,搜索模式'python'比匹配模式'(.*?)python(.*?)'要快。

Python很聪明。不要试图变得更聪明。

Re.match尝试匹配字符串开头的模式。Re.search尝试在整个字符串中匹配模式,直到找到匹配。

迅速的回答

re.search('test', ' test')      # returns a Truthy match object (because the search starts from any index) 

re.match('test', ' test')       # returns None (because the search start from 0 index)
re.match('test', 'test')        # returns a Truthy match object (match at 0 index)