如何提取两个标记之间的子字符串?

假设我有一个字符串'gfgfdAAA1234ZZZuijjk'，我想提取'1234'部分。

我只知道在AAA之前的几个字符，以及在ZZZ之后的我感兴趣的部分1234。

使用sed，可以对字符串执行如下操作:

echo "$STRING" | sed -e "s|.*AAA\(.*\)ZZZ.*|\1|"

结果是1234。

如何在Python中做同样的事情?

当前回答

你可以使用re模块:

>>> import re
>>> re.compile(".*AAA(.*)ZZZ.*").match("gfgfdAAA1234ZZZuijjk").groups()
('1234,)

2011-01-12 09:19:21

其他回答

另一种方法是使用列表(假设你正在寻找的子字符串是由数字组成的，只是):

string = 'gfgfdAAA1234ZZZuijjk'
numbersList = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
output = []

for char in string:
    if char in numbersList: output.append(char)

print(f"output: {''.join(output)}")
### output: 1234

2019-10-12 00:30:49

令人惊讶的是，没有人提到这是我的一次性脚本的快速版本:

>>> x = 'gfgfdAAA1234ZZZuijjk'
>>> x.split('AAA')[1].split('ZZZ')[0]
'1234'

2019-02-09 16:57:58

在python中，可以使用正则表达式(re)模块中的findall方法从字符串中提取子字符串。

>>> import re
>>> s = 'gfgfdAAA1234ZZZuijjk'
>>> ss = re.findall('AAA(.+)ZZZ', s)
>>> print ss
['1234']

2018-03-14 09:11:23

如果你想寻找多次出现的情况。

content ="Prefix_helloworld_Suffix_stuff_Prefix_42_Suffix_andsoon"
strings = []
for c in content.split('Prefix_'):
    spos = c.find('_Suffix')
    if spos!=-1:
        strings.append( c[:spos])
print( strings )

或者更快:

strings = [ c[:c.find('_Suffix')] for c in content.split('Prefix_') if c.find('_Suffix')!=-1 ]

2022-08-02 13:28:35

以防有人要做和我一样的事。我必须在一行中提取圆括号内的所有内容。例如，如果我有这样一句话，‘美国总统(巴拉克·奥巴马)会见了……，我只想得到“巴拉克·奥巴马”，这是解决方案:

regex = '.*\((.*?)\).*'
matches = re.search(regex, line)
line = matches.group(1) + '\n'

也就是说，你需要用斜杠\符号来阻止括号。尽管这是一个关于更多正则表达式的问题。

此外，在某些情况下，你可能会在正则表达式定义之前看到'r'符号。如果没有r前缀，你需要像在c中那样使用转义字符。这里有更多关于这个的讨论。

2014-01-19 19:29:00

如何提取两个标记之间的子字符串?

推荐文章

最新文章

标签