RegEx:在引号之间抓取值

我的值是这样的:

"Foo Bar" "Another Value" something else

什么正则表达式将返回括在引号中的值(例如Foo Bar和Another Value)?

一般来说，下面的正则表达式片段就是你要找的:

"(.*?)"

这使用了非贪婪的*?运算符来捕获下一个双引号之前的所有内容。然后，使用特定于语言的机制提取匹配的文本。

在Python中，你可以这样做:

>>> import re
>>> string = '"Foo Bar" "Another Value"'
>>> print re.findall(r'"(.*?)"', string)
['Foo Bar', 'Another Value']

2008-10-05 04:24:49

我认为:

"([^"]*)"

[^"]是除'"'以外的任何字符的正则表达式我用这个代替非贪婪多算子的原因是我需要不断地查找以确保我得到的是正确的。

2008-10-05 04:34:35

我一直在使用以下方法并取得了巨大的成功:

(["'])(?:(?=(\\?))\2.)*?\1

它还支持嵌套引号。

对于那些想要更深入地解释这是如何工作的人，这里是用户ephemerent的解释:

([""'])匹配引号;((?=(\\?))\2.)如果存在反斜杠，吞噬它，无论是否发生，匹配一个字符;* ?匹配多次(非贪婪，如不吃结尾引号);\1匹配相同的报价，是用于开幕。

2008-10-05 04:40:14

echo 'junk "Foo Bar" not empty one "" this "but this" and this neither' | sed 's/[^\"]*\"\([^\"]*\)\"[^\"]*/>\1</g'

这将导致:>Foo Bar<><>但这<

在这里，为了清晰起见，我显示了><'s之间的结果字符串，也使用了这个sed命令的非贪婪版本，我们首先抛出' 's之前和之后的垃圾，然后用' ' 's之间的部分替换它，并用><'s包围它。

2008-10-05 12:45:42

这个版本

转义引号的说明控制回溯 /(["'])((?:(?!\ 1 )[^\\]|(?:\\\\)*\\[^\\])*)\ 1 /

2008-10-06 01:42:52

我能够创建这个正则表达式来满足我的需求。

我需要匹配一个包含引号的特定值。它必须是完全匹配的，没有部分匹配可以触发命中

如。“test”不能与“test2”匹配。

reg = r"""(['"])(%s)\1"""
if re.search(reg%(needle), haystack, re.IGNORECASE):
    print "winning..."

猎人

2011-11-29 15:59:09

我喜欢《Axeman》更广阔的版本，但也遇到了一些问题(游戏邦注:例如它并不匹配

foo "string \\ string" bar

foo "string1"   bar   "string2"

所以我试着修正它:

# opening quote
(["'])
   (
     # repeat (non-greedy, so we don't span multiple strings)
     (?:
       # anything, except not the opening quote, and not 
       # a backslash, which are handled separately.
       (?!\1)[^\\]
       |
       # consume any double backslash (unnecessary?)
       (?:\\\\)*       
       |
       # Allow backslash to escape characters
       \\.
     )*?
   )
# same character as opening quote
\1

2013-10-01 19:41:10

string = "\" foo bar\" \"loloo\""
print re.findall(r'"(.*?)"',string)

试试这个，就像一个魅力!!

\表示跳过字符

2014-02-12 07:28:34

很晚才回答，却喜欢回答

(\"[\w\s]+\")

http://regex101.com/r/cB0kB8/1

2014-10-29 15:18:07

让我们看看处理转义引号的两种有效方法。这些模式不是为了简洁或美观而设计的，而是为了高效。

这些方法使用第一个字符区分快速查找字符串中的引号，而不需要进行替换。(这个想法是快速丢弃不是引号的字符，以测试交替的两个分支。)

引号之间的内容用一个展开的循环(而不是重复的交替)来描述，这样也更有效率:[^"\\]*(?:\\.[^"\\]*)*

显然，要处理没有平衡引号的字符串，可以使用所有格量词:[^"\\]*+(?:\\.[^"\\]*)*+或模仿它们的替代方法，以防止太多回溯。你也可以选择一个带引号的部分可以是一个开始引号，直到下一个(非转义)引号或字符串的结尾。在这种情况下，没有必要使用所有格量词，你只需要使最后一个引用是可选的。

注意:有时引号不是用反斜杠转义，而是通过重复引号转义。在这种情况下，内容子模式看起来像这样:[^"]*(?:""[^"]*)*

这些模式避免使用捕获组和反向引用(我的意思是(["']).....\1)，并使用简单的替换，但在factor开头使用["']。

Perl像:

["'](?:(?<=")[^"\\]*(?s:\\.[^"\\]*)*"|(?<=')[^'\\]*(?s:\\.[^'\\]*)*')

(注意，(?s:…)是一个语法糖，用于在非捕获组中打开dotall/单线模式。如果不支持此语法，您可以轻松地为所有模式打开此模式或将点替换为[\s\ s])

(这种模式的编写方式完全是“手工驱动的”，没有考虑到最终的引擎内部优化)

ECMA脚本:

(?=["'])(?:"[^"\\]*(?:\\[\s\S][^"\\]*)*"|'[^'\\]*(?:\\[\s\S][^'\\]*)*')

POSIX扩展:

"[^"\\]*(\\(.|\n)[^"\\]*)*"|'[^'\\]*(\\(.|\n)[^'\\]*)*'

或者仅仅是:

"([^"\\]|\\.|\\\n)*"|'([^'\\]|\\.|\\\n)*'

2015-04-05 00:13:03

模式(["'])(?:(?=(\\?))\2.)*?上面的\1完成了这项工作，但我担心它的性能(它不差，但可以更好)。我的比它快20%。

模式“(.*?)”是不完整的。我对阅读这篇文章的人的建议是不要使用它!!

例如，它不能捕获很多字符串(如果需要，我可以提供一个详尽的测试用例)，如下所示:

$string = '你好吗?我很好，谢谢你;

其余的都和上面那个一样“好”。

如果你真的关心性能和精度，那么就从下面的开始:

/(['"])((\\\ 1 |。)* ?)\ 1 /通用

在我的测试中，它涵盖了我遇到的每一个字符串，但如果你发现一些不工作的东西，我很乐意为你更新它。

在在线正则表达式测试器中检查我的模式。

2015-12-10 10:08:08

接受的答案的RegEx返回值，包括它们的寻源引号:“Foo Bar”和“Another Value”作为匹配。

下面是RegEx，它只返回引号之间的值(正如提问者所要求的那样):

仅使用双引号(使用捕获组#1的值):

"(.*?[^\\])"

仅使用单引号(使用捕获组#1的值):

'(.*?[^\\])'

Both(使用捕获组#2的值):

([']) "(. *? 1 \ [^ \ \])

全部支持转义和嵌套引号。

2016-09-14 09:15:10

更多的答案!这是我使用的解决方案

\"([^\"]*? 图标 [^\"]*?)\"

TLDR; 替换词图标与你所寻找的说语录，瞧!

它的工作方式是寻找关键字，而不关心引号之间的其他内容。例如: id = " fb-icon " id = " icon-close " id = " large-icon-close " 正则表达式查找引号" 然后它寻找任何可能的字母组，而不是“ 直到找到图标任何可能的字母组都不是" 然后它会寻找一个结束。”

2016-11-10 03:06:42

特别的是，这些答案都不会产生一个正则表达式，其中返回的匹配是所要求的引号内的文本。MA-Madden尝试了，但只获得了内部匹配，而不是整个匹配。一种实际的方法是:

(?<=(["']\b))(?:(?=(\\?))\2.)*?(?=\1)

这方面的例子可以在这个演示https://regex101.com/r/Hbj8aP/1中看到

The key here is the the positive lookbehind at the start (the ?<= ) and the positive lookahead at the end (the ?=). The lookbehind is looking behind the current character to check for a quote, if found then start from there and then the lookahead is checking the character ahead for a quote and if found stop on that character. The lookbehind group (the ["']) is wrapped in brackets to create a group for whichever quote was found at the start, this is then used at the end lookahead (?=\1) to make sure it only stops when it finds the corresponding quote.

唯一的另一个复杂之处在于，由于前向查询实际上并不使用结束引号，它将被开始后向查询再次找到，这将导致匹配同一行上结束引号和开始引号之间的文本。在开头引用(["']\b)上加上一个单词边界有助于解决这个问题，尽管理想情况下我想跳过前瞻，但我认为这是不可能的。中间允许转义字符的部分直接取自亚当的回答。

2017-11-10 01:22:45

如果你试图查找只有特定后缀的字符串，比如点语法，你可以尝试这样做:

\"([^\"]*?[^\"]*?)\". 本地化

其中。本地化是后缀。

例子:

打印(“这是我需要归还的东西”。本地化+“所以是这个”。本地化+ "but this is not")

它会捕捉到“这是我需要归还的东西”。本地化和“这也是”。本地化但不是“but this is not”。

2018-03-02 16:51:53

对于Microsoft VBA编码器子集的补充回答，只有一个人使用Microsoft VBScript正则表达式5.5库，这给出了以下代码

Sub TestRegularExpression()

    Dim oRE As VBScript_RegExp_55.RegExp    '* Tools->References: Microsoft VBScript Regular Expressions 5.5
    Set oRE = New VBScript_RegExp_55.RegExp

    oRE.Pattern = """([^""]*)"""


    oRE.Global = True

    Dim sTest As String
    sTest = """Foo Bar"" ""Another Value"" something else"

    Debug.Assert oRE.test(sTest)

    Dim oMatchCol As VBScript_RegExp_55.MatchCollection
    Set oMatchCol = oRE.Execute(sTest)
    Debug.Assert oMatchCol.Count = 2

    Dim oMatch As Match
    For Each oMatch In oMatchCol
        Debug.Print oMatch.SubMatches(0)

    Next oMatch

End Sub

2018-05-04 13:35:27

与亚当的答案不同，我有一个简单但有效的答案:

(["'])(?:\\\1|.)*?\1

如果你想要得到引号中的内容，只需添加圆括号:

(["'])((?:\\\1|.)*?)\1

$1匹配引号字符，$2匹配内容字符串。

2018-05-06 03:32:28

我喜欢Eugen Mihailescu的解决方案，在允许转义引号的同时匹配引号之间的内容。然而，我发现了一些转义的问题，并提出了以下正则表达式来解决它们:

(['"])(?:(?!\1|\\).|\\.)*\1

它做到了这一点，而且仍然非常简单，易于维护。

演示(包含更多的测试用例;请随意使用并扩展它)。

PS:如果你只是想在引号之间的内容完全匹配($0)，并不怕性能惩罚使用:

(?<=(['"])\b)(?:(?!\1|\\).|\\.)*(?=\1)

不幸的是，没有引号作为锚，我不得不添加一个边界\b，它不能很好地处理开始引号后的空格和非单词边界字符。

或者，修改初始版本，只需添加一个组，并从$2中提取字符串:

(['"])((?:(?!\1|\\).|\\.)*)\1

PPS:如果你只关注效率，那就选择Casimir和Hippolyte的解决方案;这是一个很好的例子。

2018-05-13 21:36:39

以上所有的答案都很好....除了他们不支持所有的unicode字符!at ECMA Script (Javascript)

如果你是Node用户，你可能想要支持所有unicode字符的可接受答案的修改版本:

/(?<=((?<=[\s,.:;"']|^)["']))(?:(?=(\\?))\2.)*?(?=\1)/gmu

试着在这里。

2020-05-24 12:08:34

我的解决方案如下

(\[‘])。* 1 (? ! [s ^ \])

演示链接:https://regex101.com/r/jlhQhV/1

解释:

(["'])->匹配'或'，一旦找到匹配，将其存储在反向引用\1中

.* ->贪婪的方法继续匹配所有内容0次或更多次，直到它在字符串末尾遇到'或"。遇到这种状态后，正则表达式引擎返回到上一个匹配字符，此时正则表达式结束，将移动到下一个正则表达式。

\1 ->匹配先前与第一个捕获组匹配的字符或字符串。

(?![^\s]) ->负前向，确保在之前的匹配之后不应该有任何非空格字符

2022-06-14 09:59:27

RegEx:在引号之间抓取值

推荐文章

最新文章

标签