是否可以用另一个正则表达式检测一个有效的正则表达式?如果是这样,请给出下面的示例代码。
当前回答
虽然完全可以使用MizardX发布的递归正则表达式,但对于这种事情,解析器更有用。正则表达式最初用于常规语言,递归或具有平衡组只是一个补丁。
定义有效正则表达式的语言实际上是一种与上下文无关的语法,您应该使用适当的解析器来处理它。下面是一个大学项目的示例,用于解析简单的正则表达式(没有大多数构造)。它使用JavaCC。是的,注释是西班牙语,尽管方法名是不言自明的。
SKIP :
{
" "
| "\r"
| "\t"
| "\n"
}
TOKEN :
{
< DIGITO: ["0" - "9"] >
| < MAYUSCULA: ["A" - "Z"] >
| < MINUSCULA: ["a" - "z"] >
| < LAMBDA: "LAMBDA" >
| < VACIO: "VACIO" >
}
IRegularExpression Expression() :
{
IRegularExpression r;
}
{
r=Alternation() { return r; }
}
// Matchea disyunciones: ER | ER
IRegularExpression Alternation() :
{
IRegularExpression r1 = null, r2 = null;
}
{
r1=Concatenation() ( "|" r2=Alternation() )?
{
if (r2 == null) {
return r1;
} else {
return createAlternation(r1,r2);
}
}
}
// Matchea concatenaciones: ER.ER
IRegularExpression Concatenation() :
{
IRegularExpression r1 = null, r2 = null;
}
{
r1=Repetition() ( "." r2=Repetition() { r1 = createConcatenation(r1,r2); } )*
{ return r1; }
}
// Matchea repeticiones: ER*
IRegularExpression Repetition() :
{
IRegularExpression r;
}
{
r=Atom() ( "*" { r = createRepetition(r); } )*
{ return r; }
}
// Matchea regex atomicas: (ER), Terminal, Vacio, Lambda
IRegularExpression Atom() :
{
String t;
IRegularExpression r;
}
{
( "(" r=Expression() ")" {return r;})
| t=Terminal() { return createTerminal(t); }
| <LAMBDA> { return createLambda(); }
| <VACIO> { return createEmpty(); }
}
// Matchea un terminal (digito o minuscula) y devuelve su valor
String Terminal() :
{
Token t;
}
{
( t=<DIGITO> | t=<MINUSCULA> ) { return t.image; }
}
其他回答
好问题。
真正的规则语言不能任意地决定嵌套良好的圆括号。如果你的字母表中包含'('和')',目标是判断这些字符串是否有格式良好的匹配圆括号。因为这是正则表达式的必要要求,所以答案是否定的。
但是,如果您放宽要求并添加递归,您可能就可以做到这一点。原因是递归可以作为一个堆栈,让您通过推入这个堆栈来“计算”当前嵌套深度。
Russ Cox写了“正则表达式匹配可以简单而快速”,这是一篇关于正则表达式引擎实现的精彩论文。
/
^ # start of string
( # first group start
(?:
(?:[^?+*{}()[\]\\|]+ # literals and ^, $
| \\. # escaped characters
| \[ (?: \^?\\. | \^[^\\] | [^\\^] ) # character classes
(?: [^\]\\]+ | \\. )* \]
| \( (?:\?[:=!]|\?<[=!]|\?>)? (?1)?? \) # parenthesis, with recursive content
| \(\? (?:R|[+-]?\d+) \) # recursive matching
)
(?: (?:[?+*]|\{\d+(?:,\d*)?\}) [?+]? )? # quantifiers
| \| # alternative
)* # repeat content
) # end first group
$ # end of string
/
这是一个递归正则表达式,许多正则表达式引擎都不支持。基于PCRE的程序应该支持它。
没有空格和注释:
/^((?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>)?(?1)??\)|\(\?(?:R|[+-]?\d+)\))(?:(?:[?+*]|\{\d+(?:,\d*)?\})[?+]?)?|\|)*)$/
. net不直接支持递归。(?1)和(?R)结构。)递归必须转换为计算平衡的组:
^ # start of string
(?:
(?: [^?+*{}()[\]\\|]+ # literals and ^, $
| \\. # escaped characters
| \[ (?: \^?\\. | \^[^\\] | [^\\^] ) # character classes
(?: [^\]\\]+ | \\. )* \]
| \( (?:\?[:=!]
| \?<[=!]
| \?>
| \?<[^\W\d]\w*>
| \?'[^\W\d]\w*'
)? # opening of group
(?<N>) # increment counter
| \) # closing of group
(?<-N>) # decrement counter
)
(?: (?:[?+*]|\{\d+(?:,\d*)?\}) [?+]? )? # quantifiers
| \| # alternative
)* # repeat content
$ # end of string
(?(N)(?!)) # fail if counter is non-zero.
压实:
^(?:(?:[^?+*{}()[\]\\|]+|\\.|\[(?:\^?\\.|\^[^\\]|[^\\^])(?:[^\]\\]+|\\.)*\]|\((?:\?[:=!]|\?<[=!]|\?>|\?<[^\W\d]\w*>|\?'[^\W\d]\w*')?(?<N>)|\)(?<-N>))(?:(?:[?+*]|\{\d+(?:,\d*)?\})[?+]?)?|\|)*$(?(N)(?!))
评论如下:
这将验证替换和转换吗?
它将只验证替换和转换的正则表达式部分。s / < >这一部分/…/
理论上不可能将所有有效的正则表达式语法与一个正则表达式匹配。
如果正则表达式引擎支持递归,比如PCRE,这是可能的,但它不能再被真正地称为正则表达式了。
实际上,“递归正则表达式”不是正则表达式。但这是一个经常被接受的正则表达式引擎的扩展…具有讽刺意味的是,这个扩展的正则表达式并不匹配扩展的正则表达式。
“在理论上,理论和实践是一样的。但实际上并非如此。”几乎所有了解正则表达式的人都知道正则表达式不支持递归。但是PCRE和大多数其他实现支持的不仅仅是基本的正则表达式。
在grep命令中使用这个shell脚本,它向我显示了一些错误。grep:{}的无效内容。我正在制作一个脚本,可以grep代码库找到所有包含正则表达式的文件
这个模式利用了一个名为递归正则表达式的扩展。正则表达式的POSIX风格不支持这一点。您可以尝试使用-P开关来启用PCRE正则表达式风格。
Regex本身“不是正则语言,因此不能用正则表达式来解析……”
这对于经典正则表达式是正确的。一些现代实现允许递归,这使得它成为一种上下文自由语言,尽管对于这个任务来说有点冗长。
我看到你匹配[]()/\。和其他特殊的正则表达式字符。哪里允许非特殊字符?它似乎可以匹配^(?:[\.]+)$,但不能匹配^abcdefg$。这是一个有效的正则表达式。
[^?+*{}()[\]\\|]将匹配任何单个字符,而不是任何其他结构的一部分。这包括文字(a - z)和某些特殊字符(^,$,.)。
不太可能的。
用try. catch或你的语言提供的任何方法来评估它。
在Javascript中:
SyntaxError
在传递无效正则表达式以求值时引发。
// VALID ONE
> /yes[^]*day/
Out: /yes[^]*day/
// INVALID ONE
> /yes[^*day/
Out: VM227:1 Uncaught SyntaxError: Invalid regular expression: missing /
下面是检查正则表达式字符串是否有效的函数:
步骤1:正则表达式解析器
var RegexParser = function(input) {
// Parse input
var m = input.match(/(\/?)(.+)\1([a-z]*)/i);
// Invalid flags
if (m[3] && !/^(?!.*?(.).*?\1)[gmixXsuUAJ]+$/.test(m[3])) {
return RegExp(input);
}
// Create the regular expression
return new RegExp(m[2], m[3]);
};
步骤2:使用解析器
var RegexString = "/yes.*day/"
var isRegexValid = input => {
try {
const regex = RegexParser(input);
}
catch(error) {
if(error.name === "SyntaxError")
{
return false;
}
else
{
throw error;
}
}
return true;
}
虽然完全可以使用MizardX发布的递归正则表达式,但对于这种事情,解析器更有用。正则表达式最初用于常规语言,递归或具有平衡组只是一个补丁。
定义有效正则表达式的语言实际上是一种与上下文无关的语法,您应该使用适当的解析器来处理它。下面是一个大学项目的示例,用于解析简单的正则表达式(没有大多数构造)。它使用JavaCC。是的,注释是西班牙语,尽管方法名是不言自明的。
SKIP :
{
" "
| "\r"
| "\t"
| "\n"
}
TOKEN :
{
< DIGITO: ["0" - "9"] >
| < MAYUSCULA: ["A" - "Z"] >
| < MINUSCULA: ["a" - "z"] >
| < LAMBDA: "LAMBDA" >
| < VACIO: "VACIO" >
}
IRegularExpression Expression() :
{
IRegularExpression r;
}
{
r=Alternation() { return r; }
}
// Matchea disyunciones: ER | ER
IRegularExpression Alternation() :
{
IRegularExpression r1 = null, r2 = null;
}
{
r1=Concatenation() ( "|" r2=Alternation() )?
{
if (r2 == null) {
return r1;
} else {
return createAlternation(r1,r2);
}
}
}
// Matchea concatenaciones: ER.ER
IRegularExpression Concatenation() :
{
IRegularExpression r1 = null, r2 = null;
}
{
r1=Repetition() ( "." r2=Repetition() { r1 = createConcatenation(r1,r2); } )*
{ return r1; }
}
// Matchea repeticiones: ER*
IRegularExpression Repetition() :
{
IRegularExpression r;
}
{
r=Atom() ( "*" { r = createRepetition(r); } )*
{ return r; }
}
// Matchea regex atomicas: (ER), Terminal, Vacio, Lambda
IRegularExpression Atom() :
{
String t;
IRegularExpression r;
}
{
( "(" r=Expression() ")" {return r;})
| t=Terminal() { return createTerminal(t); }
| <LAMBDA> { return createLambda(); }
| <VACIO> { return createEmpty(); }
}
// Matchea un terminal (digito o minuscula) y devuelve su valor
String Terminal() :
{
Token t;
}
{
( t=<DIGITO> | t=<MINUSCULA> ) { return t.image; }
}
推荐文章
- 如何从JavaScript中使用正则表达式的字符串中剥离所有标点符号?
- 正则表达式中的单词边界是什么?
- 如何将一个标题转换为jQuery的URL段塞?
- Javascript和regex:分割字符串并保留分隔符
- (grep)正则表达式匹配非ascii字符?
- 如何在保持原始字符串的同时对字符串执行Perl替换?
- 创建正则表达式匹配数组
- *的区别是什么?和。*正则表达式?
- 如何将“camelCase”转换为“Camel Case”?
- 在Java中使用正则表达式提取值
- Java中的正则表达式命名组
- 使用正则表达式搜索和替换Visual Studio代码
- 使用split("|")按管道符号拆分Java字符串
- 替换字符串中第一次出现的模式
- “\d”在正则表达式中是数字吗?