正则表达式搜索卡扎菲

我正在搜索“卡扎菲”这个词，这个词有很多种拼写方式。搜索这个最好的正则表达式是什么?

以下是30个变体的列表:

Gadaffi
Gadafi
Gadafy
Gaddafi
Gaddafy
Gaddhafi
Gadhafi
Gathafi
Ghadaffi
Ghadafi
Ghaddafi
Ghaddafy
Gheddafi
Kadaffi
Kadafi
Kaddafi
Kadhafi
Kazzafi
Khadaffy
Khadafy
Khaddafi
Qadafi
Qaddafi
Qadhafi
Qadhdhafi
Qadthafi
Qathafi
Quathafi
Qudhafi
Kad'afi

目前为止我最好的尝试是:

\b[KG]h?add?af?fi$\b

但我似乎还是遗漏了一些变体。有什么建议吗?

当前回答

如果你想避免匹配没有人使用过的东西(即避免倾向于“。+”)，你最好的方法是创建一个正则表达式，它只是所有的替代方案(例如。(Qadafi|Kadafi|…))然后将其编译为DFA，然后将DFA转换回正则表达式。假设一个适度合理的实现会给您一个“压缩”正则表达式，它保证不包含意外的变量。

2011-03-21 14:12:54

其他回答

如果你有一个包含30种可能性的具体清单，那就用一堆“or”把它们连在一起。然后你可以确保它只匹配你列出的东西，而不是更多。你的RE引擎可能会进一步优化，而且，好吧，有30个选择，即使它没有，它仍然不是一个大问题。试图手动将其转换为“聪明的”RE不可能得到更好的结果，结果可能更糟。

2011-03-21 15:36:07

使用CPAN模块Regexp::Assemble:

#!/usr/bin/env perl

use Regexp::Assemble;

my $ra = Regexp::Assemble->new;
$ra->add($_) for qw(Gadaffi Gadafi Gadafy Gaddafi Gaddafy
                    Gaddhafi Gadhafi Gathafi Ghadaffi Ghadafi
                    Ghaddafi Ghaddafy Gheddafi Kadaffi Kadafi
                    Kaddafi Kadhafi Kazzafi Khadaffy Khadafy
                    Khaddafi Qadafi Qaddafi Qadhafi Qadhdhafi
                    Qadthafi Qathafi Quathafi Qudhafi Kad'afi);
say $ra->re;

这将生成以下正则表达式:

(?-xism:(?:G(?:a(?:d(?:d(?:af[iy]|hafi)|af(?:f?i|y)|hafi)|thafi)|h(?:ad(?:daf[iy]|af?fi)|eddafi))|K(?:a(?:d(?:['dh]a|af?)|zza)fi|had(?:af?fy|dafi))|Q(?:a(?:d(?:(?:(?:hd)?|t)h|d)?|th)|u(?:at|d)h)afi))

2011-08-23 20:16:28

为什么不采用混合的方法呢?介于所有可能性列表和匹配太多的复杂正则表达式之间的东西。

Regex是关于模式匹配的，我不能在列表中看到所有变体的模式。试着这样做，还会发现像“Gazzafy”或“Quud’haffi”这样的东西，它们很可能不是一个常用的变体，也绝对不在列表上。

但我可以看到一些变异的模式，所以我得出了这个结论:

\b(?:Gheddafi|Gathafi|Kazzafi|Kad'afi|Qadhdhafi|Qadthafi|Qudhafi|Qu?athafi|[KG]h?add?h?aff?[iy]|Qad[dh]?afi)\b

在一开始，我列出了那些我看不到模式的，然后是一些有模式的变体。

请访问www.rubular.com

2011-05-04 11:34:43

还有什么是以Q, G或K开头，中间有d, z或t，并以人们实际搜索的“fi”结尾的呢?

/\b[GQK].+[dzt].+fi\b/i

完成了。

>>> print re.search(a, "Gadasadasfiasdas") != None
False
>>> print re.search(a, "Gadasadasfi") != None
True
>>> print re.search(a, "Qa'dafi") != None
True

有趣的是，我被否决了。有人能在评论里留下一些假阳性吗?

2011-08-24 00:30:57

一个可能的替代方案是从示例http://regex.inginf.units.it生成正则表达式的在线工具。给它一个机会吧!

2013-11-14 16:38:06

正则表达式搜索卡扎菲

推荐文章

最新文章

标签