我正在搜索“卡扎菲”这个词,这个词有很多种拼写方式。搜索这个最好的正则表达式是什么?

以下是30个变体的列表:

Gadaffi
Gadafi
Gadafy
Gaddafi
Gaddafy
Gaddhafi
Gadhafi
Gathafi
Ghadaffi
Ghadafi
Ghaddafi
Ghaddafy
Gheddafi
Kadaffi
Kadafi
Kaddafi
Kadhafi
Kazzafi
Khadaffy
Khadafy
Khaddafi
Qadafi
Qaddafi
Qadhafi
Qadhdhafi
Qadthafi
Qathafi
Quathafi
Qudhafi
Kad'afi

目前为止我最好的尝试是:

\b[KG]h?add?af?fi$\b

但我似乎还是遗漏了一些变体。有什么建议吗?


当前回答

(G|Gh|K|Kh|Q|Qh|Q|Qu)(a|au|e|u)(dh|zz|th|d|dd)(dh|th|a|ha|)(\x27|)(a|)(ff|f)(i|y)

当然不是最优化的版本,在音节上进行分割以最大化匹配,同时试图确保我们不会得到假阳性。

其他回答

(服饰)+ (dasta) + \”?(得到)+ \ ' ?

在部分:

黑GQK铝 黑ahu铝+。 黑dtez铝+。 \”? 黑adhz铝+。 f那1,2 (i | y)

注:只是想试一试。

一个可能的替代方案是从示例http://regex.inginf.units.it生成正则表达式的在线工具。 给它一个机会吧!

只是一个补充:你应该加上“Gheddafi”作为替代拼写。所以RE应该是

\b[KG]h?[ae]dd?af?fi$\b

如果你有一个包含30种可能性的具体清单,那就用一堆“or”把它们连在一起。然后你可以确保它只匹配你列出的东西,而不是更多。你的RE引擎可能会进一步优化,而且,好吧,有30个选择,即使它没有,它仍然不是一个大问题。试图手动将其转换为“聪明的”RE不可能得到更好的结果,结果可能更糟。

还有什么是以Q, G或K开头,中间有d, z或t,并以人们实际搜索的“fi”结尾的呢?

/\b[GQK].+[dzt].+fi\b/i

完成了。

>>> print re.search(a, "Gadasadasfiasdas") != None
False
>>> print re.search(a, "Gadasadasfi") != None
True
>>> print re.search(a, "Qa'dafi") != None
True

有趣的是,我被否决了。有人能在评论里留下一些假阳性吗?