我正在寻找一个Python模块,可以做简单的模糊字符串比较。具体来说,我想知道字符串相似程度的百分比。我知道这是潜在的主观,所以我希望找到一个库,可以做位置比较以及最长的相似字符串匹配,等等。
基本上,我希望找到一些足够简单的东西,可以产生单个百分比,同时仍然可以配置,以便我可以指定要进行哪种类型的比较。
我正在寻找一个Python模块,可以做简单的模糊字符串比较。具体来说,我想知道字符串相似程度的百分比。我知道这是潜在的主观,所以我希望找到一个库,可以做位置比较以及最长的相似字符串匹配,等等。
基本上,我希望找到一些足够简单的东西,可以产生单个百分比,同时仍然可以配置,以便我可以指定要进行哪种类型的比较。
当前回答
下面是一个python脚本,用于计算两个单词的最长公共子字符串(可能需要调整才能用于多词短语):
def lcs(word1, word2):
w1 = set(word1[i:j] for i in range(0, len(word1))
for j in range(1, len(word1) + 1))
w2 = set(word2[i:j] for i in range(0, len(word2))
for j in range(1, len(word2) + 1))
common_subs = w1.intersection(w2)
sorted_cmn_subs = sorted([
(len(str), str) for str in list(common_subs)
])
return sorted_cmn_subs.pop()[1]
其他回答
我一直在用座位极客的Fuzzy Wuzzy,而且非常成功。
https://github.com/seatgeek/fuzzywuzzy
具体来说,令牌集比率函数…
他们还写了一篇关于模糊字符串匹配过程的文章:
http://seatgeek.com/blog/dev/fuzzywuzzy-fuzzy-string-matching-in-python
Difflib可以做到。
文档中的例子:
>>> get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'])
['apple', 'ape']
>>> import keyword
>>> get_close_matches('wheel', keyword.kwlist)
['while']
>>> get_close_matches('apple', keyword.kwlist)
[]
>>> get_close_matches('accept', keyword.kwlist)
['except']
来看看。它还有其他功能,可以帮助您定制一些东西。
我喜欢诺斯克洛的回答;另一种方法是Damerau-Levenshtein距离:
在信息理论和计算机科学中,Damerau-Levenshtein距离是两个字符串之间的“距离”(字符串度量),即有限的符号序列,通过计算将一个字符串转换为另一个字符串所需的最小操作次数来给出,其中一个操作被定义为单个字符的插入、删除或替换,或两个字符的转位。
来自Wikibooks的Python实现:
def lev(a, b):
if not a: return len(b)
if not b: return len(a)
return min(lev(a[1:], b[1:])+(a[0] != b[0]), \
lev(a[1:], b)+1, lev(a, b[1:])+1)
更多内容来自维基百科, 这给出了最长公共子串(LCS)的长度:
def LCSubstr_len(S, T):
m = len(S); n = len(T)
L = [[0] * (n+1) for i in xrange(m+1)]
lcs = 0
for i in xrange(m):
for j in xrange(n):
if S[i] == T[j]:
L[i+1][j+1] = L[i][j] + 1
lcs = max(lcs, L[i+1][j+1])
return lcs
谷歌也有自己的Google -diff-match-patch(“目前在Java, JavaScript, c++和Python中可用”)。
(不能评论它,因为我自己只使用python的difflib)
Jellyfish是一个Python模块,支持许多字符串比较指标,包括语音匹配。与Jellyfish的实现相比,纯Python实现的Levenstein编辑距离非常慢。
使用示例:
import jellyfish
>>> jellyfish.levenshtein_distance('jellyfish', 'smellyfish')
2
>>> jellyfish.jaro_distance('jellyfish', 'smellyfish')
0.89629629629629637
>>> jellyfish.damerau_levenshtein_distance('jellyfish', 'jellyfihs')
1
>>> jellyfish.metaphone('Jellyfish')
'JLFX'
>>> jellyfish.soundex('Jellyfish')
'J412'
>>> jellyfish.nysiis('Jellyfish')
'JALYF'
>>> jellyfish.match_rating_codex('Jellyfish')
'JLLFSH'`