我正在寻找一个Python模块,可以做简单的模糊字符串比较。具体来说,我想知道字符串相似程度的百分比。我知道这是潜在的主观,所以我希望找到一个库,可以做位置比较以及最长的相似字符串匹配,等等。
基本上,我希望找到一些足够简单的东西,可以产生单个百分比,同时仍然可以配置,以便我可以指定要进行哪种类型的比较。
我正在寻找一个Python模块,可以做简单的模糊字符串比较。具体来说,我想知道字符串相似程度的百分比。我知道这是潜在的主观,所以我希望找到一个库,可以做位置比较以及最长的相似字符串匹配,等等。
基本上,我希望找到一些足够简单的东西,可以产生单个百分比,同时仍然可以配置,以便我可以指定要进行哪种类型的比较。
当前回答
Difflib可以做到。
文档中的例子:
>>> get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'])
['apple', 'ape']
>>> import keyword
>>> get_close_matches('wheel', keyword.kwlist)
['while']
>>> get_close_matches('apple', keyword.kwlist)
[]
>>> get_close_matches('accept', keyword.kwlist)
['except']
来看看。它还有其他功能,可以帮助您定制一些东西。
其他回答
另一种选择是使用最近发布的软件包FuzzyWuzzy。本博客还介绍了包支持的各种功能。
Jellyfish是一个Python模块,支持许多字符串比较指标,包括语音匹配。与Jellyfish的实现相比,纯Python实现的Levenstein编辑距离非常慢。
使用示例:
import jellyfish
>>> jellyfish.levenshtein_distance('jellyfish', 'smellyfish')
2
>>> jellyfish.jaro_distance('jellyfish', 'smellyfish')
0.89629629629629637
>>> jellyfish.damerau_levenshtein_distance('jellyfish', 'jellyfihs')
1
>>> jellyfish.metaphone('Jellyfish')
'JLFX'
>>> jellyfish.soundex('Jellyfish')
'J412'
>>> jellyfish.nysiis('Jellyfish')
'JALYF'
>>> jellyfish.match_rating_codex('Jellyfish')
'JLLFSH'`
下面是如何使用Charicar的simhash的方法,这也适用于长文档,当你改变文档中的单词顺序时,它也会检测到100%的相似性
http://blog.simpliplant.eu/calculating-similarity-between-text-strings-in-python/
正如nosklo所说,使用Python标准库中的difflib模块。
difflib模块可以使用SequenceMatcher()对象的ratio()方法返回序列相似性的度量值。相似度作为0.0到1.0范围内的浮点数返回。
>>> import difflib
>>> difflib.SequenceMatcher(None, 'abcde', 'abcde').ratio()
1.0
>>> difflib.SequenceMatcher(None, 'abcde', 'zbcde').ratio()
0.80000000000000004
>>> difflib.SequenceMatcher(None, 'abcde', 'zyzzy').ratio()
0.0
下面是一个python脚本,用于计算两个单词的最长公共子字符串(可能需要调整才能用于多词短语):
def lcs(word1, word2):
w1 = set(word1[i:j] for i in range(0, len(word1))
for j in range(1, len(word1) + 1))
w2 = set(word2[i:j] for i in range(0, len(word2))
for j in range(1, len(word2) + 1))
common_subs = w1.intersection(w2)
sorted_cmn_subs = sorted([
(len(str), str) for str in list(common_subs)
])
return sorted_cmn_subs.pop()[1]