对于下面的代码块:

For I = 0 To listOfStrings.Count - 1
    If myString.Contains(lstOfStrings.Item(I)) Then
        Return True
    End If
Next
Return False

输出结果为:

案例1:

myString: C:\Files\myfile.doc
listOfString: C:\Files\, C:\Files2\
Result: True

案例2:

myString: C:\Files3\myfile.doc
listOfString: C:\Files\, C:\Files2\
Result: False

列表(listOfStrings)可能包含几个项目(至少20个),它必须检查成千上万的字符串(如myString)。

是否有更好(更有效)的方法来编写这段代码?


当前回答

如果速度很关键,您可能想要寻找模式集的Aho-Corasick算法。

它是一个带有失败链接的trie,即复杂度为O(n+m+k),其中n是输入文本的长度,m是模式的累积长度,k是匹配的数量。您只需修改算法,以便在找到第一个匹配后终止。

其他回答

轻微的变化,我需要找到是否有完整的单词和大小写不敏感的字符串。

myString.Split(' ', StringSplitOptions.RemoveEmptyEntries).Intersect(listOfStrings).Any())

对于不区分大小写的myString和listOfStrings已转换为大写。

根据您的模式,一个改进是使用StartsWith而不是Contains。StartsWith只需要遍历每个字符串,直到找到第一个不匹配的字符,而不必在找到一个字符时在每个字符位置重新开始搜索。

同样,根据您的模式,看起来您可能能够提取myString路径的第一部分,然后反向比较——在字符串列表中查找myString的起始路径,而不是相反。

string[] pathComponents = myString.Split( Path.DirectorySeparatorChar );
string startPath = pathComponents[0] + Path.DirectorySeparatorChar;

return listOfStrings.Contains( startPath );

编辑:使用@Marc Gravell提到的HashSet思想会更快,因为您可以将Contains更改为ContainsKey,查找将是O(1)而不是O(N)。你必须确保路径完全匹配。请注意,这不是一个通用的解决方案是@Marc Gravell的,但适合你的例子。

很抱歉是c#的例子。我还没喝够咖啡,没办法翻译成VB。

如果速度很关键,您可能想要寻找模式集的Aho-Corasick算法。

它是一个带有失败链接的trie,即复杂度为O(n+m+k),其中n是输入文本的长度,m是模式的累积长度,k是匹配的数量。您只需修改算法,以便在找到第一个匹配后终止。

使用LINQ,使用c#(我现在不太懂VB):

bool b = listOfStrings.Any(s=>myString.Contains(s));

或者(更短更有效,但可以说不太清楚):

bool b = listOfStrings.Any(myString.Contains);

如果您正在测试相等性,那么值得查看HashSet等,但这对部分匹配没有帮助,除非您将其分割为片段并添加一个复杂的顺序。


更新:如果你真的是指“StartsWith”,那么你可以对列表进行排序并将其放入数组;然后使用Array。BinarySearch来查找每一项-通过查找来检查它是完全匹配还是部分匹配。

当我需要检查一个(长)字符串列表中是否有项目时,我最终得到了这个:

listOfStrings.Any(x => myString.ToUpper().Contains(x.ToUpper()));

或者在vb.net中:

listOfStrings.Any(Function(x) myString.ToUpper().Contains(x.ToUpper()))