从字符串中删除特殊字符的最有效方法

我想从字符串中删除所有特殊字符。允许输入A-Z(大写或小写)、数字(0-9)、下划线(_)或点符号(.)。

我有以下，它是有效的，但我怀疑(我知道!)它不是很有效:

    public static string RemoveSpecialCharacters(string str)
    {
        StringBuilder sb = new StringBuilder();
        for (int i = 0; i < str.Length; i++)
        {
            if ((str[i] >= '0' && str[i] <= '9')
                || (str[i] >= 'A' && str[i] <= 'z'
                    || (str[i] == '.' || str[i] == '_')))
                {
                    sb.Append(str[i]);
                }
        }

        return sb.ToString();
    }

最有效的方法是什么?正则表达式是什么样子的，它与普通字符串操作相比如何?

要清洗的字符串相当短，长度通常在10到30个字符之间。

当前回答

我将使用字符串替换为正则表达式搜索“特殊字符”，替换所有字符找到一个空字符串。

2009-07-13 15:38:48

其他回答

public static string RemoveAllSpecialCharacters(this string text) {
  if (string.IsNullOrEmpty(text))
    return text;

  string result = Regex.Replace(text, "[:!@#$%^&*()}{|\":?><\\[\\]\\;'/.,~]", " ");
  return result;
}

2020-06-13 11:26:33

我建议创建一个简单的查找表，您可以在静态构造函数中初始化它，以将任何字符组合设置为有效。这让您可以进行快速、单一的检查。

edit

另外，为了提高速度，您需要将StringBuilder的容量初始化为输入字符串的长度。这将避免重新分配。这两种方法结合起来会给你速度和灵活性。

另一个编辑

我认为编译器可能会优化它，但作为风格和效率的问题，我建议foreach而不是for。

2009-07-13 15:39:11

我不确定这是最有效的方法，但对我来说很有效

 Public Function RemoverTildes(stIn As String) As String
    Dim stFormD As String = stIn.Normalize(NormalizationForm.FormD)
    Dim sb As New StringBuilder()

    For ich As Integer = 0 To stFormD.Length - 1
        Dim uc As UnicodeCategory = CharUnicodeInfo.GetUnicodeCategory(stFormD(ich))
        If uc <> UnicodeCategory.NonSpacingMark Then
            sb.Append(stFormD(ich))
        End If
    Next
    Return (sb.ToString().Normalize(NormalizationForm.FormC))
End Function

2015-08-25 00:16:48

如果你使用的是动态字符列表，LINQ可以提供一个更快更优雅的解决方案:

public static string RemoveSpecialCharacters(string value, char[] specialCharacters)
{
    return new String(value.Except(specialCharacters).ToArray());
}

我将这种方法与之前的两种“快速”方法(发行版编译)进行了比较:

字符数组解决方案由LukeH - 427毫秒 StringBuilder解决方案- 429毫秒 LINQ(这个答案)- 98毫秒

注意，算法略有修改-字符作为数组传入，而不是硬编码，这可能会有轻微的影响(即/其他解决方案将有一个内部for循环来检查字符数组)。

如果我使用LINQ where子句切换到硬编码的解决方案，结果是:

字符数组解决方案- 7ms StringBuilder解决方案- 22ms LINQ - 60毫秒

如果您计划编写一个更通用的解决方案，而不是硬编码字符列表，那么可能值得考虑LINQ或经过修改的方法。LINQ绝对能给你简洁、高可读性的代码——甚至比Regex更好。

2012-07-04 21:31:40

我想知道基于regx的替代品(可能是编译的)是否更快。必须测试，有人发现这是~5倍慢。

除此之外，您应该使用预期的长度初始化StringBuilder，这样在中间字符串增长时就不必复制它。

一个好的数字是原始字符串的长度，或者稍低一些(取决于函数输入的性质)。

最后，您可以使用一个查找表(范围0..127)来确定一个字符是否被接受。

2009-07-13 15:50:15