从字符串中删除特殊字符的最有效方法

我想从字符串中删除所有特殊字符。允许输入A-Z(大写或小写)、数字(0-9)、下划线(_)或点符号(.)。

我有以下，它是有效的，但我怀疑(我知道!)它不是很有效:

    public static string RemoveSpecialCharacters(string str)
    {
        StringBuilder sb = new StringBuilder();
        for (int i = 0; i < str.Length; i++)
        {
            if ((str[i] >= '0' && str[i] <= '9')
                || (str[i] >= 'A' && str[i] <= 'z'
                    || (str[i] == '.' || str[i] == '_')))
                {
                    sb.Append(str[i]);
                }
        }

        return sb.ToString();
    }

最有效的方法是什么?正则表达式是什么样子的，它与普通字符串操作相比如何?

要清洗的字符串相当短，长度通常在10到30个字符之间。

当前回答

我觉得不错。我要做的唯一改进是用字符串的长度初始化StringBuilder。

StringBuilder sb = new StringBuilder(str.Length);

2009-07-13 15:42:34

其他回答

正则表达式如下所示:

public string RemoveSpecialChars(string input)
{
    return Regex.Replace(input, @"[^0-9a-zA-Z\._]", string.Empty);
}

但如果性能非常重要，我建议你在选择“正则表达式路径”之前做一些基准测试……

2009-07-13 15:42:06

简单的LINQ方法

string text = "123a22 ";
var newText = String.Join(string.Empty, text.Where(x => x != 'a'));

2021-09-11 09:15:37

如果你使用的是动态字符列表，LINQ可以提供一个更快更优雅的解决方案:

public static string RemoveSpecialCharacters(string value, char[] specialCharacters)
{
    return new String(value.Except(specialCharacters).ToArray());
}

我将这种方法与之前的两种“快速”方法(发行版编译)进行了比较:

字符数组解决方案由LukeH - 427毫秒 StringBuilder解决方案- 429毫秒 LINQ(这个答案)- 98毫秒

注意，算法略有修改-字符作为数组传入，而不是硬编码，这可能会有轻微的影响(即/其他解决方案将有一个内部for循环来检查字符数组)。

如果我使用LINQ where子句切换到硬编码的解决方案，结果是:

字符数组解决方案- 7ms StringBuilder解决方案- 22ms LINQ - 60毫秒

如果您计划编写一个更通用的解决方案，而不是硬编码字符列表，那么可能值得考虑LINQ或经过修改的方法。LINQ绝对能给你简洁、高可读性的代码——甚至比Regex更好。

2012-07-04 21:31:40

除非您真的需要从函数中挤出性能，否则就使用最容易维护和理解的方法。正则表达式是这样的:

为了获得额外的性能，您可以预先编译它，或者只是告诉它在第一次调用时编译(后续调用将更快)。

public static string RemoveSpecialCharacters(string str)
{
    return Regex.Replace(str, "[^a-zA-Z0-9_.]+", "", RegexOptions.Compiled);
}

2009-07-13 15:40:55

另一种试图通过减少分配来提高性能的方法，特别是在多次调用此函数的情况下。

它之所以有效，是因为可以保证结果不会比输入长，因此可以在不在内存中创建额外副本的情况下传递输入和输出。因此，您不能使用stackalloc来创建缓冲区数组，因为这需要从缓冲区中复制一个副本。

public static string RemoveSpecialCharacters(this string str)
{
    return RemoveSpecialCharacters(str.AsSpan()).ToString();
}

public static ReadOnlySpan<char> RemoveSpecialCharacters(this ReadOnlySpan<char> str)
{
    Span<char> buffer = new char[str.Length];
    int idx = 0;

    foreach (char c in str)
    {
        if (char.IsLetterOrDigit(c))
        {
            buffer[idx] = c;
            idx++;
        }
    }

    return buffer.Slice(0, idx);
}

2022-01-02 12:10:16

从字符串中删除特殊字符的最有效方法

推荐文章

最新文章

标签