如何从字符串中剥离非ascii字符?(c#)

当前回答

我相信MonsCamus的意思是:

parsememo = Regex.Replace(parsememo, @"[^\u0020-\u007E]", string.Empty);

2013-08-02 13:31:07

其他回答

我用了这个正则表达式:

    string s = "søme string";
    Regex regex = new Regex(@"[^a-zA-Z0-9\s]", (RegexOptions)0);
    return regex.Replace(s, "");

2012-06-12 12:27:20

string s = "søme string";
s = Regex.Replace(s, @"[^\u0000-\u007F]+", string.Empty);

^是not运算符。它告诉正则表达式去查找所有不匹配的，而不是所有匹配的。\u####-\u####表示匹配的字符。\u0000-\u007F相当于utf-8或unicode中的前128个字符，这些字符总是ascii字符。因此，您匹配每个非ascii字符(因为not)，并对所有匹配的字符进行替换。

(正如Gordon Tucker在2009年12月11日21:11的评论中所解释的那样)

2008-09-23 19:46:24

public string ReturnCleanASCII(string s)
    {
        StringBuilder sb = new StringBuilder(s.Length);
        foreach (char c in s)
        {
            if ((int)c > 127) // you probably don't want 127 either
                continue;
            if ((int)c < 32)  // I bet you don't want control characters 
                continue;
            if (c == '%')
                continue;
            if (c == '?')
                continue;
            sb.Append(c);
        }
        return sb.ToString();
    }

2022-07-27 08:18:46

这并不是最优的性能，而是一种非常直接的Linq方法:

string strippedString = new string(
    yourString.Where(c => c <= sbyte.MaxValue).ToArray()
    );

缺点是，所有“幸存的”字符首先被放入char[]类型的数组中，然后在字符串构造函数不再使用它后将其丢弃。

2013-09-03 17:08:42

我使用这个正则表达式来过滤掉文件名中的坏字符。

Regex.Replace(directory, "[^a-zA-Z0-9\\:_\- ]", "")

这应该是文件名所允许的所有字符。

2017-06-09 18:17:02

如何从字符串中剥离非ascii字符?(c#)

推荐文章

最新文章

标签