我需要一个强大的和简单的方法来删除非法的路径和文件字符从一个简单的字符串。我已经使用了下面的代码,但它似乎没有做任何事情,我错过了什么?

using System;
using System.IO;

namespace ConsoleApplication1
{
    class Program
    {
        static void Main(string[] args)
        {
            string illegal = "\"M<>\"\\a/ry/ h**ad:>> a\\/:*?\"<>| li*tt|le|| la\"mb.?";

            illegal = illegal.Trim(Path.GetInvalidFileNameChars());
            illegal = illegal.Trim(Path.GetInvalidPathChars());

            Console.WriteLine(illegal);
            Console.ReadLine();
        }
    }
}

当前回答

我已经滚动了我自己的方法,这似乎要快得多的其他张贴在这里(特别是正则表达式是如此缓慢),但我没有测试所有张贴的方法。

https://dotnetfiddle.net/haIXiY

第一个方法(我的)和第二个方法(也是我的,但旧的)也对反斜杠进行了额外的检查,所以基准测试并不完美,但无论如何,这只是给你一个想法。

在我的笔记本电脑上的结果(10万次迭代):

StringHelper.RemoveInvalidCharacters 1: 451 ms  
StringHelper.RemoveInvalidCharacters 2: 7139 ms  
StringHelper.RemoveInvalidCharacters 3: 2447 ms  
StringHelper.RemoveInvalidCharacters 4: 3733 ms  
StringHelper.RemoveInvalidCharacters 5: 11689 ms  (==> Regex!)

最快的方法:

public static string RemoveInvalidCharacters(string content, char replace = '_', bool doNotReplaceBackslashes = false)
{
    if (string.IsNullOrEmpty(content))
        return content;

    var idx = content.IndexOfAny(InvalidCharacters);
    if (idx >= 0)
    {
        var sb = new StringBuilder(content);
        while (idx >= 0)
        {
            if (sb[idx] != '\\' || !doNotReplaceBackslashes)
                sb[idx] = replace;
            idx = content.IndexOfAny(InvalidCharacters, idx+1);
        }
        return sb.ToString();
    }
    return content;
}

方法没有“按原样”编译InvalidCharacters属性,请检查fiddle是否有完整代码

其他回答

这些都是很好的解决方案,但它们都依赖于Path。getinvalidfilenamecars,它可能不像您想象的那么可靠。请注意MSDN文档中关于Path的以下注释。GetInvalidFileNameChars:

此方法返回的数组不保证包含文件和目录名中无效的完整字符集。完整的无效字符集可能因文件系统而异。例如,在基于windows的桌面平台上,无效路径字符可能包括ASCII/Unicode字符1到31,以及引号(")、小于(<)、大于(>)、管道(|)、退格(\b)、null(\0)和制表符(\t)。

Path的情况也好不到哪里去。GetInvalidPathChars方法。它包含了完全相同的评论。

你可以像这样使用Linq删除非法字符:

var invalidChars = Path.GetInvalidFileNameChars();

var invalidCharsRemoved = stringWithInvalidChars
.Where(x => !invalidChars.Contains(x))
.ToArray();

编辑 以下是评论中提到的经过必要编辑后的效果:

var invalidChars = Path.GetInvalidFileNameChars();

string invalidCharsRemoved = new string(stringWithInvalidChars
  .Where(x => !invalidChars.Contains(x))
  .ToArray());

最初的问题是“去除非法字符”:

public string RemoveInvalidChars(string filename)
{
    return string.Concat(filename.Split(Path.GetInvalidFileNameChars()));
}

相反,你可能想要替换它们:

public string ReplaceInvalidChars(string filename)
{
    return string.Join("_", filename.Split(Path.GetInvalidFileNameChars()));    
}

这个答案在Ceres的另一个帖子里,我真的很喜欢它的简洁。

文件名:

var cleanFileName = string.Join("", fileName.Split(Path.GetInvalidFileNameChars()));

对于全路径:

var cleanPath = string.Join("", path.Split(Path.GetInvalidPathChars()));

请注意,如果打算将此作为安全特性使用,更健壮的方法是展开所有路径,然后验证用户提供的路径确实是用户应该访问的目录的子目录。

这看起来是O(n),并且不会在字符串上花费太多内存:

    private static readonly HashSet<char> invalidFileNameChars = new HashSet<char>(Path.GetInvalidFileNameChars());

    public static string RemoveInvalidFileNameChars(string name)
    {
        if (!name.Any(c => invalidFileNameChars.Contains(c))) {
            return name;
        }

        return new string(name.Where(c => !invalidFileNameChars.Contains(c)).ToArray());
    }