如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

如何在.NET（C#）中将字符串转换为字节[]而不手动指定特定编码？

我要加密字符串。我可以在不进行转换的情况下对其进行加密，但我仍然想知道为什么编码会在这里发挥作用。

此外，为什么还要考虑编码？我不能简单地获取字符串存储的字节数吗？为什么依赖字符编码？

当前回答

这取决于字符串的编码（ASCII、UTF-8…）。

例如：

byte[] b1 = System.Text.Encoding.UTF8.GetBytes (myString);
byte[] b2 = System.Text.Encoding.ASCII.GetBytes (myString);

编码重要的一个小例子：

string pi = "\u03a0";
byte[] ascii = System.Text.Encoding.ASCII.GetBytes (pi);
byte[] utf8 = System.Text.Encoding.UTF8.GetBytes (pi);

Console.WriteLine (ascii.Length); //Will print 1
Console.WriteLine (utf8.Length); //Will print 2
Console.WriteLine (System.Text.Encoding.ASCII.GetString (ascii)); //Will print '?'

ASCII根本无法处理特殊字符。

在内部，.NET框架使用UTF-16表示字符串，因此，如果您只想获得.NET使用的确切字节，请使用System.Text.Encoding.Unicode.GetBytes（…）。

有关详细信息，请参阅.NET Framework（MSDN）中的字符编码。

2009-01-23 13:43:51

其他回答

要将字符串转换为字节[]，请使用以下解决方案：

string s = "abcdefghijklmnopqrstuvwxyz";
byte[] b = System.Text.UTF32Encoding.GetBytes(s);

我希望这有帮助。

2014-04-09 12:39:54

如果您真的想要一个字符串的基本字节的副本，可以使用下面这样的函数。然而，你不应该继续阅读以找出原因。

[DllImport(
        "msvcrt.dll",
        EntryPoint = "memcpy",
        CallingConvention = CallingConvention.Cdecl,
        SetLastError = false)]
private static extern unsafe void* UnsafeMemoryCopy(
    void* destination,
    void* source,
    uint count);

public static byte[] GetUnderlyingBytes(string source)
{
    var length = source.Length * sizeof(char);
    var result = new byte[length];
    unsafe
    {
        fixed (char* firstSourceChar = source)
        fixed (byte* firstDestination = result)
        {
            var firstSource = (byte*)firstSourceChar;
            UnsafeMemoryCopy(
                firstDestination,
                firstSource,
                (uint)length);
        }
    }

    return result;
}

这个函数会很快地得到字符串下面的字节的副本。您将以任何方式在系统上编码这些字节。这种编码几乎可以肯定是UTF-16LE，但这是一个您不必关心的实现细节。

打电话会更安全、更简单、更可靠，

System.Text.Encoding.Unicode.GetBytes()

这很可能会产生相同的结果，更容易键入，字节将往返，Unicode中的字节表示也可以，调用

System.Text.Encoding.Unicode.GetString()

2014-11-25 10:29:12

您需要考虑编码，因为1个字符可以由1个或多个字节（最多约6个）表示，不同的编码将对这些字节进行不同的处理。

Joel对此发表了一篇帖子：

绝对最低限度每个软件开发人员绝对、肯定地必须了解Unicode和字符集（没有借口！）

2009-01-23 14:03:30

如何在.NET（C#）中将字符串转换为字节[]而不手动指定特定编码？

NET中的字符串将文本表示为UTF-16代码单元的序列，因此字节已经在UTF-16中的内存中编码。

Mehrad的回答

您可以使用Mehrad的答案，但它实际上使用了编码，因为字符是UTF-16。它调用ToCharArray，通过查看源代码创建一个char[]并将内存直接复制到它。然后，它将数据复制到同样分配的字节数组中。因此，在后台，它复制了两次底层字节，并分配了一个在调用后不使用的字符数组。

Tom Blodget的回答

Tom Blodget的答案比Mehrad快20-30%，因为它跳过了分配一个字符数组并将字节复制到其中的中间步骤，但它需要使用/safe选项进行编译。如果你绝对不想使用编码，我认为这是正确的方法。如果将加密登录放在固定块中，甚至不需要分配单独的字节数组并将字节复制到其中。

此外，为什么要考虑编码？我不能简单地获取字符串存储的字节数吗？为什么依赖字符编码？

因为这是正确的方法。字符串是一个抽象。

如果“字符串”包含无效字符，使用编码可能会给您带来麻烦，但这不应该发生。如果将数据输入到字符串中包含无效字符，则说明操作错误。您可能应该首先使用字节数组或Base64编码。

如果使用System.Text.Encoding.Unicode，代码将更具弹性。您不必担心运行代码的系统的端序。您不必担忧下一版本的CLR是否会使用不同的内部字符编码。

我认为问题不在于你为什么要担心编码，而是你为什么要忽略它而使用其他东西。编码旨在表示字节序列中字符串的抽象。System.Text.Encoding.Unicode将为您提供一个小端字节顺序编码，并将在现在和将来的每个系统上执行相同的编码。

2018-07-02 20:51:49

只需使用此选项：

byte[] myByte= System.Text.ASCIIEncoding.Default.GetBytes(myString);

2015-06-30 14:39:07

如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

推荐文章

最新文章

标签