如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

其他人已经回答了您问题的第一部分（如何获取字节）：查看System.Text.Encoding命名空间。

我将回答您的后续问题：为什么需要选择编码？为什么不能从字符串类本身获得这些信息？

答案分为两部分。

首先，字符串类内部使用的字节并不重要，只要假设它们存在，就可能引入错误。

如果您的程序完全在.Net世界中，那么您根本不需要担心获取字符串的字节数组，即使您正在通过网络发送数据。相反，请使用.Net Serialization来担心数据传输问题。您不再担心实际的字节数：Serialization格式化程序会为您提供。

另一方面，如果您将这些字节发送到某个无法保证将从.Net序列化流中提取数据的地方，该怎么办？在这种情况下，您确实需要担心编码问题，因为显然，这个外部系统关心编码问题。同样，字符串使用的内部字节无关紧要：您需要选择一种编码，以便在接收端明确该编码，即使它与.Net内部使用的编码相同。

我理解，在这种情况下，您可能更希望在可能的情况下使用字符串变量存储在内存中的实际字节，这样可以节省创建字节流的工作量。然而，我告诉你，与确保输出在另一端被理解，并保证编码必须明确相比，这并不重要。此外，如果您真的想匹配内部字节，您可以只选择Unicode编码，从而节省性能。

这让我进入第二部分。。。选择Unicode编码就是告诉.Net使用底层字节。您确实需要选择这种编码，因为当一些新的Unicode Plus问世时，.Net运行时需要自由使用这种更新、更好的编码模型，而不会破坏您的程序。但是，目前（以及可预见的未来），只要选择Unicode编码就可以满足您的需要。

理解字符串必须重写为线也是很重要的，即使使用匹配的编码，也至少需要对位模式进行一些转换。计算机需要考虑诸如Big vs Little Endian、网络字节顺序、分组化、会话信息等。

2009-01-23 15:54:28

byte[] strToByteArray(string str)
{
    System.Text.ASCIIEncoding enc = new System.Text.ASCIIEncoding();
    return enc.GetBytes(str);
}

2009-01-23 13:43:18

其他人已经回答了您问题的第一部分（如何获取字节）：查看System.Text.Encoding命名空间。

我将回答您的后续问题：为什么需要选择编码？为什么不能从字符串类本身获得这些信息？

答案分为两部分。

首先，字符串类内部使用的字节并不重要，只要假设它们存在，就可能引入错误。

如果您的程序完全在.Net世界中，那么您根本不需要担心获取字符串的字节数组，即使您正在通过网络发送数据。相反，请使用.Net Serialization来担心数据传输问题。您不再担心实际的字节数：Serialization格式化程序会为您提供。

另一方面，如果您将这些字节发送到某个无法保证将从.Net序列化流中提取数据的地方，该怎么办？在这种情况下，您确实需要担心编码问题，因为显然，这个外部系统关心编码问题。同样，字符串使用的内部字节无关紧要：您需要选择一种编码，以便在接收端明确该编码，即使它与.Net内部使用的编码相同。

我理解，在这种情况下，您可能更希望在可能的情况下使用字符串变量存储在内存中的实际字节，这样可以节省创建字节流的工作量。然而，我告诉你，与确保输出在另一端被理解，并保证编码必须明确相比，这并不重要。此外，如果您真的想匹配内部字节，您可以只选择Unicode编码，从而节省性能。

这让我进入第二部分。。。选择Unicode编码就是告诉.Net使用底层字节。您确实需要选择这种编码，因为当一些新的Unicode Plus问世时，.Net运行时需要自由使用这种更新、更好的编码模型，而不会破坏您的程序。但是，目前（以及可预见的未来），只要选择Unicode编码就可以满足您的需要。

理解字符串必须重写为线也是很重要的，即使使用匹配的编码，也至少需要对位模式进行一些转换。计算机需要考虑诸如Big vs Little Endian、网络字节顺序、分组化、会话信息等。

2009-01-23 15:54:28

您需要考虑编码，因为1个字符可以由1个或多个字节（最多约6个）表示，不同的编码将对这些字节进行不同的处理。

Joel对此发表了一篇帖子：

绝对最低限度每个软件开发人员绝对、肯定地必须了解Unicode和字符集（没有借口！）

2009-01-23 14:03:30

计算机只理解原始二进制数据，原始比特。一位是二进制数字：0或1。8位数字是一个字节。一个字节是介于0和255之间的数字。

ASCII是一种将数字转换为字符的表格。0到31之间的数字是控件：制表符、换行符和其他。32到126之间的数字为可打印字符：字母a，数字1，%符号，下划线_

因此，对于ASCII，有33个控制字符和95个可打印字符。

ASCII是当今最常用的字符编码。Unicode表的第一个条目是ASCII，并与ASCII字符集匹配。

ASCII是一个7位字符集。介于0和127之间的数字。使用8位，我们可以达到255位。

ASCII最常见的替代品是EBCDIC，它与ASCII不兼容，今天仍然存在于IBM计算机和数据库中。

1字节，因此8位数字是当今计算机科学中最常用的单位。1字节是介于0和255之间的数字。

ASCII为0到127之间的每个数字定义了一个含义。

与128和255之间的数字相关联的字符取决于所使用的字符编码。目前广泛使用的两种字符编码是windows1252和UTF-8。

在windows1252中，欧元符号对应的数字是128。1字节：[A0]。在Unicode数据库中，欧元符号是数字8364。

现在我给你电话8364。两个字节：[20，AC]。在UTF-8中，欧元符号是数字14844588。三个字节：[E282AC]。

现在我给你一些原始数据。假设20AC。是两个windows1252字符：£还是一个Unicode€符号？

我给你一些原始数据。e282交流。82是windows1252中未分配的字符，因此它可能不是windows1252。它可能是macRoman“”C“”或OEM 437“”或UTF-8“€”符号。

根据字符编码的特性和统计数据，可以猜测原始字节流的编码，但没有可靠的方法。128到255之间的数字在UTF-8中是无效的。é在某些语言（法语）中很常见，因此如果您看到许多字节的值E9被字母包围，那么它可能是一个windows1252编码字符串，E9字节表示é字符。

当您有一个表示字符串的原始字节流时，了解匹配的编码比猜测要好得多。

下面是曾经被广泛使用的各种编码中的一个原始字节的屏幕截图。

2022-09-26 23:26:32

由于以下事实，字符串可以通过几种不同的方式转换为字节数组：.NET支持Unicode，Unicode标准化了几种称为UTF的不同编码。它们具有不同长度的字节表示，但在这个意义上是等价的，即当字符串被编码时，它可以被编码回字符串，但如果字符串用一个UTF编码，并且在不同UTF的假设下解码，如果可能会出错。

此外，.NET支持非Unicode编码，但它们在一般情况下无效（只有在实际字符串（如ASCII）中使用有限的Unicode代码点子集时才有效）。在内部，.NET支持UTF-16，但对于流表示，通常使用UTF-8。它也是互联网的事实标准。

毫不奇怪，System.Text.Encoding类是一个抽象类，它支持将字符串序列化为字节数组和反序列化；它的派生类支持具体编码：ASCIIEncoding和四个UTF（System.Text.UnicodeEncoding支持UTF-16）

参考此链接。

对于使用System.Text.Encoding.GetBytes对字节数组进行序列化。对于反向操作，使用System.Text.Encoding.GGetChars。此函数返回字符数组，因此要获取字符串，请使用字符串构造函数System.string（char[]）。请参阅本页。

例子：

string myString = //... some string

System.Text.Encoding encoding = System.Text.Encoding.UTF8; //or some other, but prefer some UTF is Unicode is used
byte[] bytes = encoding.GetBytes(myString);

//next lines are written in response to a follow-up questions:

myString = new string(encoding.GetChars(bytes));
byte[] bytes = encoding.GetBytes(myString);
myString = new string(encoding.GetChars(bytes));
byte[] bytes = encoding.GetBytes(myString);

//how many times shall I repeat it to show there is a round-trip? :-)

2014-06-11 11:29:06

如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

推荐文章

最新文章

标签