如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

如何在.NET（C#）中将字符串转换为字节[]而不手动指定特定编码？

我要加密字符串。我可以在不进行转换的情况下对其进行加密，但我仍然想知道为什么编码会在这里发挥作用。

此外，为什么还要考虑编码？我不能简单地获取字符串存储的字节数吗？为什么依赖字符编码？

当前回答

当被问及您打算如何处理字节时，您回答：

我将对它进行加密。我可以在不进行转换的情况下对其进行加密，但我仍然想知道为什么编码会在这里发挥作用。给我字节就是我说的。

无论您是否打算通过网络发送加密数据，稍后将其加载回内存，或将其流式传输到另一个进程，您显然都打算在某个时刻对其进行解密。在这种情况下，答案是您正在定义通信协议。通信协议不应根据编程语言及其相关运行时的实现细节来定义。这有几个原因：

您可能需要与以不同语言或运行时实现的流程进行通信。（例如，这可能包括在另一台机器上运行的服务器或将字符串发送到JavaScript浏览器客户端。）该程序将来可以用不同的语言或运行时重新实现。.NET实现可能会更改字符串的内部表示形式。您可能会觉得这听起来有些牵强，但这实际上发生在Java9中，以减少内存使用。.NET没有理由不能效仿。Skeet表明，UTF-16在今天可能不是最佳的，因为表情符号和其他Unicode块也需要2个以上的字节来表示，这增加了内部表示在未来可能发生变化的可能性。

为了进行通信（无论是与完全不同的进程还是将来与相同的程序），您需要严格定义协议，以最大限度地减少使用协议或意外创建错误的难度。依赖于.NET的内部表示并不是一个严格的、明确的，甚至不能保证是一致的定义。标准编码是一个严格的定义，将来不会让您失望。

换句话说，如果不指定编码，就无法满足一致性要求。

如果您发现由于.NET在内部使用了UTF-16或出于其他原因，您的进程的性能明显更好，那么您当然可以选择直接使用UTF-16，但您需要显式选择编码，并在代码中显式执行这些转换，而不是依赖于.NET的内部实现。

因此，选择一种编码并使用它：

using System.Text;

// ...

Encoding.Unicode.GetBytes("abc"); # UTF-16 little endian
Encoding.UTF8.GetBytes("abc")

正如您所看到的，与实现您自己的读写器方法相比，仅使用内置的编码对象实际上也是更少的代码。

2019-09-11 04:21:53

其他回答

由于以下事实，字符串可以通过几种不同的方式转换为字节数组：.NET支持Unicode，Unicode标准化了几种称为UTF的不同编码。它们具有不同长度的字节表示，但在这个意义上是等价的，即当字符串被编码时，它可以被编码回字符串，但如果字符串用一个UTF编码，并且在不同UTF的假设下解码，如果可能会出错。

此外，.NET支持非Unicode编码，但它们在一般情况下无效（只有在实际字符串（如ASCII）中使用有限的Unicode代码点子集时才有效）。在内部，.NET支持UTF-16，但对于流表示，通常使用UTF-8。它也是互联网的事实标准。

毫不奇怪，System.Text.Encoding类是一个抽象类，它支持将字符串序列化为字节数组和反序列化；它的派生类支持具体编码：ASCIIEncoding和四个UTF（System.Text.UnicodeEncoding支持UTF-16）

参考此链接。

对于使用System.Text.Encoding.GetBytes对字节数组进行序列化。对于反向操作，使用System.Text.Encoding.GGetChars。此函数返回字符数组，因此要获取字符串，请使用字符串构造函数System.string（char[]）。请参阅本页。

例子：

string myString = //... some string

System.Text.Encoding encoding = System.Text.Encoding.UTF8; //or some other, but prefer some UTF is Unicode is used
byte[] bytes = encoding.GetBytes(myString);

//next lines are written in response to a follow-up questions:

myString = new string(encoding.GetChars(bytes));
byte[] bytes = encoding.GetBytes(myString);
myString = new string(encoding.GetChars(bytes));
byte[] bytes = encoding.GetBytes(myString);

//how many times shall I repeat it to show there is a round-trip? :-)

2014-06-11 11:29:06

字符既是字体表的查找键，也是词汇传统，如排序、大小写版本等。

因此，字符不是字节（8位），字节不是字符。特别是，一个字节的256个排列不能容纳某些书面语言中的数千个符号，更不用说所有语言了。因此，已经设计了各种编码字符的方法。某些编码用于特定类别的语言（ASCII编码）；使用代码页的多种语言（扩展ASCII）；或者，雄心勃勃地，通过根据需要选择性地包括额外的字节，Unicode来实现所有语言。

在系统（如.NET框架）中，字符串表示特定的字符编码。在.NET中，此编码为Unicode。由于框架默认读取和写入Unicode，因此在.NET中通常不需要处理字符编码。

然而，一般来说，要从字节流将字符串加载到系统中，您需要知道源编码，从而正确解释并随后翻译它（否则代码将被视为已在系统的默认编码中，从而呈现乱码）。类似地，当字符串被写入外部源时，它将以特定的编码被写入。

2014-08-28 16:14:16

byte[] strToByteArray(string str)
{
    System.Text.ASCIIEncoding enc = new System.Text.ASCIIEncoding();
    return enc.GetBytes(str);
}

2009-01-23 13:43:18

最接近OP问题的方法是Tom Blodget的，它实际上进入对象并提取字节。我说最接近，因为它取决于String对象的实现。

"Can't I simply get what bytes the string has been stored in?"

当然，但这就是问题的根本错误所在。String是一个可能具有有趣数据结构的对象。我们已经知道它确实存在，因为它允许存储未配对的代孕对象。它可能会存储长度。它可能会保持一个指针指向每一个“配对”的代孕者，以便快速计数。所有这些额外的字节都不是字符数据的一部分。

您需要的是数组中每个字符的字节。这就是“编码”的含义。默认情况下，您将获得UTF-16LE。如果您不关心字节本身，除了往返之外，那么您可以选择任何编码，包括“默认”，然后稍后将其转换回（假设相同的参数，例如默认编码、代码点、错误修复、允许的事情，例如未配对的代理等）。

但为什么要让“编码”变魔术呢？为什么不指定编码，以便知道将获得哪些字节？

"Why is there a dependency on character encodings?"

编码（在此上下文中）只是表示字符串的字节。不是字符串对象的字节。您需要字符串存储的字节——这是天真地问这个问题的地方。您希望字符串的字节位于表示字符串的连续数组中，而不是字符串对象可能包含的所有其他二进制数据。

这意味着字符串的存储方式无关紧要。您需要将字符串“编码”为字节数组中的字节。

我喜欢Tom Bloget的回答，因为他把你引向了“字符串对象的字节”的方向。但它依赖于实现，而且因为他在窥探内部，所以很难重建字符串的副本。

迈赫达德的回应是错误的，因为它在概念层面上具有误导性。您仍然有一个字节列表，已编码。他的特定解决方案允许保留未配对的代孕对象——这取决于实现。如果GetBytes默认以UTF-8格式返回字符串，他的特定解决方案将无法准确生成字符串的字节。

我已经改变了主意（Mehrad的解决方案）——这不是获取字符串的字节数；而是获取从字符串创建的字符数组的字节。无论编码如何，c#中的char数据类型都是固定大小。这允许生成一致长度的字节数组，并且允许基于字节数组的大小来再现字符数组。因此，如果编码是UTF-8，但每个字符都是6字节以容纳最大的utf8值，那么它仍然可以工作。所以事实上，字符的编码并不重要。

但是使用了转换——每个字符都放在一个固定大小的框中（c#的字符类型）。然而，这个表示是什么并不重要，从技术上来说，这是OP的答案。所以，如果你无论如何都要转换。。。为什么不“编码”？

2015-08-18 17:04:21

您需要考虑编码，因为1个字符可以由1个或多个字节（最多约6个）表示，不同的编码将对这些字节进行不同的处理。

Joel对此发表了一篇帖子：

绝对最低限度每个软件开发人员绝对、肯定地必须了解Unicode和字符集（没有借口！）

2009-01-23 14:03:30

如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

推荐文章

最新文章

标签