如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

如何在.NET（C#）中将字符串转换为字节[]而不手动指定特定编码？

我要加密字符串。我可以在不进行转换的情况下对其进行加密，但我仍然想知道为什么编码会在这里发挥作用。

此外，为什么还要考虑编码？我不能简单地获取字符串存储的字节数吗？为什么依赖字符编码？

当前回答

OP的问题：“如何在.NET（C#）中将字符串转换为字节数组？”

您可以使用以下代码：

static byte[] ConvertString (string s) {
    return new byte[0];
}

作为一个好处，编码无关紧要！哦，等等，这是一个ecoding。。。它只是微不足道的，而且损耗很大。

2013-09-27 23:26:41

其他回答

其他人已经回答了您问题的第一部分（如何获取字节）：查看System.Text.Encoding命名空间。

我将回答您的后续问题：为什么需要选择编码？为什么不能从字符串类本身获得这些信息？

答案分为两部分。

首先，字符串类内部使用的字节并不重要，只要假设它们存在，就可能引入错误。

如果您的程序完全在.Net世界中，那么您根本不需要担心获取字符串的字节数组，即使您正在通过网络发送数据。相反，请使用.Net Serialization来担心数据传输问题。您不再担心实际的字节数：Serialization格式化程序会为您提供。

另一方面，如果您将这些字节发送到某个无法保证将从.Net序列化流中提取数据的地方，该怎么办？在这种情况下，您确实需要担心编码问题，因为显然，这个外部系统关心编码问题。同样，字符串使用的内部字节无关紧要：您需要选择一种编码，以便在接收端明确该编码，即使它与.Net内部使用的编码相同。

我理解，在这种情况下，您可能更希望在可能的情况下使用字符串变量存储在内存中的实际字节，这样可以节省创建字节流的工作量。然而，我告诉你，与确保输出在另一端被理解，并保证编码必须明确相比，这并不重要。此外，如果您真的想匹配内部字节，您可以只选择Unicode编码，从而节省性能。

这让我进入第二部分。。。选择Unicode编码就是告诉.Net使用底层字节。您确实需要选择这种编码，因为当一些新的Unicode Plus问世时，.Net运行时需要自由使用这种更新、更好的编码模型，而不会破坏您的程序。但是，目前（以及可预见的未来），只要选择Unicode编码就可以满足您的需要。

理解字符串必须重写为线也是很重要的，即使使用匹配的编码，也至少需要对位模式进行一些转换。计算机需要考虑诸如Big vs Little Endian、网络字节顺序、分组化、会话信息等。

2009-01-23 15:54:28

byte[] strToByteArray(string str)
{
    System.Text.ASCIIEncoding enc = new System.Text.ASCIIEncoding();
    return enc.GetBytes(str);
}

2009-01-23 13:43:18

BinaryFormatter bf = new BinaryFormatter();
byte[] bytes;
MemoryStream ms = new MemoryStream();

string orig = "喂 Hello 谢谢 Thank You";
bf.Serialize(ms, orig);
ms.Seek(0, 0);
bytes = ms.ToArray();

MessageBox.Show("Original bytes Length: " + bytes.Length.ToString());

MessageBox.Show("Original string Length: " + orig.Length.ToString());

for (int i = 0; i < bytes.Length; ++i) bytes[i] ^= 168; // pseudo encrypt
for (int i = 0; i < bytes.Length; ++i) bytes[i] ^= 168; // pseudo decrypt

BinaryFormatter bfx = new BinaryFormatter();
MemoryStream msx = new MemoryStream();            
msx.Write(bytes, 0, bytes.Length);
msx.Seek(0, 0);
string sx = (string)bfx.Deserialize(msx);

MessageBox.Show("Still intact :" + sx);

MessageBox.Show("Deserialize string Length(still intact): " 
    + sx.Length.ToString());

BinaryFormatter bfy = new BinaryFormatter();
MemoryStream msy = new MemoryStream();
bfy.Serialize(msy, sx);
msy.Seek(0, 0);
byte[] bytesy = msy.ToArray();

MessageBox.Show("Deserialize bytes Length(still intact): " 
   + bytesy.Length.ToString());

2009-01-23 16:36:07

这取决于字符串的编码（ASCII、UTF-8…）。

例如：

byte[] b1 = System.Text.Encoding.UTF8.GetBytes (myString);
byte[] b2 = System.Text.Encoding.ASCII.GetBytes (myString);

编码重要的一个小例子：

string pi = "\u03a0";
byte[] ascii = System.Text.Encoding.ASCII.GetBytes (pi);
byte[] utf8 = System.Text.Encoding.UTF8.GetBytes (pi);

Console.WriteLine (ascii.Length); //Will print 1
Console.WriteLine (utf8.Length); //Will print 2
Console.WriteLine (System.Text.Encoding.ASCII.GetString (ascii)); //Will print '?'

ASCII根本无法处理特殊字符。

在内部，.NET框架使用UTF-16表示字符串，因此，如果您只想获得.NET使用的确切字节，请使用System.Text.Encoding.Unicode.GetBytes（…）。

有关详细信息，请参阅.NET Framework（MSDN）中的字符编码。

2009-01-23 13:43:51

计算机只理解原始二进制数据，原始比特。一位是二进制数字：0或1。8位数字是一个字节。一个字节是介于0和255之间的数字。

ASCII是一种将数字转换为字符的表格。0到31之间的数字是控件：制表符、换行符和其他。32到126之间的数字为可打印字符：字母a，数字1，%符号，下划线_

因此，对于ASCII，有33个控制字符和95个可打印字符。

ASCII是当今最常用的字符编码。Unicode表的第一个条目是ASCII，并与ASCII字符集匹配。

ASCII是一个7位字符集。介于0和127之间的数字。使用8位，我们可以达到255位。

ASCII最常见的替代品是EBCDIC，它与ASCII不兼容，今天仍然存在于IBM计算机和数据库中。

1字节，因此8位数字是当今计算机科学中最常用的单位。1字节是介于0和255之间的数字。

ASCII为0到127之间的每个数字定义了一个含义。

与128和255之间的数字相关联的字符取决于所使用的字符编码。目前广泛使用的两种字符编码是windows1252和UTF-8。

在windows1252中，欧元符号对应的数字是128。1字节：[A0]。在Unicode数据库中，欧元符号是数字8364。

现在我给你电话8364。两个字节：[20，AC]。在UTF-8中，欧元符号是数字14844588。三个字节：[E282AC]。

现在我给你一些原始数据。假设20AC。是两个windows1252字符：£还是一个Unicode€符号？

我给你一些原始数据。e282交流。82是windows1252中未分配的字符，因此它可能不是windows1252。它可能是macRoman“”C“”或OEM 437“”或UTF-8“€”符号。

根据字符编码的特性和统计数据，可以猜测原始字节流的编码，但没有可靠的方法。128到255之间的数字在UTF-8中是无效的。é在某些语言（法语）中很常见，因此如果您看到许多字节的值E9被字母包围，那么它可能是一个windows1252编码字符串，E9字节表示é字符。

当您有一个表示字符串的原始字节流时，了解匹配的编码比猜测要好得多。

下面是曾经被广泛使用的各种编码中的一个原始字节的屏幕截图。

2022-09-26 23:26:32

如何在不手动指定编码的情况下获得C#中字符串的一致字节表示？

推荐文章

最新文章

标签