std:：wstring VS std:：string

所以，现在在座的每一位读者都应该清楚地了解事实和情况。如果没有，那么你必须阅读帕塞巴尔非常全面的回答[顺便说一句：谢谢！]。

我的务实结论非常简单：所有C++（和STL）“字符编码”的东西基本上都是残缺不全的。不管是否归咎于微软，这都无济于事。

经过深入调查后，我的解决方案是：

接受，你必须自己负责编码和转换的事情（你会发现很多事情都很琐碎）对任何UTF-8编码字符串使用std:：string（仅为typedef std:：字符串UTF8String）接受这样一个UTF8String对象只是一个愚蠢但廉价的容器。永远不要直接访问和/或操作其中的字符（不要搜索、替换等）。你可以，但你真的不想浪费时间为多字节字符串编写文本操作算法！即使其他人已经做了如此愚蠢的事情，也不要这样做！顺其自然！（好吧，在某些情况下，这是合理的……只需使用ICU图书馆即可）。对UCS-2编码字符串使用std:：wstring（typedef std:：wstring UCS2String）-这是一种妥协，也是对WIN32 API引入的混乱的让步）。UCS-2对我们大多数人来说已经足够了（稍后将详细介绍…）。每当需要逐字符访问（读取、操作等）时，请使用UCS2String实例。任何基于字符的处理都应该在非多字节表示中完成。它简单、快速、容易。添加两个实用函数以在UTF-8和UCS-2之间来回转换：UCS2字符串转换为UCS2（const UTF8String&str）；UTF8字符串转换为UTF8（常量UCS2String&str）；

转换很简单，谷歌应该在这里提供帮助。。。

就是这样。在内存非常宝贵的地方以及所有UTF-8 I/O都使用UTF8String。在必须解析和/或操作字符串的地方使用UCS2String。您可以随时在这两种表示之间进行转换。

替代方案和改进

从&到单字节字符编码（例如ISO-8859-1）的转换可以借助于普通转换表来实现，例如const wchar_ttt_iso88951[256]＝{0,1,2，…}；以及用于转换到UCS2和从UCS2转换的适当代码。如果UCS-2不够，则切换到UCS-4（typedef std:：basic_string<uint32_t>UCS2String）

ICU或其他unicode库？

先进的东西。

2011-11-07 06:07:09

所以，现在在座的每一位读者都应该清楚地了解事实和情况。如果没有，那么你必须阅读帕塞巴尔非常全面的回答[顺便说一句：谢谢！]。

我的务实结论非常简单：所有C++（和STL）“字符编码”的东西基本上都是残缺不全的。不管是否归咎于微软，这都无济于事。

经过深入调查后，我的解决方案是：

接受，你必须自己负责编码和转换的事情（你会发现很多事情都很琐碎）对任何UTF-8编码字符串使用std:：string（仅为typedef std:：字符串UTF8String）接受这样一个UTF8String对象只是一个愚蠢但廉价的容器。永远不要直接访问和/或操作其中的字符（不要搜索、替换等）。你可以，但你真的不想浪费时间为多字节字符串编写文本操作算法！即使其他人已经做了如此愚蠢的事情，也不要这样做！顺其自然！（好吧，在某些情况下，这是合理的……只需使用ICU图书馆即可）。对UCS-2编码字符串使用std:：wstring（typedef std:：wstring UCS2String）-这是一种妥协，也是对WIN32 API引入的混乱的让步）。UCS-2对我们大多数人来说已经足够了（稍后将详细介绍…）。每当需要逐字符访问（读取、操作等）时，请使用UCS2String实例。任何基于字符的处理都应该在非多字节表示中完成。它简单、快速、容易。添加两个实用函数以在UTF-8和UCS-2之间来回转换：UCS2字符串转换为UCS2（const UTF8String&str）；UTF8字符串转换为UTF8（常量UCS2String&str）；

转换很简单，谷歌应该在这里提供帮助。。。

就是这样。在内存非常宝贵的地方以及所有UTF-8 I/O都使用UTF8String。在必须解析和/或操作字符串的地方使用UCS2String。您可以随时在这两种表示之间进行转换。

替代方案和改进

从&到单字节字符编码（例如ISO-8859-1）的转换可以借助于普通转换表来实现，例如const wchar_ttt_iso88951[256]＝{0,1,2，…}；以及用于转换到UCS2和从UCS2转换的适当代码。如果UCS-2不够，则切换到UCS-4（typedef std:：basic_string<uint32_t>UCS2String）

ICU或其他unicode库？

先进的东西。

2011-11-07 06:07:09

1）正如Greg所提到的，wstring有助于国际化，这意味着您将以英语以外的语言发布产品

4）检查此项以获取宽字符http://en.wikipedia.org/wiki/Wide_character

2008-12-31 04:24:41

如果应用程序不满足256个不同的字符，则可以选择使用宽字符（超过8位）或可变长度编码（C++术语中的多字节编码），如UTF-8。宽字符通常比可变长度编码需要更多的空间，但处理速度更快。处理大量文本的多语言应用程序通常在处理文本时使用宽字符，但在将文本存储到磁盘时将其转换为UTF-8。

字符串和wstring之间的唯一区别是它们存储的字符的数据类型。字符串存储的字符大小保证至少为8位，因此您可以使用字符串来处理例如ASCII、ISO-8859-15或UTF-8文本。该标准没有说明字符集或编码。

实际上，每个编译器都使用一个字符集，其前128个字符与ASCII对应。使用UTF-8编码的编译器也是如此。在UTF-8或其他可变长度编码中使用字符串时，需要注意的重要一点是，索引和长度是以字节而不是字符来度量的。

wstring的数据类型是wchar_t，其大小在标准中没有定义，除了它必须至少与一个字符一样大，通常是16位或32位。wstring可用于处理实现定义的宽字符编码中的文本。因为标准中没有定义编码，所以在字符串和wstring之间进行转换并不简单。也不能假设wstring具有固定长度编码。

如果您不需要多语言支持，那么可以只使用常规字符串。另一方面，如果您正在编写图形应用程序，则API通常只支持宽字符。然后，您可能希望在处理文本时使用相同的宽字符。请记住，UTF-16是一种可变长度编码，这意味着您不能假定length（）返回字符数。如果API使用固定长度编码，例如UCS-2，则处理变得容易。在宽字符和UTF-8之间进行转换很难以可移植的方式进行，但话说回来，您的用户界面API可能支持这种转换。

2011-09-11 09:28:00

我经常使用std:：string来保存utf-8字符，而没有任何问题。我强烈建议在与使用utf-8作为本机字符串类型的API接口时这样做。

例如，当我的代码与Tcl解释器接口时，我使用utf-8。

主要的警告是std:：字符串的长度，不再是字符串中的字符数。

2008-12-31 04:33:23

什么时候不应该使用宽字符？

当你在1990年之前编写代码时。

很明显，我很生气，但事实上，现在是21世纪。127个字符早已不再足够。是的，你可以使用UTF8，但为什么要头疼呢？

2009-06-10 23:26:56

std:：wstring VS std:：string

推荐文章

最新文章

标签