如何从。net中的字符串中删除变音符(重音)?

我试图转换一些字符串，在法国加拿大，基本上，我想能够拿出法国重音标记在字母，同时保持字母。(例如，将é转换为e，那么crème brûlée就会变成creme brulee)

实现这一目标的最佳方法是什么?

当前回答

在这里弹出这个库，如果您还没有考虑过的话。看起来有一个完整的单元测试。

https://github.com/thomasgalliker/Diacritics.NET

2017-05-21 21:10:25

其他回答

试试helppersharp包。

有一个方法removeaccent:

 public static string RemoveAccents(this string source)
 {
     //8 bit characters 
     byte[] b = Encoding.GetEncoding(1251).GetBytes(source);

     // 7 bit characters
     string t = Encoding.ASCII.GetString(b);
     Regex re = new Regex("[^a-zA-Z0-9]=-_/");
     string c = re.Replace(t, " ");
     return c;
 }

2013-05-03 02:25:24

我真的很喜欢azrafe7提供的简洁实用的代码。所以，我稍微改变了一下，把它转换成一个扩展方法:

public static class StringExtensions
{
    public static string RemoveDiacritics(this string text)
    {
        const string SINGLEBYTE_LATIN_ASCII_ENCODING = "ISO-8859-8";

        if (string.IsNullOrEmpty(text))
        {
            return string.Empty;
        }

        return Encoding.ASCII.GetString(
            Encoding.GetEncoding(SINGLEBYTE_LATIN_ASCII_ENCODING).GetBytes(text));
    }
}

2017-02-14 18:54:17

这个人说:

Encoding.ASCII.GetString（Encoding.GetEncoding（1251）.获取字节（文本））;

它实际上把å这样的一个字符(它是字符代码00E5，而不是0061加上修饰符030A，看起来是一样的)分割成一个加上某种修饰符，然后ASCII转换删除修饰符，只留下a。

2015-12-11 17:09:47

公认的答案是完全正确的，但是现在，它应该更新为使用符文类而不是CharUnicodeInfo，因为c#和。net在最新版本中更新了分析字符串的方法(符文类已在。net Core 3.0中添加)。

下面的代码现在推荐用于。net 5+，因为它可以进一步用于非拉丁字符:

static string RemoveDiacritics(string text) 
{
    var normalizedString = text.Normalize(NormalizationForm.FormD);
    var stringBuilder = new StringBuilder();

    foreach (var c in normalizedString.EnumerateRunes())
    {
        var unicodeCategory = Rune.GetUnicodeCategory(c);
        if (unicodeCategory != UnicodeCategory.NonSpacingMark)
        {
            stringBuilder.Append(c);
        }
    }

    return stringBuilder.ToString().Normalize(NormalizationForm.FormC);
}

2021-05-17 12:40:09

希腊代码页(ISO)可以做到这一点

关于这个代码页的信息在System.Text.Encoding.GetEncodings()中。了解网址:https://msdn.microsoft.com/pt-br/library/system.text.encodinginfo.getencoding(v=vs.110).aspx

希腊语(ISO)的代码页为28597，名称为ISO -8859-7。

进入代码…\ o /

string text = "Você está numa situação lamentável";

string textEncode = System.Web.HttpUtility.UrlEncode(text, Encoding.GetEncoding("iso-8859-7"));
//result: "Voce+esta+numa+situacao+lamentavel"

string textDecode = System.Web.HttpUtility.UrlDecode(textEncode);
//result: "Voce esta numa situacao lamentavel"

那么，写这个函数…

public string RemoveAcentuation(string text)
{
    return
        System.Web.HttpUtility.UrlDecode(
            System.Web.HttpUtility.UrlEncode(
                text, Encoding.GetEncoding("iso-8859-7")));
}

请注意,…Encoding. getencoding ("iso-8859-7")等价于Encoding. getencoding(28597)，因为第一个是Encoding的名称，第二个是Encoding的编码页。

2016-08-05 01:46:49

如何从。net中的字符串中删除变音符(重音)?

推荐文章

最新文章

标签