如何从。net中的字符串中删除变音符(重音)?

我试图转换一些字符串，在法国加拿大，基本上，我想能够拿出法国重音标记在字母，同时保持字母。(例如，将é转换为e，那么crème brûlée就会变成creme brulee)

实现这一目标的最佳方法是什么?

当前回答

这段代码对我很有用:

var updatedText = text.Normalize(NormalizationForm.FormD)
     .Where(c => CharUnicodeInfo.GetUnicodeCategory(c) != UnicodeCategory.NonSpacingMark)
     .ToArray();

但是，请不要对名字这样做。这不仅是对名字中有变音或口音的人的侮辱，在某些情况下也可能是危险的错误(见下文)。除了去掉重音，还有其他的写法。

此外，这是错误和危险的，例如，如果用户必须如实提供护照上的名字。

例如，我的名字写着Zuberbühler，在我护照的机读部分，你会发现祖伯布勒。去掉变音后，名字将与两个部分都不匹配。这可能会给用户带来问题。

您应该禁止在名字的输入表单中使用变音/重音，以便用户可以正确地书写没有变音或重音的名字。

例如，如果申请ESTA的web服务(https://www.application-esta.co.uk/special-characters-and)使用上述代码，而不是正确地转换变音，ESTA申请要么会被拒绝，要么旅行者在进入美国时将与美国边境控制出现问题。

另一个例子是机票。假设您有一个机票预订web应用程序，用户提供带有重音的名字，您的实现只是删除重音，然后使用航空公司的web服务预订机票!您的客户可能不被允许登机，因为姓名与他/她护照的任何部分不匹配。

2020-09-03 17:45:14

其他回答

为所有找到Lucene的人。Net作为一个多余的删除变音符，我设法找到这个小库，利用ASCII音译为您。

https://github.com/anyascii/anyascii

2022-08-19 08:54:49

这招对我很管用……

string accentedStr;
byte[] tempBytes;
tempBytes = System.Text.Encoding.GetEncoding("ISO-8859-8").GetBytes(accentedStr);
string asciiStr = System.Text.Encoding.UTF8.GetString(tempBytes);

快速短!

2010-01-18 14:16:44

这个人说:

Encoding.ASCII.GetString（Encoding.GetEncoding（1251）.获取字节（文本））;

它实际上把å这样的一个字符(它是字符代码00E5，而不是0061加上修饰符030A，看起来是一样的)分割成一个加上某种修饰符，然后ASCII转换删除修饰符，只留下a。

2015-12-11 17:09:47

你可以从MMLib中使用字符串扩展。扩展nuget包:

using MMLib.RapidPrototyping.Generators;
public void ExtensionsExample()
{
  string target = "aácčeéií";
  Assert.AreEqual("aacceeii", target.RemoveDiacritics());
}

Nuget页面:https://www.nuget.org/packages/MMLib.Extensions/ Codeplex项目网站https://mmlib.codeplex.com/

2013-12-30 10:25:13

我经常使用基于我在这里找到的另一个版本的扩展方法 (参见在c# (ascii)中替换字符) 简单解释一下:

归一化形成D，将è等字符分割为e和非空格' 由此，nospacing字符被移除结果归一化回形式C(我不确定这是否有必要)

代码:

using System.Linq;
using System.Text;
using System.Globalization;

// namespace here
public static class Utility
{
    public static string RemoveDiacritics(this string str)
    {
        if (null == str) return null;
        var chars =
            from c in str.Normalize(NormalizationForm.FormD).ToCharArray()
            let uc = CharUnicodeInfo.GetUnicodeCategory(c)
            where uc != UnicodeCategory.NonSpacingMark
            select c;

        var cleanStr = new string(chars.ToArray()).Normalize(NormalizationForm.FormC);

        return cleanStr;
    }

    // or, alternatively
    public static string RemoveDiacritics2(this string str)
    {
        if (null == str) return null;
        var chars = str
            .Normalize(NormalizationForm.FormD)
            .ToCharArray()
            .Where(c=> CharUnicodeInfo.GetUnicodeCategory(c) != UnicodeCategory.NonSpacingMark)
            .ToArray();

        return new string(chars).Normalize(NormalizationForm.FormC);
    }
}

2012-10-31 10:05:38

如何从。net中的字符串中删除变音符(重音)?

推荐文章

最新文章

标签