如何从。net中的字符串中删除变音符(重音)?

我试图转换一些字符串，在法国加拿大，基本上，我想能够拿出法国重音标记在字母，同时保持字母。(例如，将é转换为e，那么crème brûlée就会变成creme brulee)

实现这一目标的最佳方法是什么?

当前回答

为了像最初的问题一样简单地删除法语加拿大重音标记，这里有一个使用正则表达式而不是硬编码转换和For/Next循环的替代方法。根据您的需要，它可以被压缩成一行代码;但是，我将它添加到一个扩展类中，以便于重用。

Visual Basic

Imports System.Text
Imports System.Text.RegularExpressions

Public MustInherit Class StringExtension
    Public Shared Function RemoveDiacritics(Text As String) As String
        Return New Regex("\p{Mn}", RegexOptions.Compiled).Replace(Text.Normalize(NormalizationForm.FormD), String.Empty)
    End Function
End Class

实现

    Private Shared Sub DoStuff()
        MsgBox(StringExtension.RemoveDiacritics(inputString))
    End Sub

using System.Text;
using System.Text.RegularExpressions;

namespace YourApplication
{
    public abstract class StringExtension
    {
        public static string RemoveDiacritics(string Text)
        {
            return new Regex(@"\p{Mn}", RegexOptions.Compiled).Replace(Text.Normalize(NormalizationForm.FormD), string.Empty);
        }
    }
}

实现

        private static void DoStuff()
        {
            MessageBox.Show(StringExtension.RemoveDiacritics(inputString));
        }

Input： äáčďěéíľľňôóřŕšťúůýž ÄÁČĎĚÉÍĽĽŇÔŘŔŠŤÚŮÝŽ ÖÜË łŁđĐ țŢşŞçÇ øı

Output： aacdeeillnoorrstuuyz AACDEEILLNOORRSTUUYZ OUE łŁđĐ tTsScC øı

我加入了无法转换的字符，以帮助可视化接收到意外输入时会发生什么。

如果您还需要它来转换其他类型的字符，如波兰语的warsaw和Ł，那么根据您的需要，可以考虑合并这个答案(。NET Core友好)，它使用CodePagesEncodingProvider到您的解决方案中。

2022-06-21 18:48:10

其他回答

在这里弹出这个库，如果您还没有考虑过的话。看起来有一个完整的单元测试。

https://github.com/thomasgalliker/Diacritics.NET

2017-05-21 21:10:25

希腊代码页(ISO)可以做到这一点

关于这个代码页的信息在System.Text.Encoding.GetEncodings()中。了解网址:https://msdn.microsoft.com/pt-br/library/system.text.encodinginfo.getencoding(v=vs.110).aspx

希腊语(ISO)的代码页为28597，名称为ISO -8859-7。

进入代码…\ o /

string text = "Você está numa situação lamentável";

string textEncode = System.Web.HttpUtility.UrlEncode(text, Encoding.GetEncoding("iso-8859-7"));
//result: "Voce+esta+numa+situacao+lamentavel"

string textDecode = System.Web.HttpUtility.UrlDecode(textEncode);
//result: "Voce esta numa situacao lamentavel"

那么，写这个函数…

public string RemoveAcentuation(string text)
{
    return
        System.Web.HttpUtility.UrlDecode(
            System.Web.HttpUtility.UrlEncode(
                text, Encoding.GetEncoding("iso-8859-7")));
}

请注意,…Encoding. getencoding ("iso-8859-7")等价于Encoding. getencoding(28597)，因为第一个是Encoding的名称，第二个是Encoding的编码页。

2016-08-05 01:46:49

为所有找到Lucene的人。Net作为一个多余的删除变音符，我设法找到这个小库，利用ASCII音译为您。

https://github.com/anyascii/anyascii

2022-08-19 08:54:49

有趣的是，这样的问题可以得到这么多答案，但没有一个符合我的要求:)周围有这么多语言，一个完全语言不可知的解决方案是不可能的，因为其他人已经提到FormC或FormD正在给出问题。

由于最初的问题与法语有关，最简单的答案确实是

    public static string ConvertWesternEuropeanToASCII(this string str)
    {
        return Encoding.ASCII.GetString(Encoding.GetEncoding(1251).GetBytes(str));
    }

1251应该被输入语言的编码代码所取代。

但是，这只能用一个字符替换一个字符。由于我也使用德语作为输入，所以我进行了手动转换

    public static string LatinizeGermanCharacters(this string str)
    {
        StringBuilder sb = new StringBuilder(str.Length);
        foreach (char c in str)
        {
            switch (c)
            {
                case 'ä':
                    sb.Append("ae");
                    break;
                case 'ö':
                    sb.Append("oe");
                    break;
                case 'ü':
                    sb.Append("ue");
                    break;
                case 'Ä':
                    sb.Append("Ae");
                    break;
                case 'Ö':
                    sb.Append("Oe");
                    break;
                case 'Ü':
                    sb.Append("Ue");
                    break;
                case 'ß':
                    sb.Append("ss");
                    break;
                default:
                    sb.Append(c);
                    break;
            }
        }
        return sb.ToString();
    }

它可能不能提供最好的性能，但至少它非常易于阅读和扩展。 Regex是一个不去，比任何字符/字符串的东西慢得多。

我还有一个非常简单的方法来删除空间:

    public static string RemoveSpace(this string str)
    {
        return str.Replace(" ", string.Empty);
    }

最终，我使用以上3个扩展的组合:

    public static string LatinizeAndConvertToASCII(this string str, bool keepSpace = false)
    {
        str = str.LatinizeGermanCharacters().ConvertWesternEuropeanToASCII();            
        return keepSpace ? str : str.RemoveSpace();
    }

并对其进行了一个小单元测试(不详尽)，以成功通过。

    [TestMethod()]
    public void LatinizeAndConvertToASCIITest()
    {
        string europeanStr = "Bonjour ça va? C'est l'été! Ich möchte ä Ä á à â ê é è ë Ë É ï Ï î í ì ó ò ô ö Ö Ü ü ù ú û Û ý Ý ç Ç ñ Ñ";
        string expected = "Bonjourcava?C'estl'ete!IchmoechteaeAeaaaeeeeEEiIiiiooooeOeUeueuuuUyYcCnN";
        string actual = europeanStr.LatinizeAndConvertToASCII();
        Assert.AreEqual(expected, actual);
    }

2017-02-06 13:19:11

我没有使用过这种方法，但是Michael Kaplan在他的博客文章(有一个令人困惑的标题)中描述了一种方法，谈论剥离变音符:剥离是一项有趣的工作(又名剥离) 论无意义的意义，即一切 Mn字符是非空格的，但是有些更非间距比其他人)

static string RemoveDiacritics(string text) 
{
    var normalizedString = text.Normalize(NormalizationForm.FormD);
    var stringBuilder = new StringBuilder(capacity: normalizedString.Length);

    for (int i = 0; i < normalizedString.Length; i++)
    {
        char c = normalizedString[i];
        var unicodeCategory = CharUnicodeInfo.GetUnicodeCategory(c);
        if (unicodeCategory != UnicodeCategory.NonSpacingMark)
        {
            stringBuilder.Append(c);
        }
    }

    return stringBuilder
        .ToString()
        .Normalize(NormalizationForm.FormC);
}

请注意，这是他之前帖子的后续:剥离变音符....

该方法使用String。Normalize将输入字符串分割为组成符号(基本上是将“基本”字符与变音符符分开)，然后扫描结果并仅保留基本字符。这只是有点复杂，但实际上你看到的是一个复杂的问题。

当然，如果你限制自己使用法语，你可能会使用@David Dibben推荐的如何在c++ std::string中删除重音和波浪号的简单基于表的方法。

2008-10-30 02:29:01

如何从。net中的字符串中删除变音符(重音)?

推荐文章

最新文章

标签