多年来,我慢慢地开发了一个正则表达式,它可以正确验证大多数电子邮件地址,假设它们不使用IP地址作为服务器部分。

我在几个PHP程序中使用它,而且大多数时候都可以使用。然而,不时有人与我联系,他们对使用它的网站有问题,我最终不得不做出一些调整(最近我意识到我不允许四个字符的TLD)。

你有或见过验证电子邮件的最佳正则表达式是什么?

我见过几种使用函数的解决方案,这些函数使用了几个较短的表达式,但我宁愿在简单函数中使用一个长的复杂表达式,而不是在更复杂的函数中使用几个短表达式。


当前回答

电子邮件正则表达式(RFC 5322)

(?im)^(?=.{1,64}@)(?:("[^"\\]*(?:\\.[^"\\]*)*"@)|((?:[0-9a-z](?:\.(?!\.)|[-!#\$%&'\*\+/=\?\^`\{\}\|~\w])*)?[0-9a-z]@))(?=.{1,255}$)(?:(\[(?:\d{1,3}\.){3}\d{1,3}\])|((?:(?=.{1,63}\.)[0-9a-z][-\w]*[0-9a-z]*\.)+[a-z0-9][\-a-z0-9]{0,22}[a-z0-9])|((?=.{1,63}$)[0-9a-z][-\w]*))$

演示https://regex101.com/r/ObS3QZ/1

# (?im)^(?=.{1,64}@)(?:("[^"\\]*(?:\\.[^"\\]*)*"@)|((?:[0-9a-z](?:\.(?!\.)|[-!#\$%&'\*\+/=\?\^`\{\}\|~\w])*)?[0-9a-z]@))(?=.{1,255}$)(?:(\[(?:\d{1,3}\.){3}\d{1,3}\])|((?:(?=.{1,63}\.)[0-9a-z][-\w]*[0-9a-z]*\.)+[a-z0-9][\-a-z0-9]{0,22}[a-z0-9])|((?=.{1,63}$)[0-9a-z][-\w]*))$

# Note - remove all comments '(comments)' before running this regex
# Find  \([^)]*\)  replace with nothing

(?im)                                     # Case insensitive
^                                         # BOS

                                          # Local part
(?= .{1,64} @ )                           # 64 max chars
(?:
     (                                         # (1 start), Quoted
          " [^"\\]*
          (?: \\ . [^"\\]* )*
          "
          @
     )                                         # (1 end)
  |                                          # or,
     (                                         # (2 start), Non-quoted
          (?:
               [0-9a-z]
               (?:
                    \.
                    (?! \. )
                 |                                          # or,
                    [-!#\$%&'\*\+/=\?\^`\{\}\|~\w]
               )*
          )?
          [0-9a-z]
          @
     )                                         # (2 end)
)
                                          # Domain part
(?= .{1,255} $ )                          # 255 max chars
(?:
     (                                         # (3 start), IP
          \[
          (?: \d{1,3} \. ){3}
          \d{1,3} \]
     )                                         # (3 end)
  |                                          # or,
     (                                         # (4 start), Others
          (?:                                       # Labels (63 max chars each)
               (?= .{1,63} \. )
               [0-9a-z] [-\w]* [0-9a-z]*
               \.
          )+
          [a-z0-9] [\-a-z0-9]{0,22} [a-z0-9]
     )                                         # (4 end)
  |                                          # or,
     (                                         # (5 start), Localdomain
          (?= .{1,63} $ )
          [0-9a-z] [-\w]*
     )                                         # (5 end)
)
$                                         # EOS

其他回答

根据我的理解,它很可能会被。。。

/^([a-z0-9_-]+)(@[a-z0-9-]+)(\.[a-z]+|\.[a-z]+\.[a-z]+)?$/is

我要验证的电子邮件地址将由使用System.NET.Mail命名空间的ASP.NET web应用程序用于向人员列表发送电子邮件。

因此,我不使用一些非常复杂的正则表达式,而是尝试从地址创建一个MailAddress实例。如果地址格式不正确,MailAddress构造函数将引发异常。通过这种方式,我知道我至少可以把邮件拿到门外。当然,这是服务器端验证,但至少您需要这样做。

protected void emailValidator_ServerValidate(object source, ServerValidateEventArgs args)
{
    try
    {
        var a = new MailAddress(txtEmail.Text);
    }
    catch (Exception ex)
    {
        args.IsValid = false;
        emailValidator.ErrorMessage = "email: " + ex.Message;
    }
}

为所有内容编写正则表达式需要花费大量的精力。相反,您可以使用pyIsEmail包。

以下文字摘自pyIsEmail网站。

pyIsEmail是一种无意义的方法,用于检查用户提供的电子邮件地址是否真实。

正则表达式编写起来很便宜,但当新的顶级域出现或不符合重新流行的电子邮件寻址功能时,通常需要维护。pyIsEmail允许您通过一个简单的调用来验证电子邮件地址,如果您愿意的话,甚至可以检查域,从而使您的代码更易读,编写速度更快。当你想知道为什么电子邮件地址无法验证时,他们甚至会为你提供诊断。

用法

对于最简单的用法,请导入并使用is_email函数:

from pyisemail import is_email

address = "test@example.com"
bool_result = is_email(address)
detailed_result = is_email(address, diagnose=True)

您还可以检查电子邮件中使用的域是否为有效域,以及它是否具有有效的MX记录:

from pyisemail import is_email

address = "test@example.com"
bool_result_with_dns = is_email(address, check_dns=True)
detailed_result_with_dns = is_email(address, check_dns=True, diagnose=True)

这些是电子邮件地址是否可以在该域发出的主要指标。然而,这里的有效回复并不能保证电子邮件存在,仅仅是它可以存在。

除了基本的is_email功能之外,您还可以单独使用验证器。检查验证器源文档以了解其工作原理。

根据我所看到的,一个完全符合标准的正则表达式是允许的:

/^(?!(^[.-].*|.*[.-]@|.*\.{2,}.*)|^.{254}.+@)([a-z\xC0-\xFF0-9!#$%&'*+\/=?^_`{|}~.-]+@)(?!.{253}.+$)((?!-.*|.*-\.)([a-z0-9-]{1,63}\.)+[a-z]{2,63}|(([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9])\.){3}([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9]))$/gim

演示/调试分析(交互式)

拆分:

^(?!(^[.-].*|.*[.-]@|.*\.{2,}.*)|^.{254}.+@)
([a-z\xC0-\xFF0-9!#$%&'*+\/=?^_`{|}~.-]+@)
(?!.{253}.+$)
(
    (?!-.*|.*-\.)
    ([a-z0-9-]{1,63}\.)+
    [a-z]{2,63}
    |
    (([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9])\.){3}
    ([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9])
)$

分析:

(?!(^[.-].*|.*[.-]@|.*\.{2,}.*)|^.{254}.+@)

对以。,以一结尾,有。。或超过254个字符的最大长度


([a-z\xC0-\xFF0-9!#$%&'*+\/=?^_`{|}~.-]+@)

匹配一个或多个允许的字符,并应用负面外观


(?!.{253}.+$)

域名部分的负前瞻性,总共限制为253个字符


(?!-.*|.*-\.)

每个域名的负前瞻性,不允许以开头或结尾。


([a-z0-9-]{1,63}\.)+

域名中允许的字符的简单组匹配,每个字符限制为63个字符


[a-zA-Z]{2,63}

允许的顶级域的简单组匹配,该域目前仍仅限于字母,但确实包含4个字母以上的TLD。


(([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9])\.){3}
([01]?[0-9]{2}|2([0-4][0-9]|5[0-5])|[0-9])

域名的替代方案:这将IP地址中的前3个数字与匹配。然后是IP地址中没有的第四个数字。在它背后。

Java Mail API为我们带来了魔力。

try
{
    InternetAddress internetAddress = new InternetAddress(email);
    internetAddress.validate();
    return true;
}
catch(Exception ex)
{
    return false;
}

我从这里得到了这个。