从字符串中提取主机名

我想匹配的只是一个URL的根，而不是一个文本字符串的整个URL。考虑到:

http://www.youtube.com/watch?v=ClkQA2Lb_iE
http://youtu.be/ClkQA2Lb_iE
http://www.example.com/12xy45
http://example.com/random

我想让最后2个实例解析到www.example.com或example.com域。

我听说正则表达式很慢，这将是我在页面上的第二个正则表达式，所以如果有办法做到没有正则表达式，请告诉我。

我正在寻找这个解决方案的JS/jQuery版本。

当前回答

我个人对这个解决方案做了很多研究，我能找到的最好的解决方案实际上来自CloudFlare的“浏览器检查”:

function getHostname(){  
            secretDiv = document.createElement('div');
            secretDiv.innerHTML = "<a href='/'>x</a>";
            secretDiv = secretDiv.firstChild.href;
            var HasHTTPS = secretDiv.match(/https?:\/\//)[0];
            secretDiv = secretDiv.substr(HasHTTPS.length);
            secretDiv = secretDiv.substr(0, secretDiv.length - 1);
            return(secretDiv);  
}  

getHostname();

我重写了变量，使它更“人类”可读，但它比预期的工作做得更好。

2018-02-05 12:04:53

其他回答

我给你3个可能的解决方案:

使用npm包psl提取你扔给它的任何东西。使用我的自定义实现extractRootDomain，它适用于大多数情况。网址(URL)。主机名是可行的，但并非适用于所有边缘情况。点击“运行代码段”查看它是如何运行的。

1. 使用npm包psl(公共后缀列表)

“公共后缀列表”是所有有效域名后缀和规则的列表，不仅是国家代码顶级域名，还包括被视为根域的unicode字符(即www.食狮.公司.cn, b.c.a bebe .jp等)。点击这里阅读更多信息。

Try:

npm install --save psl

然后用我的“extractHostname”实现运行:

let psl = require('psl');
let url = 'http://www.youtube.com/watch?v=ClkQA2Lb_iE';
psl.get(extractHostname(url)); // returns youtube.com

2. extractRootDomain的自定义实现

下面是我的实现，它还针对各种可能的URL输入运行。

无论是否有协议或端口号，您都可以提取域。这是一个非常简化的，非正则表达式的解，所以我认为这可以解决我们在问题中提供的数据集。

3. 网址(URL) hostname

网址(URL)。主机名是一个有效的解决方案，但它不适用于我已经解决的一些边缘情况。正如您在上次测试中看到的，它不喜欢某些url。你绝对可以使用我的解决方案的组合来让它全部工作。

*感谢@Timmerz， @renoirb， @rineez， @BigDong， @ra00l， @ILikeBeansTacos， @CharlesRobertson的建议!@ross-allen，谢谢你报告这个bug!

2014-05-30 00:06:20

我个人对这个解决方案做了很多研究，我能找到的最好的解决方案实际上来自CloudFlare的“浏览器检查”:

function getHostname(){  
            secretDiv = document.createElement('div');
            secretDiv.innerHTML = "<a href='/'>x</a>";
            secretDiv = secretDiv.firstChild.href;
            var HasHTTPS = secretDiv.match(/https?:\/\//)[0];
            secretDiv = secretDiv.substr(HasHTTPS.length);
            secretDiv = secretDiv.substr(0, secretDiv.length - 1);
            return(secretDiv);  
}  

getHostname();

我重写了变量，使它更“人类”可读，但它比预期的工作做得更好。

2018-02-05 12:04:53

简单来说，你可以这样做

var url = "http://www.someurl.com/support/feature"

function getDomain(url){
  domain=url.split("//")[1];
  return domain.split("/")[0];
}
eg:
  getDomain("http://www.example.com/page/1")

  output:
   "www.example.com"

使用上述函数获取域名

2016-05-17 13:39:27

下面是jQuery的一行代码:

$('<a>').attr('href', url).prop('hostname');

2017-06-10 06:51:00

好吧，我知道这是一个老问题，但我做了一个超级高效的url解析器，所以我想我要分享它。

如你所见，这个函数的结构很奇怪，但这是为了提高效率。不使用原型函数，字符串迭代次数不超过一次，处理字符的次数也不超过必要的次数。

function getDomain(url) {
    var dom = "", v, step = 0;
    for(var i=0,l=url.length; i<l; i++) {
        v = url[i]; if(step == 0) {
            //First, skip 0 to 5 characters ending in ':' (ex: 'https://')
            if(i > 5) { i=-1; step=1; } else if(v == ':') { i+=2; step=1; }
        } else if(step == 1) {
            //Skip 0 or 4 characters 'www.'
            //(Note: Doesn't work with www.com, but that domain isn't claimed anyway.)
            if(v == 'w' && url[i+1] == 'w' && url[i+2] == 'w' && url[i+3] == '.') i+=4;
            dom+=url[i]; step=2;
        } else if(step == 2) {
            //Stop at subpages, queries, and hashes.
            if(v == '/' || v == '?' || v == '#') break; dom += v;
        }
    }
    return dom;
}

2016-11-02 21:20:19

从字符串中提取主机名

推荐文章

最新文章

标签