我想匹配的只是一个URL的根,而不是一个文本字符串的整个URL。考虑到:
http://www.youtube.com/watch?v=ClkQA2Lb_iE
http://youtu.be/ClkQA2Lb_iE
http://www.example.com/12xy45
http://example.com/random
我想让最后2个实例解析到www.example.com或example.com域。
我听说正则表达式很慢,这将是我在页面上的第二个正则表达式,所以如果有办法做到没有正则表达式,请告诉我。
我正在寻找这个解决方案的JS/jQuery版本。
有两个很好的解决方案,这取决于你是否需要优化性能(并且没有外部依赖!):
1. 使用URL。便于阅读的主机名
最简洁和最简单的解决方案是使用URL.hostname。
getHostname = (url) => {
//使用URL构造函数并返回主机名
返回新URL(URL).hostname;
}
/ /测试
console.log (getHostname (" https://stackoverflow.com/questions/8498592/extract-hostname-name-from-string/ "));
console.log (getHostname (" https://developer.mozilla.org/en-US/docs/Web/API/URL/hostname "));
URL。主机名是URL API的一部分,除IE (caniuse)之外的所有主流浏览器都支持。如果需要支持旧浏览器,请使用URL填充。
额外的好处:使用URL构造函数还可以让你访问其他URL属性和方法!
2. 使用RegEx来提高性能
URL。对于大多数用例,主机名应该是您的选择。然而,它仍然比这个正则表达式慢得多(你自己在jsPerf上测试):
const getHostnameFromRegex = (url) => {
//运行正则表达式
const匹配= url.match (/ ^ https ?\:\/\/([^\/?#]+)(?:[\/?#]|$)/ 我);
//提取主机名(如果没有匹配则为空)
返回匹配&&匹配[1];
}
/ /测试
console.log (getHostnameFromRegex (" https://stackoverflow.com/questions/8498592/extract-hostname-name-from-string/ "));
console.log (getHostnameFromRegex (" https://developer.mozilla.org/en-US/docs/Web/API/URL/hostname "));
博士TL;
你应该使用URL.hostname。如果您需要处理大量的url(其中性能是一个因素),请考虑RegEx。
我的代码是这样的。
正则表达式可以有很多种形式,下面是我的测试用例
我认为它更具可扩展性。
function extractUrlInfo(url){
let reg = /^((?<protocol>http[s]?):\/\/)?(?<host>((\d{1,2}|1\d\d|2[0-4]\d|25[0-5])\.(\d{1,2}|1\d\d|2[0-4]\d|25[0-5])\.(\d{1,2}|1\d\d|2[0-4]\d|25[0-5])\.(\d{1,2}|1\d\d|2[0-4]\d|25[0-5])|[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)))(\:(?<port>[0-9]|[1-9]\d|[1-9]\d{2}|[1-9]\d{3}|[1-5]\d{4}|6[0-4]\d{3}|65[0-4]\d{2}|655[0-2]\d|6553[0-5]))?$/
return reg.exec(url).groups
}
var url = "https://192.168.1.1:1234"
console.log(extractUrlInfo(url))
var url = "https://stackoverflow.com/questions/8498592/extract-hostname-name-from-string"
console.log(extractUrlInfo(url))
这个解决方案工作得很好,如果URL包含大量无效字符,您也可以使用。
安装PSL包
npm install --save psl
实现
const psl = require('psl');
const url= new URL('http://www.youtube.com/watch?v=ClkQA2Lb_iE').hostname;
const parsed = psl.parse(url);
console.log(解析)
输出:
{
input: 'www.youtube.com',
tld: 'com',
sld: 'youtube',
domain: 'youtube.com',
subdomain: 'www',
listed: true
}
有两个很好的解决方案,这取决于你是否需要优化性能(并且没有外部依赖!):
1. 使用URL。便于阅读的主机名
最简洁和最简单的解决方案是使用URL.hostname。
getHostname = (url) => {
//使用URL构造函数并返回主机名
返回新URL(URL).hostname;
}
/ /测试
console.log (getHostname (" https://stackoverflow.com/questions/8498592/extract-hostname-name-from-string/ "));
console.log (getHostname (" https://developer.mozilla.org/en-US/docs/Web/API/URL/hostname "));
URL。主机名是URL API的一部分,除IE (caniuse)之外的所有主流浏览器都支持。如果需要支持旧浏览器,请使用URL填充。
额外的好处:使用URL构造函数还可以让你访问其他URL属性和方法!
2. 使用RegEx来提高性能
URL。对于大多数用例,主机名应该是您的选择。然而,它仍然比这个正则表达式慢得多(你自己在jsPerf上测试):
const getHostnameFromRegex = (url) => {
//运行正则表达式
const匹配= url.match (/ ^ https ?\:\/\/([^\/?#]+)(?:[\/?#]|$)/ 我);
//提取主机名(如果没有匹配则为空)
返回匹配&&匹配[1];
}
/ /测试
console.log (getHostnameFromRegex (" https://stackoverflow.com/questions/8498592/extract-hostname-name-from-string/ "));
console.log (getHostnameFromRegex (" https://developer.mozilla.org/en-US/docs/Web/API/URL/hostname "));
博士TL;
你应该使用URL.hostname。如果您需要处理大量的url(其中性能是一个因素),请考虑RegEx。