非贪婪(不情愿)正则匹配sed?

我试图使用sed来清理url行来提取域。

所以从:

http://www.suepearson.co.uk/product/174/71/3816/

我想要:

http://www.suepearson.co.uk/

(不管后面有没有斜杠，都没有关系)

我试过:

 sed 's|\(http:\/\/.*?\/\).*|\1|'

And(转义非贪婪量词)

sed 's|\(http:\/\/.*\?\/\).*|\1|'

但我似乎不能让非贪婪量词(?)工作，所以它总是匹配整个字符串。

当前回答

克利斯朵夫·西格哈特(Christoph Sieghart)著

在sed中获得非贪婪匹配的技巧是匹配除终止匹配的字符外的所有字符。我知道，这很简单，但我在这上面浪费了宝贵的时间，毕竟shell脚本应该是快速而简单的。所以以防别人需要

贪婪匹配

% echo "<b>foo</b>bar" | sed 's/<.*>//g'
bar

非贪婪匹配

% echo "<b>foo</b>bar" | sed 's/<[^>]*>//g'
foobar

其他回答

非贪婪的解决方案超过一个字符

这个帖子真的很老了，但我认为人们仍然需要它。让我们假设你想杀死所有直到HELLO第一次出现的东西。你不能说[^HELLO]…

因此，一个很好的解决方案包括两个步骤，假设您可以在输入中留出一个您不期望的惟一单词，例如top_secit。

在这种情况下，我们可以:

s/HELLO/top_sekrit/     #will only replace the very first occurrence
s/.*top_sekrit//        #kill everything till end of the first HELLO

当然，对于一个简单的输入，你可以使用一个更小的单词，甚至可能是一个字符。

HTH!

克利斯朵夫·西格哈特(Christoph Sieghart)著

贪婪匹配

% echo "<b>foo</b>bar" | sed 's/<.*>//g'
bar

非贪婪匹配

% echo "<b>foo</b>bar" | sed 's/<[^>]*>//g'
foobar

这可以使用cut:

echo "http://www.suepearson.co.uk/product/174/71/3816/" | cut -d'/' -f1-3

我知道这是一个旧条目，但有人可能会发现它有用。由于完整域名的总长度不超过253个字符，请将。*替换为。\{1,255 \}

以下是你可以用两步方法和awk完成的事情:

A=http://www.suepearson.co.uk/product/174/71/3816/  
echo $A|awk '  
{  
  var=gensub(///,"||",3,$0) ;  
  sub(/\|\|.*/,"",var);  
  print var  
}'

输出: http://www.suepearson.co.uk

希望有帮助!

推荐文章