非贪婪(不情愿)正则匹配sed?

我试图使用sed来清理url行来提取域。

所以从:

http://www.suepearson.co.uk/product/174/71/3816/

我想要:

http://www.suepearson.co.uk/

(不管后面有没有斜杠，都没有关系)

我试过:

 sed 's|\(http:\/\/.*?\/\).*|\1|'

And(转义非贪婪量词)

sed 's|\(http:\/\/.*\?\/\).*|\1|'

但我似乎不能让非贪婪量词(?)工作，所以它总是匹配整个字符串。

当前回答

这可以使用cut:

echo "http://www.suepearson.co.uk/product/174/71/3816/" | cut -d'/' -f1-3

2010-12-10 01:02:01

其他回答

使用纯(GNU) sed仍然有希望解决这个问题。尽管这不是一个通用的解决方案，在某些情况下，你可以使用“循环”来消除字符串中所有不必要的部分，就像这样:

sed -r -e ":loop" -e 's|(http://.+)/.*|\1|' -e "t loop"

-r:使用扩展的正则表达式(用于+和未转义的括号) 定义一个名为"loop"的新标签 -e:在sed中添加命令 "t loop":如果有成功的替换，则跳回标记"loop"

这里唯一的问题是它也会切掉最后一个分隔符('/')，但如果你真的需要它，你仍然可以在“循环”结束后简单地把它放回去，只需要在前面的命令行末尾追加这个额外的命令:

-e "s,$,/,"

2016-08-01 12:52:19

另一种方法，不使用正则表达式，是使用字段/分隔符方法，如

string="http://www.suepearson.co.uk/product/174/71/3816/"
echo $string | awk -F"/" '{print $1,$2,$3}' OFS="/"

2009-07-09 10:59:12

这是如何使用sed健壮地进行多字符字符串的非贪婪匹配。假设你想改变每一个foo…Bar to <foo…Bar >，例如这个输入:

$ cat file
ABC foo DEF bar GHI foo KLM bar NOP foo QRS bar TUV

应该变成这样的输出:

ABC <foo DEF bar> GHI <foo KLM bar> NOP <foo QRS bar> TUV

要做到这一点，你将foo和bar转换为单独的字符，然后在它们之间使用这些字符的反字符:

$ sed 's/@/@A/g; s/{/@B/g; s/}/@C/g; s/foo/{/g; s/bar/}/g; s/{[^{}]*}/<&>/g; s/}/bar/g; s/{/foo/g; s/@C/}/g; s/@B/{/g; s/@A/@/g' file
ABC <foo DEF bar> GHI <foo KLM bar> NOP <foo QRS bar> TUV

在上述:

/ / @ @A / g;s / {/ @B / g;s/}/@C/g正在将{和}转换为输入中不存在的占位符字符串，这样这些字符就可以转换为foo和bar。 s / foo / {/ g;S /bar/}/g将foo和bar分别转换为{和} S /{[^{}]*}/<&>/g正在执行我们想要的操作-将foo…Bar到<foo…Bar > s /} /酒吧/ g;S /{/foo/g将{和}转换回foo和bar。 s / @C /} / g;s / @B / {/ g;s/@ a /@/g将占位符字符串转换回原始字符。

请注意，上面的方法并不依赖于输入中不存在的任何特定字符串，因为它在第一步中就制造了这样的字符串，它也不关心你想要匹配的任何特定regexp的哪个出现，因为你可以在表达式中使用{[^{}]*}尽可能多的次数来隔离你想要的实际匹配和/或使用seds数值匹配操作符，例如只替换第二个出现:

$ sed 's/@/@A/g; s/{/@B/g; s/}/@C/g; s/foo/{/g; s/bar/}/g; s/{[^{}]*}/<&>/2; s/}/bar/g; s/{/foo/g; s/@C/}/g; s/@B/{/g; s/@A/@/g' file
ABC foo DEF bar GHI <foo KLM bar> NOP foo QRS bar TUV

2018-06-26 17:07:31

非贪婪的解决方案超过一个字符

这个帖子真的很老了，但我认为人们仍然需要它。让我们假设你想杀死所有直到HELLO第一次出现的东西。你不能说[^HELLO]…

因此，一个很好的解决方案包括两个步骤，假设您可以在输入中留出一个您不期望的惟一单词，例如top_secit。

在这种情况下，我们可以:

s/HELLO/top_sekrit/     #will only replace the very first occurrence
s/.*top_sekrit//        #kill everything till end of the first HELLO

当然，对于一个简单的输入，你可以使用一个更小的单词，甚至可能是一个字符。

HTH!

2013-10-30 13:05:53

sed 's|(http:\/\/[^\/]+\/).*|\1|'

2009-07-09 10:58:59

非贪婪(不情愿)正则匹配sed?

推荐文章

最新文章

标签