我试图使用sed来清理url行来提取域。
所以从:
http://www.suepearson.co.uk/product/174/71/3816/
我想要:
http://www.suepearson.co.uk/
(不管后面有没有斜杠,都没有关系)
我试过:
sed 's|\(http:\/\/.*?\/\).*|\1|'
And(转义非贪婪量词)
sed 's|\(http:\/\/.*\?\/\).*|\1|'
但我似乎不能让非贪婪量词(?)工作,所以它总是匹配整个字符串。
下面的解决方案适用于匹配/使用multiply present(链式;串联;复合)HTML或其他标签。例如,我想编辑HTML代码以删除串联出现的<span>标记。
问题:常规sed正则表达式贪婪地匹配从第一个到最后一个的所有标记。
解决方案:非贪婪模式匹配(每个讨论在这个线程的其他地方;例如,https://stackoverflow.com/a/46719361/1904943)。
例子:
echo '<span>Will</span>This <span>remove</span>will <span>this.</span>remain.' | \
sed 's/<span>[^>]*>//g' ; echo
This will remain.
解释:
S /<span>:查找<span>
[^>]:后面跟着不是>的任何东西
*>:直到你找到>
//g:将任何这样的字符串替换为空。
齿顶高
我试图清理url,但我遇到了困难匹配/排除一个词- href -使用上面的方法。我简要地研究了反向查找(正则表达式来匹配不包含单词的行),但这种方法似乎过于复杂,并没有提供令人满意的解决方案。
我决定用'(反标记)替换href,做正则表达式替换,然后用href替换'。
示例(为便于阅读,此处格式化):
printf '\n
<a aaa h href="apple">apple</a>
<a bbb "c=ccc" href="banana">banana</a>
<a class="gtm-content-click"
data-vars-link-text="nope"
data-vars-click-url="https://blablabla"
data-vars-event-category="story"
data-vars-sub-category="story"
data-vars-item="in_content_link"
data-vars-link-text
href="https:example.com">Example.com</a>\n\n' |
sed 's/href/`/g ;
s/<a[^`]*`/\n<a href/g'
<a href="apple">apple</a>
<a href="banana">banana</a>
<a href="https:example.com">Example.com</a>
解释:基本如上。在这里,
S /href/ ':将href替换为'(反引号)
s/<a:查找URL开头
[^ ']:后面跟着任何不是'(反撇号)
* ':直到你找到一个'
/<a href/g:用<a href替换每一个找到的