假设我有'abbc'字符串,我想替换:
Ab -> BC BC -> ab
如果我尝试两次替换,结果不是我想要的:
echo 'abbc' | sed 's/ab/bc/g;s/bc/ab/g'
abab
那么我可以像下面这样使用什么sed命令来替换?
echo abbc | sed SED_COMMAND
bcab
编辑: 实际上,文本可以有超过2个模式,我不知道我需要多少替换。因为有一个答案说sed是一个流编辑器,它的替换是贪婪的,我认为我将需要使用一些脚本语言。
假设我有'abbc'字符串,我想替换:
Ab -> BC BC -> ab
如果我尝试两次替换,结果不是我想要的:
echo 'abbc' | sed 's/ab/bc/g;s/bc/ab/g'
abab
那么我可以像下面这样使用什么sed命令来替换?
echo abbc | sed SED_COMMAND
bcab
编辑: 实际上,文本可以有超过2个模式,我不知道我需要多少替换。因为有一个答案说sed是一个流编辑器,它的替换是贪婪的,我认为我将需要使用一些脚本语言。
当前回答
到目前为止发布的每个答案似乎都同意kuriouscoder在上面帖子中的说法:
达到你要求的唯一方法就是使用中间产物 替换模式,最后再改回来
但是,如果您要这样做,并且您的使用可能涉及到的不仅仅是一些简单的字符串(可能您正在过滤数据等),那么与sed一起使用的最佳字符是换行符。这是因为由于sed是100%基于行的,换行符是在获取新行时保证永远不会接收到的唯一字符(在此讨论中忘记GNU多行扩展)。
首先,这里有一个非常简单的方法来解决使用换行符作为中间分隔符的问题:
echo "abbc" | sed -E $'s/ab|bc/\\\n&/g; s/\\nab/bc/g; s/\\nbc/ab/g'
简单带来了一些权衡……如果你有多个变量,就像在你最初的文章中一样,你必须全部输入两次。性能也可能得到一点改善。
使用sed做更多的事情会非常麻烦。即使有一些更高级的功能,如分支控制和保持缓冲区(这在我看来真的很弱),你的选择也非常有限。
只是为了好玩,我想出了这个替代方案,但我不认为我有任何特别的理由推荐它胜过这篇文章前面的那个……如果您真的想在sed中做一些奇特的事情,您必须为分隔符创建自己的“约定”。这对于你最初的帖子来说有点过头了,但是对于那些看到这篇文章并且有更复杂情况的人来说,它可能会激发一些想法。
My convention below was: use multiple newlines to "protect" or "unprotect" the part of the line you're working on. One newline denotes a word boundary. Two newlines denote alternatives for a candidate replacement. I don't replace right away, but rather list the candidate replacement on the next line. Three newlines means that a value is "locked-in", like your original post way trying to do with ab and bc. After that point, further replacements will be undone, because they are protected by the newlines. A little complicated if I don't say so myself... ! sed isn't really meant for much more than the basics.
# Newlines
NL=$'\\\n'
NOT_NL=$'[\x01-\x09\x0B-\x7F]'
# Delimiters
PRE="${NL}${NL}&${NL}"
POST="${NL}${NL}"
# Un-doer (if a request was made to modify a locked-in value)
tidy="s/(\\n\\n\\n${NOT_NL}*)\\n\\n(${NOT_NL}*)\\n(${NOT_NL}*)\\n\\n/\\1\\2/g; "
# Locker-inner (three newlines means "do not touch")
tidy+="s/(\\n\\n)${NOT_NL}*\\n(${NOT_NL}*\\n\\n)/\\1${NL}\\2/g;"
# Finalizer (remove newlines)
final="s/\\n//g"
# Input/Commands
input="abbc"
cmd1="s/(ab)/${PRE}bc${POST}/g"
cmd2="s/(bc)/${PRE}ab${POST}/g"
# Execute
echo ${input} | sed -E "${cmd1}; ${tidy}; ${cmd2}; ${tidy}; ${final}"
其他回答
也许是这样的:
sed 's/ab/~~/g; s/bc/ab/g; s/~~/bc/g'
将~替换为一个您知道不会出现在字符串中的字符。
这是一个基于oogas sed的awk
echo 'abbc' | awk '{gsub(/ab/,"xy");gsub(/bc/,"ab");gsub(/xy/,"bc")}1'
bcab
Sed是一个流编辑器。它贪婪地搜索和替换。实现您所要求的唯一方法是使用中间替换模式,并在最后将其更改回来。
Echo 'abcd' | sed -e /ab/xy/;s/cd/ab/;s/xy/cd/'
Tcl有一个内置的功能
$ tclsh
% string map {ab bc bc ab} abbc
bcab
它的工作原理是每次遍历字符串的一个字符,从当前位置开始进行字符串比较。
在perl中:
perl -E '
sub string_map {
my ($str, %map) = @_;
my $i = 0;
while ($i < length $str) {
KEYS:
for my $key (keys %map) {
if (substr($str, $i, length $key) eq $key) {
substr($str, $i, length $key) = $map{$key};
$i += length($map{$key}) - 1;
last KEYS;
}
}
$i++;
}
return $str;
}
say string_map("abbc", "ab"=>"bc", "bc"=>"ab");
'
bcab
我相信这应该能解决你的问题。我可能遗漏了一些边缘情况,如果你注意到一个,请评论。
您需要一种方法将以前的替换从未来的模式中排除,这实际上意味着使输出可区分,并将这些输出从搜索中排除,最终使输出再次不可区分。这与引用/转义过程非常相似,因此我将从中吸取教训。
S /\\/\\\\/g转义所有现有的反斜杠 S /ab/\\b\ c/g用原始ab代替已转义的BC S /bc/\\a\ b/g将原始bc替换为转义的ab s/\\\(.\)/\1/g将所有转义的X替换为原始X
我没有解释ab或bc中的反斜杠,但直觉上,我将以同样的方式转义搜索和替换术语——\ now匹配\\,而被替换的\\将显示为\。
到目前为止,我一直使用反斜杠作为转义字符,但它不一定是最好的选择。几乎任何字符都可以工作,但是要注意环境中需要转义的字符,sed等,这取决于您打算如何使用结果。