假设我有'abbc'字符串,我想替换:
Ab -> BC BC -> ab
如果我尝试两次替换,结果不是我想要的:
echo 'abbc' | sed 's/ab/bc/g;s/bc/ab/g'
abab
那么我可以像下面这样使用什么sed命令来替换?
echo abbc | sed SED_COMMAND
bcab
编辑: 实际上,文本可以有超过2个模式,我不知道我需要多少替换。因为有一个答案说sed是一个流编辑器,它的替换是贪婪的,我认为我将需要使用一些脚本语言。
假设我有'abbc'字符串,我想替换:
Ab -> BC BC -> ab
如果我尝试两次替换,结果不是我想要的:
echo 'abbc' | sed 's/ab/bc/g;s/bc/ab/g'
abab
那么我可以像下面这样使用什么sed命令来替换?
echo abbc | sed SED_COMMAND
bcab
编辑: 实际上,文本可以有超过2个模式,我不知道我需要多少替换。因为有一个答案说sed是一个流编辑器,它的替换是贪婪的,我认为我将需要使用一些脚本语言。
当前回答
我相信这应该能解决你的问题。我可能遗漏了一些边缘情况,如果你注意到一个,请评论。
您需要一种方法将以前的替换从未来的模式中排除,这实际上意味着使输出可区分,并将这些输出从搜索中排除,最终使输出再次不可区分。这与引用/转义过程非常相似,因此我将从中吸取教训。
S /\\/\\\\/g转义所有现有的反斜杠 S /ab/\\b\ c/g用原始ab代替已转义的BC S /bc/\\a\ b/g将原始bc替换为转义的ab s/\\\(.\)/\1/g将所有转义的X替换为原始X
我没有解释ab或bc中的反斜杠,但直觉上,我将以同样的方式转义搜索和替换术语——\ now匹配\\,而被替换的\\将显示为\。
到目前为止,我一直使用反斜杠作为转义字符,但它不一定是最好的选择。几乎任何字符都可以工作,但是要注意环境中需要转义的字符,sed等,这取决于您打算如何使用结果。
其他回答
Sed是一个流编辑器。它贪婪地搜索和替换。实现您所要求的唯一方法是使用中间替换模式,并在最后将其更改回来。
Echo 'abcd' | sed -e /ab/xy/;s/cd/ab/;s/xy/cd/'
我相信这应该能解决你的问题。我可能遗漏了一些边缘情况,如果你注意到一个,请评论。
您需要一种方法将以前的替换从未来的模式中排除,这实际上意味着使输出可区分,并将这些输出从搜索中排除,最终使输出再次不可区分。这与引用/转义过程非常相似,因此我将从中吸取教训。
S /\\/\\\\/g转义所有现有的反斜杠 S /ab/\\b\ c/g用原始ab代替已转义的BC S /bc/\\a\ b/g将原始bc替换为转义的ab s/\\\(.\)/\1/g将所有转义的X替换为原始X
我没有解释ab或bc中的反斜杠,但直觉上,我将以同样的方式转义搜索和替换术语——\ now匹配\\,而被替换的\\将显示为\。
到目前为止,我一直使用反斜杠作为转义字符,但它不一定是最好的选择。几乎任何字符都可以工作,但是要注意环境中需要转义的字符,sed等,这取决于您打算如何使用结果。
这可能为你工作(GNU sed):
sed -r '1{x;s/^/:abbc:bcab/;x};G;s/^/\n/;:a;/\n\n/{P;d};s/\n(ab|bc)(.*\n.*:(\1)([^:]*))/\4\n\2/;ta;s/\n(.)/\1\n/;ta' file
它使用一个查找表,该表准备好并保存在保留空间(HS)中,然后附加到每一行。一个唯一的标记(在本例中是\n)被前置在行开始之前,并用作在整个行长度上进行搜索的方法。一旦标记到达行尾,该过程就完成了,并打印出查找表,标记被丢弃。
注意:查找表在一开始就准备好了,并且选择了第二个唯一标记(在本例中为:),以避免与替换字符串冲突。
以下是一些评论:
sed -r '
# initialize hold with :abbc:bcab
1 {
x
s/^/:abbc:bcab/
x
}
G # append hold to patt (after a \n)
s/^/\n/ # prepend a \n
:a
/\n\n/ {
P # print patt up to first \n
d # delete patt & start next cycle
}
s/\n(ab|bc)(.*\n.*:(\1)([^:]*))/\4\n\2/
ta # goto a if sub occurred
s/\n(.)/\1\n/ # move one char past the first \n
ta # goto a if sub occurred
'
这个表格是这样的:
** ** replacement
:abbc:bcab
** ** pattern
下面是ooga答案的一个变体,适用于多个搜索和替换对,而无需检查值如何重用:
sed -i '
s/\bAB\b/________BC________/g
s/\bBC\b/________CD________/g
s/________//g
' path_to_your_files/*.txt
这里有一个例子:
之前:
some text AB some more text "BC" and more text.
后:
some text BC some more text "CD" and more text.
注意\b表示单词边界,这可以防止________干扰搜索(我在Ubuntu上使用GNU sed 4.2.2)。如果不使用单词边界搜索,则此技术可能不起作用。
还要注意,这与删除s/________//g并在命令末尾附加&& sed -i 's/________//g' path_to_your_files/*.txt的结果相同,但不需要两次指定路径。
类似于jthill所建议的,如果知道文件中没有空值,可以使用\x0或_\x0_来代替________。
Tcl有一个内置的功能
$ tclsh
% string map {ab bc bc ab} abbc
bcab
它的工作原理是每次遍历字符串的一个字符,从当前位置开始进行字符串比较。
在perl中:
perl -E '
sub string_map {
my ($str, %map) = @_;
my $i = 0;
while ($i < length $str) {
KEYS:
for my $key (keys %map) {
if (substr($str, $i, length $key) eq $key) {
substr($str, $i, length $key) = $map{$key};
$i += length($map{$key}) - 1;
last KEYS;
}
}
$i++;
}
return $str;
}
say string_map("abbc", "ab"=>"bc", "bc"=>"ab");
'
bcab