如何交换基于模式的文本一次与sed?

假设我有'abbc'字符串，我想替换:

Ab -> BC BC -> ab

如果我尝试两次替换，结果不是我想要的:

echo 'abbc' | sed 's/ab/bc/g;s/bc/ab/g'
abab

那么我可以像下面这样使用什么sed命令来替换?

echo abbc | sed SED_COMMAND
bcab

编辑: 实际上，文本可以有超过2个模式，我不知道我需要多少替换。因为有一个答案说sed是一个流编辑器，它的替换是贪婪的，我认为我将需要使用一些脚本语言。

当前回答

我总是使用多个带有"-e"的语句

$ sed - e ' s:和:\ n: g - e ' s GROUP BY: \ n: g - e ' s:联盟:\ n: g - e ' s:从:\ n: g的文件> readable.sql

这将在所有AND, GROUP BY, UNION和FROM之前添加一个'\n'，而'&'表示匹配的字符串，'\n&'表示您想在'matched'之前用'\n'替换匹配的字符串。

2018-08-27 13:52:23

其他回答

到目前为止发布的每个答案似乎都同意kuriouscoder在上面帖子中的说法:

达到你要求的唯一方法就是使用中间产物替换模式，最后再改回来

但是，如果您要这样做，并且您的使用可能涉及到的不仅仅是一些简单的字符串(可能您正在过滤数据等)，那么与sed一起使用的最佳字符是换行符。这是因为由于sed是100%基于行的，换行符是在获取新行时保证永远不会接收到的唯一字符(在此讨论中忘记GNU多行扩展)。

首先，这里有一个非常简单的方法来解决使用换行符作为中间分隔符的问题:

echo "abbc" | sed -E $'s/ab|bc/\\\n&/g; s/\\nab/bc/g; s/\\nbc/ab/g'

简单带来了一些权衡……如果你有多个变量，就像在你最初的文章中一样，你必须全部输入两次。性能也可能得到一点改善。

使用sed做更多的事情会非常麻烦。即使有一些更高级的功能，如分支控制和保持缓冲区(这在我看来真的很弱)，你的选择也非常有限。

只是为了好玩，我想出了这个替代方案，但我不认为我有任何特别的理由推荐它胜过这篇文章前面的那个……如果您真的想在sed中做一些奇特的事情，您必须为分隔符创建自己的“约定”。这对于你最初的帖子来说有点过头了，但是对于那些看到这篇文章并且有更复杂情况的人来说，它可能会激发一些想法。

My convention below was: use multiple newlines to "protect" or "unprotect" the part of the line you're working on. One newline denotes a word boundary. Two newlines denote alternatives for a candidate replacement. I don't replace right away, but rather list the candidate replacement on the next line. Three newlines means that a value is "locked-in", like your original post way trying to do with ab and bc. After that point, further replacements will be undone, because they are protected by the newlines. A little complicated if I don't say so myself... ! sed isn't really meant for much more than the basics.

# Newlines
NL=$'\\\n'
NOT_NL=$'[\x01-\x09\x0B-\x7F]'

# Delimiters
PRE="${NL}${NL}&${NL}"
POST="${NL}${NL}"

# Un-doer (if a request was made to modify a locked-in value)
tidy="s/(\\n\\n\\n${NOT_NL}*)\\n\\n(${NOT_NL}*)\\n(${NOT_NL}*)\\n\\n/\\1\\2/g; "

# Locker-inner (three newlines means "do not touch")
tidy+="s/(\\n\\n)${NOT_NL}*\\n(${NOT_NL}*\\n\\n)/\\1${NL}\\2/g;"

# Finalizer (remove newlines)
final="s/\\n//g"

# Input/Commands
input="abbc"
cmd1="s/(ab)/${PRE}bc${POST}/g"
cmd2="s/(bc)/${PRE}ab${POST}/g"

# Execute
echo ${input} | sed -E "${cmd1}; ${tidy}; ${cmd2}; ${tidy}; ${final}"

2021-04-20 14:30:34

Sed是一个流编辑器。它贪婪地搜索和替换。实现您所要求的唯一方法是使用中间替换模式，并在最后将其更改回来。

Echo 'abcd' | sed -e /ab/xy/;s/cd/ab/;s/xy/cd/'

2014-10-26 01:43:28

下面是ooga答案的一个变体，适用于多个搜索和替换对，而无需检查值如何重用:

sed -i '
s/\bAB\b/________BC________/g
s/\bBC\b/________CD________/g
s/________//g
' path_to_your_files/*.txt

这里有一个例子:

之前:

some text AB some more text "BC" and more text.

后:

some text BC some more text "CD" and more text.

注意\b表示单词边界，这可以防止________干扰搜索(我在Ubuntu上使用GNU sed 4.2.2)。如果不使用单词边界搜索，则此技术可能不起作用。

还要注意，这与删除s/________//g并在命令末尾附加&& sed -i 's/________//g' path_to_your_files/*.txt的结果相同，但不需要两次指定路径。

类似于jthill所建议的，如果知道文件中没有空值，可以使用\x0或_\x0_来代替________。

2016-12-21 22:40:01

我总是使用多个带有"-e"的语句

$ sed - e ' s:和:\ n: g - e ' s GROUP BY: \ n: g - e ' s:联盟:\ n: g - e ' s:从:\ n: g的文件> readable.sql

这将在所有AND, GROUP BY, UNION和FROM之前添加一个'\n'，而'&'表示匹配的字符串，'\n&'表示您想在'matched'之前用'\n'替换匹配的字符串。

2018-08-27 13:52:23

我相信这应该能解决你的问题。我可能遗漏了一些边缘情况，如果你注意到一个，请评论。

您需要一种方法将以前的替换从未来的模式中排除，这实际上意味着使输出可区分，并将这些输出从搜索中排除，最终使输出再次不可区分。这与引用/转义过程非常相似，因此我将从中吸取教训。

S /\\/\\\\/g转义所有现有的反斜杠 S /ab/\\b\ c/g用原始ab代替已转义的BC S /bc/\\a\ b/g将原始bc替换为转义的ab s/\\$.$/\1/g将所有转义的X替换为原始X

我没有解释ab或bc中的反斜杠，但直觉上，我将以同样的方式转义搜索和替换术语——\ now匹配\\，而被替换的\\将显示为\。

到目前为止，我一直使用反斜杠作为转义字符，但它不一定是最好的选择。几乎任何字符都可以工作，但是要注意环境中需要转义的字符，sed等，这取决于您打算如何使用结果。

2020-10-12 02:58:49

如何交换基于模式的文本一次与sed?

推荐文章

最新文章

标签