有没有一种方法告诉sed只输出捕获的组?
例如,给定输入:
This is a sample 123 text and some 987 numbers
和模式:
/([\d]+)/
我能得到只有123和987输出的方式格式化后引用?
有没有一种方法告诉sed只输出捕获的组?
例如,给定输入:
This is a sample 123 text and some 987 numbers
和模式:
/([\d]+)/
我能得到只有123和987输出的方式格式化后引用?
当前回答
这不是OP要求的(捕获组),但你可以使用以下方法提取数字:
S='This is a sample 123 text and some 987 numbers'
echo "$S" | sed 's/ /\n/g' | sed -r '/([0-9]+)/ !d'
给出以下内容:
123
987
其他回答
我相信问题中给出的模式只是举例,目标是匹配任何模式。
如果你有一个允许在模式空间中插入换行符的GNU扩展sed,一个建议是:
> set string = "This is a sample 123 text and some 987 numbers"
>
> set pattern = "[0-9][0-9]*"
> echo $string | sed "s/$pattern/\n&\n/g" | sed -n "/$pattern/p"
123
987
> set pattern = "[a-z][a-z]*"
> echo $string | sed "s/$pattern/\n&\n/g" | sed -n "/$pattern/p"
his
is
a
sample
text
and
some
numbers
这些例子是用tcsh(是的,我知道它是错误的shell)和CYGWIN。(编辑:对于bash,删除set和=周围的空格。)
让它工作的关键是告诉sed排除您不想输出的内容,并指定您想要输出的内容。这个技巧取决于你知道你要找多少匹配。下面的grep命令适用于不指定数量的匹配。
string='This is a sample 123 text and some 987 numbers'
echo "$string" | sed -rn 's/[^[:digit:]]*([[:digit:]]+)[^[:digit:]]+([[:digit:]]+)[^[:digit:]]*/\1 \2/p'
这表示:
不要默认打印每行(-n) 排除零或多个非数字 包含一个或多个数字 排除一个或多个非数字 包含一个或多个数字 排除零或多个非数字 打印替换(p)(在一行上)
一般来说,在sed中使用括号捕获组,并使用反向引用输出捕获的组:
echo "foobarbaz" | sed 's/^foo\(.*\)baz$/\1/'
将输出“bar”。如果你使用-r (-E用于OS X)扩展正则表达式,你不需要转义括号:
echo "foobarbaz" | sed -r 's/^foo(.*)baz$/\1/'
最多可以有9个捕获组及其反向引用。反向引用按照组出现的顺序编号,但它们可以以任何顺序使用,并且可以重复使用:
echo "foobarbaz" | sed -r 's/^foo(.*)b(.)z$/\2 \1 \2/'
输出“a bar a”。
如果你有GNU grep:
echo "$string" | grep -Po '\d+'
它也可以在BSD中工作,包括OS X:
echo "$string" | grep -Eo '\d+'
这些命令将匹配任意数量的数字序列。输出将在多行上。
或者像这样的变化:
echo "$string" | grep -Po '(?<=\D )(\d+)'
-P选项启用Perl兼容正则表达式。参见man 3 pcrepattern或man 3 pcresyntax。
你可以使用grep
grep -Eow "[0-9]+" file
我想给出一个关于“仅输出使用sed捕获的组”的简单示例
我有/home/me/myfile-99,并希望输出文件的序列号:99
我的第一次尝试没有成功:
echo "/home/me/myfile-99" | sed -r 's/myfile-(.*)$/\1/'
# output: /home/me/99
为了做到这一点,我们还需要捕获捕获组中不需要的部分:
echo "/home/me/myfile-99" | sed -r 's/^(.*)myfile-(.*)$/\2/'
# output: 99
*)注意sed没有\d
Try
sed -n -e "/[0-9]/s/^[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\).*$/\1 \2 \3 \4 \5 \6 \7 \8 \9/p"
我在cygwin下得到了这个:
$ (echo "asdf"; \
echo "1234"; \
echo "asdf1234adsf1234asdf"; \
echo "1m2m3m4m5m6m7m8m9m0m1m2m3m4m5m6m7m8m9") | \
sed -n -e "/[0-9]/s/^[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\).*$/\1 \2 \3 \4 \5 \6 \7 \8 \9/p"
1234
1234 1234
1 2 3 4 5 6 7 8 9
$