从Grep RegEx中捕获组

我在sh (Mac OSX 10.6)中有这个小脚本来查看文件数组。谷歌在这一点上已经不再有用了:

files="*.jpg"
for f in $files
    do
        echo $f | grep -oEi '[0-9]+_([a-z]+)_[0-9a-z]*'
        name=$?
        echo $name
    done

到目前为止(显然，对于shell专家来说)$name仅包含0,1或2，这取决于grep是否发现文件名与提供的问题匹配。我想要的是捕获parens ([a-z]+)内的内容并将其存储到一个变量中。

如果可能的话，我只想使用grep。如果不是，请不要使用Python或Perl等sed或类似的语言——我想从*nix纯粹的角度来攻击这个问题。

此外，作为一个超级酷的奖金，我很好奇我如何能在壳串?我捕获的组是存储在$name中的字符串“someename”，我想在它的末尾添加字符串“.jpg”，我可以cat $name '.jpg'吗?

当前回答

这是一个使用gawk的解决方案。这是我发现我需要经常使用的东西，所以我为它创建了一个函数

function regex1 { gawk 'match($0,/'$1'/, ary) {print ary['${2:-'1'}']}'; }

使用just do

$ echo 'hello world' | regex1 'hello\s(.*)'
world

2013-01-09 06:37:31

其他回答

这对于纯grep来说是不可能的，至少一般来说是不可能的。

但是，如果您的模式是合适的，您可以在管道中多次使用grep，首先将行缩减为已知格式，然后提取所需的部分。(尽管像cut和sed这样的工具在这方面做得更好)。

为了便于讨论，假设你的模式更简单一些:[0-9]+_([a-z]+)_你可以这样提取:

echo $name | grep -Ei '[0-9]+_[a-z]+_' | grep -oEi '[a-z]+'

第一个grep将删除与您的整体样式不匹配的任何行，第二个grep(指定了—only-matching)将显示名称的alpha部分。这只是因为模式是合适的:“alpha部分”足够具体，可以提取出您想要的内容。

(旁白:就我个人而言，我会使用grep + cut来实现你想要的:echo $name | grep {pattern} | cut -d _ -f 2。这将通过分隔符_将行解析为多个字段，并仅返回字段2(字段号从1开始)。

Unix的哲学是让工具做一件事，并做得很好，并结合它们来完成非平凡的任务，所以我认为grep + sed等是一种更Unix的做事方式:-)

2009-12-12 01:26:04

这是一个使用gawk的解决方案。这是我发现我需要经常使用的东西，所以我为它创建了一个函数

function regex1 { gawk 'match($0,/'$1'/, ary) {print ary['${2:-'1'}']}'; }

使用just do

$ echo 'hello world' | regex1 'hello\s(.*)'
world

2013-01-09 06:37:31

下面的例子展示了如何使用正则表达式捕获组从文件名中提取3个字符序列:

for f in 123_abc_123.jpg 123_xyz_432.jpg
do
    echo "f:    " $f
    name=$( perl -ne 'if (/[0-9]+_([a-z]+)_[0-9a-z]*/) { print $1 . "\n" }' <<< $f )
    echo "name: " $name
done

输出:

f:     123_abc_123.jpg
name:  abc
f:     123_xyz_432.jpg
name:  xyz

因此，perl中的if-regex条件语句将同时过滤掉所有不匹配的行，对于那些匹配的行，它将应用捕获组(s)，您可以使用$1，$2，…分别

2021-06-15 23:54:38

我意识到这个问题的答案已经被接受了，但从“严格*nix纯粹主义的角度”来看，完成这项工作的正确工具似乎是pcregrep，它似乎还没有被提及。试着改变一下台词:

    echo $f | grep -oEi '[0-9]+_([a-z]+)_[0-9a-z]*'
    name=$?

致以下:

    name=$(echo $f | pcregrep -o1 -Ei '[0-9]+_([a-z]+)_[0-9a-z]*')

仅获取捕获组1的内容。

pcregrep工具利用了您已经在grep中使用过的所有相同语法，但实现了您需要的功能。

如果参数-o是空的，它的工作方式就像grep版本一样，但它也接受pcregrep中的一个数字参数，该参数指示您希望显示哪个捕获组。

使用此解决方案，脚本中需要的更改最少。您只需将一个模块实用程序替换为另一个，并调整参数。

有趣的注意:您可以使用多个-o参数以它们在行上出现的顺序返回多个捕获组。

2013-03-03 17:14:08

如果您有bash，您可以使用扩展的globbing

shopt -s extglob
shopt -s nullglob
shopt -s nocaseglob
for file in +([0-9])_+([a-z])_+([a-z0-9]).jpg
do
   IFS="_"
   set -- $file
   echo "This is your captured output : $2"
done

ls +([0-9])_+([a-z])_+([a-z0-9]).jpg | while read file
do
   IFS="_"
   set -- $file
   echo "This is your captured output : $2"
done

2009-12-12 04:06:06

从Grep RegEx中捕获组

推荐文章

最新文章

标签