如何在Bash中分割分隔符上的字符串？

我将此字符串存储在变量中：

IN="bla@some.com;john@home.com"

现在，我想将字符串拆分为：；分隔符，以便我可以：

ADDR1="bla@some.com"
ADDR2="john@home.com"

我不一定需要ADDR1和ADDR2变量。如果它们是数组的元素，那就更好了。

根据以下答案的建议，我最终得出了以下结论，这就是我想要的：

#!/usr/bin/env bash

IN="bla@some.com;john@home.com"

mails=$(echo $IN | tr ";" "\n")

for addr in $mails
do
    echo "> [$addr]"
done

输出：

> [bla@some.com]
> [john@home.com]

有一个解决方案涉及将Internal_field_separator（IFS）设置为；。我不确定这个答案发生了什么，如何将IFS重置为默认值？

回复：IFS解决方案，我尝试了这个，它奏效了，我保留了旧的IFS，然后恢复它：

IN="bla@some.com;john@home.com"

OIFS=$IFS
IFS=';'
mails2=$IN
for x in $mails2
do
    echo "> [$x]"
done

IFS=$OIFS

顺便说一下，当我尝试

mails2=($IN)

在循环中打印时，我只得到了第一个字符串，$in周围没有括号，它可以工作。

当前回答

兼容答案

在bash中有很多不同的方法可以做到这一点。

然而，首先需要注意的是，bash有许多特殊功能（所谓的bashms），这些功能在任何其他shell中都不起作用。

特别是，本篇文章中的解决方案以及线程中的其他解决方案中使用的数组、关联数组和模式替换都是抨击，可能无法在许多人使用的其他外壳下工作。

例如：在我的Debian GNU/Linux上，有一个名为dash的标准shell；我认识很多人，他们喜欢使用另一种叫做ksh的shell；还有一个叫做busybox的特殊工具，带有自己的shell解释器（ash）。

对于posix shell兼容的答案，请转到此答案的最后一部分！

请求的字符串

上述问题中要拆分的字符串是：

IN="bla@some.com;john@home.com"

我将使用此字符串的修改版本，以确保我的解决方案对包含空格的字符串具有鲁棒性，这可能会破坏其他解决方案：

IN="bla@some.com;john@home.com;Full Name <fulnam@other.org>"

基于bash中的分隔符拆分字符串（版本>=4.2）

在纯bash中，我们可以创建一个数组，其中元素由IFS的临时值（输入字段分隔符）分割。除其他外，IFS还告诉bash在定义数组时应将哪些字符视为元素之间的分隔符：

IN="bla@some.com;john@home.com;Full Name <fulnam@other.org>"

# save original IFS value so we can restore it later
oIFS="$IFS"
IFS=";"
declare -a fields=($IN)
IFS="$oIFS"
unset oIFS

在较新版本的bash中，用IFS定义前缀命令只会更改该命令的IFS，并在之后立即将其重置为先前的值。这意味着我们可以在一行中完成上述操作：

IFS=\; read -a fields <<<"$IN"
# after this command, the IFS resets back to its previous value (here, the default):
set | grep ^IFS=
# IFS=$' \t\n'

我们可以看到，字符串IN已存储在一个名为fields的数组中，以分号分隔：

set | grep ^fields=\\\|^IN=
# fields=([0]="bla@some.com" [1]="john@home.com" [2]="Full Name <fulnam@other.org>")
# IN='bla@some.com;john@home.com;Full Name <fulnam@other.org>'

（我们还可以使用declare-p显示这些变量的内容：）

declare -p IN fields
# declare -- IN="bla@some.com;john@home.com;Full Name <fulnam@other.org>"
# declare -a fields=([0]="bla@some.com" [1]="john@home.com" [2]="Full Name <fulnam@other.org>")

请注意，读取是执行拆分的最快方式，因为没有调用fork或外部资源。

一旦定义了数组，就可以使用一个简单的循环来处理每个字段（或者说，现在定义的数组中的每个元素）：

# `"${fields[@]}"` expands to return every element of `fields` array as a separate argument
for x in "${fields[@]}" ;do
    echo "> [$x]"
    done
# > [bla@some.com]
# > [john@home.com]
# > [Full Name <fulnam@other.org>]

或者，您可以在使用移位方法处理后从阵列中删除每个字段，我喜欢：

while [ "$fields" ] ;do
    echo "> [$fields]"
    # slice the array 
    fields=("${fields[@]:1}")
    done
# > [bla@some.com]
# > [john@home.com]
# > [Full Name <fulnam@other.org>]

如果你只需要一个简单的数组打印输出，你甚至不需要遍历它：

printf "> [%s]\n" "${fields[@]}"
# > [bla@some.com]
# > [john@home.com]
# > [Full Name <fulnam@other.org>]

更新：最近的bash>=4.4

在较新版本的bash中，还可以使用命令mapfile：

mapfile -td \; fields < <(printf "%s\0" "$IN")

此语法保留特殊字符、换行符和空字段！

如果不想包含空字段，可以执行以下操作：

mapfile -td \; fields <<<"$IN"
fields=("${fields[@]%$'\n'}")   # drop '\n' added by '<<<'

使用mapfile，您还可以跳过声明数组，并隐式“循环”分隔元素，对每个元素调用一个函数：

myPubliMail() {
    printf "Seq: %6d: Sending mail to '%s'..." $1 "$2"
    # mail -s "This is not a spam..." "$2" </path/to/body
    printf "\e[3D, done.\n"
}

mapfile < <(printf "%s\0" "$IN") -td \; -c 1 -C myPubliMail

（注意：如果您不关心字符串末尾的空字段或它们不存在，则格式字符串末尾的\0无效。）

mapfile < <(echo -n "$IN") -td \; -c 1 -C myPubliMail

# Seq:      0: Sending mail to 'bla@some.com', done.
# Seq:      1: Sending mail to 'john@home.com', done.
# Seq:      2: Sending mail to 'Full Name <fulnam@other.org>', done.

或者可以使用<<<，在函数体中包含一些处理来删除它添加的换行符：

myPubliMail() {
    local seq=$1 dest="${2%$'\n'}"
    printf "Seq: %6d: Sending mail to '%s'..." $seq "$dest"
    # mail -s "This is not a spam..." "$dest" </path/to/body
    printf "\e[3D, done.\n"
}

mapfile <<<"$IN" -td \; -c 1 -C myPubliMail

# Renders the same output:
# Seq:      0: Sending mail to 'bla@some.com', done.
# Seq:      1: Sending mail to 'john@home.com', done.
# Seq:      2: Sending mail to 'Full Name <fulnam@other.org>', done.

基于shell中的分隔符拆分字符串

如果你不能使用bash，或者你想写一些可以在许多不同的shell中使用的东西，你通常不能使用bashms——这包括我们在上面的解决方案中使用的数组。

然而，我们不需要使用数组来循环字符串的“元素”。在许多shell中，有一种语法用于从模式的第一次或最后一次出现中删除字符串的子字符串。请注意，*是一个通配符，表示零个或多个字符：

（到目前为止发布的任何解决方案中都没有这种方法，这是我写这个答案的主要原因；）

${var#*SubStr}  # drops substring from start of string up to first occurrence of `SubStr`
${var##*SubStr} # drops substring from start of string up to last occurrence of `SubStr`
${var%SubStr*}  # drops substring from last occurrence of `SubStr` to end of string
${var%%SubStr*} # drops substring from first occurrence of `SubStr` to end of string

如Score_Bow所述：

#和%分别从字符串的开头和结尾删除可能最短的匹配子字符串，以及##和%%删除可能最长的匹配子字符串。

使用上述语法，我们可以创建一种方法，通过删除分隔符之前或之后的子字符串，从字符串中提取子字符串“元素”。

下面的代码块在bash（包括Mac OS的bash）、dash、ksh、lksh、yash、zsh和busybox的ash中运行良好：

（感谢Adam Katz的评论，使这个循环更加简单！）

IN="bla@some.com;john@home.com;Full Name <fulnam@other.org>"
while [ "$IN" != "$iter" ] ;do
    # extract the substring from start of string up to delimiter.
    iter=${IN%%;*}
    # delete this first "element" AND next separator, from $IN.
    IN="${IN#$iter;}"
    # Print (or doing anything with) the first "element".
    printf '> [%s]\n' "$iter"
done
# > [bla@some.com]
# > [john@home.com]
# > [Full Name <fulnam@other.org>]

为什么不剪？

cut用于提取大文件中的列，但重复执行fork（var=$（echo…|cut…））会很快变得过火！

这是一个正确的语法，在许多posix shell下使用cut进行测试，如DougW的另一个答案所建议的：

IN="bla@some.com;john@home.com;Full Name <fulnam@other.org>"
i=1
while iter=$(echo "$IN"|cut -d\; -f$i) ; [ -n "$iter" ] ;do
    printf '> [%s]\n' "$iter"
    i=$((i+1))
done

我写这个是为了比较执行时间。

在我的树莓皮上，这看起来像：

$ export TIMEFORMAT=$'(%U + %S) / \e[1m%R\e[0m : %P  '
$ time sh splitDemo.sh >/dev/null
(0.000 + 0.019) / 0.019 : 99.63  
$ time sh splitDemo_cut.sh >/dev/null
(0.051 + 0.041) / 0.188 : 48.98

这里的总执行时间大约是10倍长，使用1个叉进行切割，按场计算！

2013-04-13 14:20:09

其他回答

您可以设置内部字段分隔符（IFS）变量，然后让它解析为数组。当在命令中发生这种情况时，IFS的赋值只发生在单个命令的环境中（读取）。然后，它根据IFS变量值将输入解析为数组，然后我们可以对其进行迭代。

此示例将解析一行由；，将其推入阵列：

IFS=';' read -ra ADDR <<< "$IN"
for i in "${ADDR[@]}"; do
  # process "$i"
done

另一个示例用于处理$IN的整个内容，每次一行输入由；：

while IFS=';' read -ra ADDR; do
  for i in "${ADDR[@]}"; do
    # process "$i"
  done
done <<< "$IN"

2009-05-28 02:23:27

有一种简单而聪明的方法：

echo "add:sfff" | xargs -d: -i  echo {}

但是您必须使用gnu-xargs，BSD-xargs不能支持-d delim。如果你像我一样使用苹果mac，你可以安装gnu-xargs：

brew install findutils

then

echo "add:sfff" | gxargs -d: -i  echo {}

2015-09-16 03:34:51

我认为AWK是解决您问题的最佳有效命令。AWK默认包含在几乎每个Linux发行版中。

echo "bla@some.com;john@home.com" | awk -F';' '{print $1,$2}'

将给予

bla@some.com john@home.com

当然，您可以通过重新定义awk打印字段来存储每个电子邮件地址。

2013-01-14 06:33:40

我看到了一些引用cut命令的答案，但它们都被删除了。有点奇怪的是，没有人详细阐述过这一点，因为我认为这是执行这类任务更有用的命令之一，尤其是用于解析分隔的日志文件。

在将这个特定示例拆分为bash脚本数组的情况下，tr可能效率更高，但可以使用cut，如果您想从中间拉取特定字段，则更有效。

例子：

$ echo "bla@some.com;john@home.com" | cut -d ";" -f 1
bla@some.com
$ echo "bla@some.com;john@home.com" | cut -d ";" -f 2
john@home.com

显然，您可以将其放入一个循环中，并迭代-f参数以独立拉动每个字段。

当您有一个分隔的日志文件，其中包含如下行时，这会更有用：

2015-04-27|12345|some action|an attribute|meta data

cut非常方便，能够抓取这个文件并选择一个特定的字段进行进一步处理。

2015-04-27 18:20:34

ADDR1=${IN%%;*}
ADDR2=${IN##*;}

2022-02-28 14:29:01

如何在Bash中分割分隔符上的字符串？

推荐文章

最新文章

标签