我想使用dplyr::mutate()在数据帧中创建多个新列。列名及其内容应该是动态生成的。

虹膜数据示例:

library(dplyr)
iris <- as_tibble(iris)

我创建了一个函数来改变花瓣中的新列。宽度变量:

multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    df <- mutate(df, varname = Petal.Width * n)  ## problem arises here
    df
}

现在我创建了一个循环来构建我的列:

for(i in 2:5) {
    iris <- multipetal(df=iris, n=i)
}

然而,由于mutate认为varname是一个字面变量名,因此循环只创建了一个新变量(称为varname),而不是四个(称为花瓣)。2 -花瓣。5)。

我怎么能得到mutate()使用我的动态名称作为变量名?


当前回答

由于动态地将变量名构建为字符值,因此使用标准data.frame索引(允许为列名提供字符值)进行赋值更有意义。例如:

multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    df[[varname]] <- with(df, Petal.Width * n)
    df
}

mutate函数使得通过命名参数命名新列变得非常容易。但这假设您在键入命令时知道名称。如果希望动态指定列名,则还需要构建named参数。


双版本>= 1.0

在最新的dplyr版本中,您可以在使用:=命名参数时使用glue包中的语法。因此,这里名称中的{}通过计算其中的表达式来获取值。

multipetal <- function(df, n) {
  mutate(df, "petal.{n}" := Petal.Width * n)
}

如果要向函数传递列名,可以在字符串中使用{{}},也可以在列名中使用{{}}

meanofcol <- function(df, col) {
  mutate(df, "Mean of {{col}}" := mean({{col}}))
}
meanofcol(iris, Petal.Width)


dpoyr版本

从0.7版开始,Dplyr允许您使用:=来动态分配参数名。你可以这样写你的函数:

# --- dplyr version 0.7+---
multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    mutate(df, !!varname := Petal.Width * n)
}

有关更多信息,请参阅从vignette(“programming”,“dplyr”)中获得的文档。


dplyr (>=0.3 & <0.7)

稍早一些的dplyr版本(>=0.3 <0.7)鼓励使用“标准求值”替代许多函数。有关更多信息,请参阅非标准评估小插图(小插图(“nse”))。

所以在这里,答案是使用mutate_()而不是mutate(),并执行:

# --- dplyr version 0.3-0.5---
multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    varval <- lazyeval::interp(~Petal.Width * n, n=n)
    mutate_(df, .dots= setNames(list(varval), varname))
}

双工< 0.3

注意,在最初提出问题时存在的旧版本的dplyr中也可能存在这种情况。它需要小心使用quote和setName:

# --- dplyr versions < 0.3 ---
multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    pp <- c(quote(df), setNames(list(quote(Petal.Width * n)), varname))
    do.call("mutate", pp)
}

其他回答

你可能会喜欢package friendlyeval,它为新用户提供了一个简化的整洁的eval API和文档。

您正在创建希望更改为列名的字符串。所以使用friendlyeval你可以这样写:

multipetal <- function(df, n) {
  varname <- paste("petal", n , sep=".")
  df <- mutate(df, !!treat_string_as_col(varname) := Petal.Width * n)
  df
}

for(i in 2:5) {
  iris <- multipetal(df=iris, n=i)
}

它在底层调用rlang函数,检查varname作为列名是否合法。

friendlyeval代码可以在任何时候通过RStudio插件转换为同等的简单整洁的eval代码。

由于动态地将变量名构建为字符值,因此使用标准data.frame索引(允许为列名提供字符值)进行赋值更有意义。例如:

multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    df[[varname]] <- with(df, Petal.Width * n)
    df
}

mutate函数使得通过命名参数命名新列变得非常容易。但这假设您在键入命令时知道名称。如果希望动态指定列名,则还需要构建named参数。


双版本>= 1.0

在最新的dplyr版本中,您可以在使用:=命名参数时使用glue包中的语法。因此,这里名称中的{}通过计算其中的表达式来获取值。

multipetal <- function(df, n) {
  mutate(df, "petal.{n}" := Petal.Width * n)
}

如果要向函数传递列名,可以在字符串中使用{{}},也可以在列名中使用{{}}

meanofcol <- function(df, col) {
  mutate(df, "Mean of {{col}}" := mean({{col}}))
}
meanofcol(iris, Petal.Width)


dpoyr版本

从0.7版开始,Dplyr允许您使用:=来动态分配参数名。你可以这样写你的函数:

# --- dplyr version 0.7+---
multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    mutate(df, !!varname := Petal.Width * n)
}

有关更多信息,请参阅从vignette(“programming”,“dplyr”)中获得的文档。


dplyr (>=0.3 & <0.7)

稍早一些的dplyr版本(>=0.3 <0.7)鼓励使用“标准求值”替代许多函数。有关更多信息,请参阅非标准评估小插图(小插图(“nse”))。

所以在这里,答案是使用mutate_()而不是mutate(),并执行:

# --- dplyr version 0.3-0.5---
multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    varval <- lazyeval::interp(~Petal.Width * n, n=n)
    mutate_(df, .dots= setNames(list(varval), varname))
}

双工< 0.3

注意,在最初提出问题时存在的旧版本的dplyr中也可能存在这种情况。它需要小心使用quote和setName:

# --- dplyr versions < 0.3 ---
multipetal <- function(df, n) {
    varname <- paste("petal", n , sep=".")
    pp <- c(quote(df), setNames(list(quote(Petal.Width * n)), varname))
    do.call("mutate", pp)
}

在dplyr的新版本(0.6.0将于2017年4月发布)中,我们还可以执行赋值操作(:=),并通过取消引号(!!)将变量作为列名传递,从而不计算它

 library(dplyr)
 multipetalN <- function(df, n){
      varname <- paste0("petal.", n)
      df %>%
         mutate(!!varname := Petal.Width * n)
 }

 data(iris)
 iris1 <- tbl_df(iris)
 iris2 <- tbl_df(iris)
 for(i in 2:5) {
     iris2 <- multipetalN(df=iris2, n=i)
 }   

根据应用在'iris1'上的@MrFlick的多瓣检查输出

identical(iris1, iris2)
#[1] TRUE

如果您需要多次执行相同的操作,它通常会告诉您,您的数据格式不是最佳的。你想要一个更长的格式,n是data.frame中的一列,可以通过交叉连接来实现:

library(tidyverse)
iris %>% mutate(identifier = 1:n()) %>% #necessary to disambiguate row 102 from row 143 (complete duplicates)
   full_join(tibble(n = 1:5), by=character()) %>% #cross join for long format
   mutate(petal = Petal.Width * n) %>% #calculation in long format
   pivot_wider(names_from=n, values_from=petal, names_prefix="petal.width.") #back to wider format (if desired)

结果:

# A tibble: 150 x 11
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species identifier petal.width.1 petal.width.2 petal.width.3
          <dbl>       <dbl>        <dbl>       <dbl> <fct>        <int>         <dbl>         <dbl>         <dbl>
 1          5.1         3.5          1.4         0.2 setosa           1           0.2           0.4           0.6
 2          4.9         3            1.4         0.2 setosa           2           0.2           0.4           0.6
 3          4.7         3.2          1.3         0.2 setosa           3           0.2           0.4           0.6
 4          4.6         3.1          1.5         0.2 setosa           4           0.2           0.4           0.6
 5          5           3.6          1.4         0.2 setosa           5           0.2           0.4           0.6
 6          5.4         3.9          1.7         0.4 setosa           6           0.4           0.8           1.2
 7          4.6         3.4          1.4         0.3 setosa           7           0.3           0.6           0.9
 8          5           3.4          1.5         0.2 setosa           8           0.2           0.4           0.6
 9          4.4         2.9          1.4         0.2 setosa           9           0.2           0.4           0.6
10          4.9         3.1          1.5         0.1 setosa          10           0.1           0.2           0.3
# ... with 140 more rows, and 2 more variables: petal.width.4 <dbl>, petal.width.5 <dbl>

在rlang 0.4.0中,我们有了卷曲操作符({{}}),这使得这非常容易。当一个动态列名出现在赋值的左边时,使用:=。

library(dplyr)
library(rlang)

iris1 <- tbl_df(iris)

multipetal <- function(df, n) {
   varname <- paste("petal", n , sep=".")
   mutate(df, {{varname}} := Petal.Width * n)
}

multipetal(iris1, 4)

# A tibble: 150 x 6
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species petal.4
#          <dbl>       <dbl>        <dbl>       <dbl> <fct>     <dbl>
# 1          5.1         3.5          1.4         0.2 setosa      0.8
# 2          4.9         3            1.4         0.2 setosa      0.8
# 3          4.7         3.2          1.3         0.2 setosa      0.8
# 4          4.6         3.1          1.5         0.2 setosa      0.8
# 5          5           3.6          1.4         0.2 setosa      0.8
# 6          5.4         3.9          1.7         0.4 setosa      1.6
# 7          4.6         3.4          1.4         0.3 setosa      1.2
# 8          5           3.4          1.5         0.2 setosa      0.8
# 9          4.4         2.9          1.4         0.2 setosa      0.8
#10          4.9         3.1          1.5         0.1 setosa      0.4
# … with 140 more rows

我们还可以传递带引号/不带引号的变量名作为列名来赋值。

multipetal <- function(df, name, n) {
   mutate(df, {{name}} := Petal.Width * n)
}

multipetal(iris1, temp, 3)

# A tibble: 150 x 6
#   Sepal.Length Sepal.Width Petal.Length Petal.Width Species  temp
#          <dbl>       <dbl>        <dbl>       <dbl> <fct>   <dbl>
# 1          5.1         3.5          1.4         0.2 setosa  0.6  
# 2          4.9         3            1.4         0.2 setosa  0.6  
# 3          4.7         3.2          1.3         0.2 setosa  0.6  
# 4          4.6         3.1          1.5         0.2 setosa  0.6  
# 5          5           3.6          1.4         0.2 setosa  0.6  
# 6          5.4         3.9          1.7         0.4 setosa  1.2  
# 7          4.6         3.4          1.4         0.3 setosa  0.900
# 8          5           3.4          1.5         0.2 setosa  0.6  
# 9          4.4         2.9          1.4         0.2 setosa  0.6  
#10          4.9         3.1          1.5         0.1 setosa  0.3  
# … with 140 more rows

这是一样的

multipetal(iris1, "temp", 3)