按多列对数据帧行排序（排序）

我想按多列对数据帧进行排序。例如，对于下面的数据帧，我希望按列“z”（降序）排序，然后按列“b”（升序）排序：

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
dd
    b x y z
1  Hi A 8 1
2 Med D 3 1
3  Hi A 9 1
4 Low C 9 2

当前回答

为了完整起见：您还可以使用BBmisc包中的sortByCol（）函数：

library(BBmisc)
sortByCol(dd, c("z", "b"), asc = c(FALSE, TRUE))
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1

性能比较：

library(microbenchmark)
microbenchmark(sortByCol(dd, c("z", "b"), asc = c(FALSE, TRUE)), times = 100000)
median 202.878

library(plyr)
microbenchmark(arrange(dd,desc(z),b),times=100000)
median 148.758

microbenchmark(dd[with(dd, order(-z, b)), ], times = 100000)
median 115.872

2015-08-07 04:03:34

其他回答

当我想自动化n列的排序过程时，我正在与上述解决方案作斗争，因为每一列的列名都可能不同。我从psych包中找到了一个非常有用的功能，可以直接实现这一点：

dfOrder(myDf, columnIndices)

其中columnIndex是一个或多个列的索引，按要对其排序的顺序排列。此处提供更多信息：

“psych”包中的dfOrder函数

2018-10-24 22:32:43

假设您有一个data.frame a，并且希望使用名为x降序的列对其进行排序。调用排序后的数据。frame newdata

newdata <- A[order(-A$x),]

如果需要升序，请将“-”替换为空。你可以吃类似的东西

newdata <- A[order(-A$x, A$y, -A$z),]

其中x和z是data.frame A中的一些列。这意味着按照x降序、y升序和z降序对data.frameA进行排序。

2011-01-25 13:10:21

为了完整起见，由于没有太多关于按列编号排序的内容。。。可以肯定的是，这通常是不可取的（因为列的顺序可能会改变，为错误铺平道路），但在某些特定情况下（例如，当您需要快速完成工作，并且没有列改变顺序的风险），这可能是最明智的做法，尤其是在处理大量列时。

在这种情况下，do.call（）来拯救：

ind <- do.call(what = "order", args = iris[,c(5,1,2,3)])
iris[ind, ]

##        Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
##    14           4.3         3.0          1.1         0.1     setosa
##    9            4.4         2.9          1.4         0.2     setosa
##    39           4.4         3.0          1.3         0.2     setosa
##    43           4.4         3.2          1.3         0.2     setosa
##    42           4.5         2.3          1.3         0.3     setosa
##    4            4.6         3.1          1.5         0.2     setosa
##    48           4.6         3.2          1.4         0.2     setosa
##    7            4.6         3.4          1.4         0.3     setosa
##    (...)

2019-04-11 03:58:42

针对OP中添加的关于如何以编程方式排序的注释：

使用dplyr和data.table

library(dplyr)
library(data.table)

dplyr公司

只需使用arrange_，这是arrange的标准评估版本。

df1 <- tbl_df(iris)
#using strings or formula
arrange_(df1, c('Petal.Length', 'Petal.Width'))
arrange_(df1, ~Petal.Length, ~Petal.Width)
    Source: local data frame [150 x 5]

   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
          (dbl)       (dbl)        (dbl)       (dbl)  (fctr)
1           4.6         3.6          1.0         0.2  setosa
2           4.3         3.0          1.1         0.1  setosa
3           5.8         4.0          1.2         0.2  setosa
4           5.0         3.2          1.2         0.2  setosa
5           4.7         3.2          1.3         0.2  setosa
6           5.4         3.9          1.3         0.4  setosa
7           5.5         3.5          1.3         0.2  setosa
8           4.4         3.0          1.3         0.2  setosa
9           5.0         3.5          1.3         0.3  setosa
10          4.5         2.3          1.3         0.3  setosa
..          ...         ...          ...         ...     ...


#Or using a variable
sortBy <- c('Petal.Length', 'Petal.Width')
arrange_(df1, .dots = sortBy)
    Source: local data frame [150 x 5]

   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
          (dbl)       (dbl)        (dbl)       (dbl)  (fctr)
1           4.6         3.6          1.0         0.2  setosa
2           4.3         3.0          1.1         0.1  setosa
3           5.8         4.0          1.2         0.2  setosa
4           5.0         3.2          1.2         0.2  setosa
5           4.7         3.2          1.3         0.2  setosa
6           5.5         3.5          1.3         0.2  setosa
7           4.4         3.0          1.3         0.2  setosa
8           4.4         3.2          1.3         0.2  setosa
9           5.0         3.5          1.3         0.3  setosa
10          4.5         2.3          1.3         0.3  setosa
..          ...         ...          ...         ...     ...

#Doing the same operation except sorting Petal.Length in descending order
sortByDesc <- c('desc(Petal.Length)', 'Petal.Width')
arrange_(df1, .dots = sortByDesc)

更多信息请点击此处：https://cran.r-project.org/web/packages/dplyr/vignettes/nse.html

最好使用公式，因为它还可以捕获环境来计算表达式

数据表

dt1 <- data.table(iris) #not really required, as you can work directly on your data.frame
sortBy <- c('Petal.Length', 'Petal.Width')
sortType <- c(-1, 1)
setorderv(dt1, sortBy, sortType)
dt1
     Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
  1:          7.7         2.6          6.9         2.3 virginica
  2:          7.7         2.8          6.7         2.0 virginica
  3:          7.7         3.8          6.7         2.2 virginica
  4:          7.6         3.0          6.6         2.1 virginica
  5:          7.9         3.8          6.4         2.0 virginica
 ---                                                            
146:          5.4         3.9          1.3         0.4    setosa
147:          5.8         4.0          1.2         0.2    setosa
148:          5.0         3.2          1.2         0.2    setosa
149:          4.3         3.0          1.1         0.1    setosa
150:          4.6         3.6          1.0         0.2    setosa

2016-02-05 21:11:52

您的选择

从基础订购从dplyr安排data.table中的setorder和setorderv从plyer安排从taRifx排序orderBy来自doBy从推断器中排序数据

大多数时候，您应该使用dplyr或data.table解决方案，除非没有依赖关系很重要，在这种情况下使用base:：order。

我最近将sort.data.frame添加到CRAN包中，使其类兼容，如下所述：为sort.data.frame创建通用/方法一致性的最佳方法？

因此，给定data.frame dd，可以按如下方式排序：

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
library(taRifx)
sort(dd, f= ~ -z + b )

如果您是该函数的原始作者之一，请与我联系。关于公共域的讨论如下：https://chat.stackoverflow.com/transcript/message/1094290#1094290

您还可以使用plyr中的arrange（）函数，正如Hadley在上面的线程中指出的那样：

library(plyr)
arrange(dd,desc(z),b)

基准测试：注意，我在一个新的R会话中加载了每个包，因为有很多冲突。特别是，加载doBy包会导致排序返回“以下对象从‘x（位置17）’屏蔽：b，x，y，z”，并且加载演绎器包会覆盖Kevin Wright或taRifx包的sort.data.frame。

#Load each time
dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
library(microbenchmark)

# Reload R between benchmarks
microbenchmark(dd[with(dd, order(-z, b)), ] ,
    dd[order(-dd$z, dd$b),],
    times=1000
)

中值时间：

dd[带（dd，顺序（-z，b）），]778

dd[订单（-dd$z，dd$b），]788

library(taRifx)
microbenchmark(sort(dd, f= ~-z+b ),times=1000)

中位时间：1567

library(plyr)
microbenchmark(arrange(dd,desc(z),b),times=1000)

中位时间：862

library(doBy)
microbenchmark(orderBy(~-z+b, data=dd),times=1000)

中位时间：1694

注意，doBy需要很长时间来加载包。

library(Deducer)
microbenchmark(sortData(dd,c("z","b"),increasing= c(FALSE,TRUE)),times=1000)

无法使扣减器加载。需要JGR控制台。

esort <- function(x, sortvar, ...) {
attach(x)
x <- x[with(x,order(sortvar,...)),]
return(x)
detach(x)
}

microbenchmark(esort(dd, -z, b),times=1000)

由于连接/分离，似乎与微基准测试不兼容。

m <- microbenchmark(
  arrange(dd,desc(z),b),
  sort(dd, f= ~-z+b ),
  dd[with(dd, order(-z, b)), ] ,
  dd[order(-dd$z, dd$b),],
  times=1000
  )

uq <- function(x) { fivenum(x)[4]}  
lq <- function(x) { fivenum(x)[2]}

y_min <- 0 # min(by(m$time,m$expr,lq))
y_max <- max(by(m$time,m$expr,uq)) * 1.05
  
p <- ggplot(m,aes(x=expr,y=time)) + coord_cartesian(ylim = c( y_min , y_max )) 
p + stat_summary(fun.y=median,fun.ymin = lq, fun.ymax = uq, aes(fill=expr))

（线从下四分位延伸到上四分位，点是中间值）

考虑到这些结果，并权衡了简单性与速度，我不得不同意在plyer包中进行安排。它有一个简单的语法，但它的速度几乎和基本的R命令一样快，而且具有复杂的机制。典型的杰出哈德利·威克姆作品。我唯一的不满是它打破了按排序（对象）调用排序对象的标准R命名法，但我理解哈德利之所以这样做，是因为上面所讨论的问题。

2011-07-29 10:48:00

按多列对数据帧行排序（排序）

推荐文章

最新文章

标签