我想按多列对数据帧进行排序。例如,对于下面的数据帧,我希望按列“z”(降序)排序,然后按列“b”(升序)排序:

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
dd
    b x y z
1  Hi A 8 1
2 Med D 3 1
3  Hi A 9 1
4 Low C 9 2

当前回答

您可以直接使用order()函数,而无需使用附加工具——请参阅这个更简单的答案,它使用了示例(order)代码顶部的技巧:

R> dd[with(dd, order(-z, b)), ]
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1

两年多后编辑:只是被问到如何按列索引进行编辑。答案是简单地将所需的排序列传递给order()函数:

R> dd[order(-dd[,4], dd[,1]), ]
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1
R> 

而不是使用列的名称(使用with()可以更方便/更直接地访问)。

其他回答

就像很久以前的机械卡片分拣机一样,首先按最不重要的键排序,然后按下一个最重要的键进行排序。不需要库,可以使用任意数量的键以及任意组合的升序和降序键。

 dd <- dd[order(dd$b, decreasing = FALSE),]

现在我们准备好做最重要的关键。这一类是稳定的,最重要的密钥中的任何联系都已经解决。

dd <- dd[order(dd$z, decreasing = TRUE),]

这可能不是最快的,但它确实简单可靠

或者,使用包扣减器

library(Deducer)
dd<- sortData(dd,c("z","b"),increasing= c(FALSE,TRUE))

当我想自动化n列的排序过程时,我正在与上述解决方案作斗争,因为每一列的列名都可能不同。我从psych包中找到了一个非常有用的功能,可以直接实现这一点:

dfOrder(myDf, columnIndices)

其中columnIndex是一个或多个列的索引,按要对其排序的顺序排列。此处提供更多信息:

“psych”包中的dfOrder函数

另一种选择是使用rgr包:

> library(rgr)
> gx.sort.df(dd, ~ -z+b)
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1

您的选择

从基础订购从dplyr安排data.table中的setorder和setorderv从plyer安排从taRifx排序orderBy来自doBy从推断器中排序数据

大多数时候,您应该使用dplyr或data.table解决方案,除非没有依赖关系很重要,在这种情况下使用base::order。


我最近将sort.data.frame添加到CRAN包中,使其类兼容,如下所述:为sort.data.frame创建通用/方法一致性的最佳方法?

因此,给定data.frame dd,可以按如下方式排序:

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
library(taRifx)
sort(dd, f= ~ -z + b )

如果您是该函数的原始作者之一,请与我联系。关于公共域的讨论如下:https://chat.stackoverflow.com/transcript/message/1094290#1094290


您还可以使用plyr中的arrange()函数,正如Hadley在上面的线程中指出的那样:

library(plyr)
arrange(dd,desc(z),b)

基准测试:注意,我在一个新的R会话中加载了每个包,因为有很多冲突。特别是,加载doBy包会导致排序返回“以下对象从‘x(位置17)’屏蔽:b,x,y,z”,并且加载演绎器包会覆盖Kevin Wright或taRifx包的sort.data.frame。

#Load each time
dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
library(microbenchmark)

# Reload R between benchmarks
microbenchmark(dd[with(dd, order(-z, b)), ] ,
    dd[order(-dd$z, dd$b),],
    times=1000
)

中值时间:

dd[带(dd,顺序(-z,b)),]778

dd[订单(-dd$z,dd$b),]788

library(taRifx)
microbenchmark(sort(dd, f= ~-z+b ),times=1000)

中位时间:1567

library(plyr)
microbenchmark(arrange(dd,desc(z),b),times=1000)

中位时间:862

library(doBy)
microbenchmark(orderBy(~-z+b, data=dd),times=1000)

中位时间:1694

注意,doBy需要很长时间来加载包。

library(Deducer)
microbenchmark(sortData(dd,c("z","b"),increasing= c(FALSE,TRUE)),times=1000)

无法使扣减器加载。需要JGR控制台。

esort <- function(x, sortvar, ...) {
attach(x)
x <- x[with(x,order(sortvar,...)),]
return(x)
detach(x)
}

microbenchmark(esort(dd, -z, b),times=1000)

由于连接/分离,似乎与微基准测试不兼容。


m <- microbenchmark(
  arrange(dd,desc(z),b),
  sort(dd, f= ~-z+b ),
  dd[with(dd, order(-z, b)), ] ,
  dd[order(-dd$z, dd$b),],
  times=1000
  )

uq <- function(x) { fivenum(x)[4]}  
lq <- function(x) { fivenum(x)[2]}

y_min <- 0 # min(by(m$time,m$expr,lq))
y_max <- max(by(m$time,m$expr,uq)) * 1.05
  
p <- ggplot(m,aes(x=expr,y=time)) + coord_cartesian(ylim = c( y_min , y_max )) 
p + stat_summary(fun.y=median,fun.ymin = lq, fun.ymax = uq, aes(fill=expr))

(线从下四分位延伸到上四分位,点是中间值)


考虑到这些结果,并权衡了简单性与速度,我不得不同意在plyer包中进行安排。它有一个简单的语法,但它的速度几乎和基本的R命令一样快,而且具有复杂的机制。典型的杰出哈德利·威克姆作品。我唯一的不满是它打破了按排序(对象)调用排序对象的标准R命名法,但我理解哈德利之所以这样做,是因为上面所讨论的问题。