按多列对数据帧行排序（排序）

我想按多列对数据帧进行排序。例如，对于下面的数据帧，我希望按列“z”（降序）排序，然后按列“b”（升序）排序：

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
dd
    b x y z
1  Hi A 8 1
2 Med D 3 1
3  Hi A 9 1
4 Low C 9 2

当前回答

另一种选择是使用rgr包：

> library(rgr)
> gx.sort.df(dd, ~ -z+b)
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1

2018-05-01 10:18:19

其他回答

假设您有一个data.frame a，并且希望使用名为x降序的列对其进行排序。调用排序后的数据。frame newdata

newdata <- A[order(-A$x),]

如果需要升序，请将“-”替换为空。你可以吃类似的东西

newdata <- A[order(-A$x, A$y, -A$z),]

其中x和z是data.frame A中的一些列。这意味着按照x降序、y升序和z降序对data.frameA进行排序。

2011-01-25 13:10:21

我通过下面的例子了解了秩序，这让我困惑了很长一段时间：

set.seed(1234)

ID        = 1:10
Age       = round(rnorm(10, 50, 1))
diag      = c("Depression", "Bipolar")
Diagnosis = sample(diag, 10, replace=TRUE)

data = data.frame(ID, Age, Diagnosis)

databyAge = data[order(Age),]
databyAge

此示例之所以有效，唯一的原因是顺序是按向量Age排序，而不是按数据帧数据中名为Age的列排序。

要看到这一点，请使用read.table创建一个完全相同的数据帧，列名称略有不同，并且不使用任何上述向量：

my.data <- read.table(text = '

  id age  diagnosis
   1  49 Depression
   2  50 Depression
   3  51 Depression
   4  48 Depression
   5  50 Depression
   6  51    Bipolar
   7  49    Bipolar
   8  49    Bipolar
   9  49    Bipolar
  10  49 Depression

', header = TRUE)

由于没有名为age的向量，上述order的行结构不再有效：

databyage = my.data[order(age),]

以下行之所以有效，是因为顺序根据my.data中的列年龄排序。

databyage = my.data[order(my.data$age),]

我认为这是值得张贴的，因为我被这个例子迷惑了这么久。如果这个帖子不适合这个线程，我可以删除它。

编辑：2014年5月13日

下面是按每列对数据帧进行排序而不指定列名的通用方法。下面的代码显示了如何从左到右或从右到左排序。如果每一列都是数字，这将起作用。我没有尝试添加字符列。

一两个月前，我在另一个网站的一篇旧帖子中找到了do.call代码，但这是经过广泛而艰难的搜索之后才发现的。我不确定我现在能不能重新安置那个职位。目前的线程是在R中订购data.frame的第一个热门线程。因此，我认为我的原始do.call代码的扩展版本可能有用。

set.seed(1234)

v1  <- c(0,0,0,0, 0,0,0,0, 1,1,1,1, 1,1,1,1)
v2  <- c(0,0,0,0, 1,1,1,1, 0,0,0,0, 1,1,1,1)
v3  <- c(0,0,1,1, 0,0,1,1, 0,0,1,1, 0,0,1,1)
v4  <- c(0,1,0,1, 0,1,0,1, 0,1,0,1, 0,1,0,1)

df.1 <- data.frame(v1, v2, v3, v4) 
df.1

rdf.1 <- df.1[sample(nrow(df.1), nrow(df.1), replace = FALSE),]
rdf.1

order.rdf.1 <- rdf.1[do.call(order, as.list(rdf.1)),]
order.rdf.1

order.rdf.2 <- rdf.1[do.call(order, rev(as.list(rdf.1))),]
order.rdf.2

rdf.3 <- data.frame(rdf.1$v2, rdf.1$v4, rdf.1$v3, rdf.1$v1) 
rdf.3

order.rdf.3 <- rdf.1[do.call(order, as.list(rdf.3)),]
order.rdf.3

2013-09-02 19:28:56

您的选择

从基础订购从dplyr安排data.table中的setorder和setorderv从plyer安排从taRifx排序orderBy来自doBy从推断器中排序数据

大多数时候，您应该使用dplyr或data.table解决方案，除非没有依赖关系很重要，在这种情况下使用base:：order。

我最近将sort.data.frame添加到CRAN包中，使其类兼容，如下所述：为sort.data.frame创建通用/方法一致性的最佳方法？

因此，给定data.frame dd，可以按如下方式排序：

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
library(taRifx)
sort(dd, f= ~ -z + b )

如果您是该函数的原始作者之一，请与我联系。关于公共域的讨论如下：https://chat.stackoverflow.com/transcript/message/1094290#1094290

您还可以使用plyr中的arrange（）函数，正如Hadley在上面的线程中指出的那样：

library(plyr)
arrange(dd,desc(z),b)

基准测试：注意，我在一个新的R会话中加载了每个包，因为有很多冲突。特别是，加载doBy包会导致排序返回“以下对象从‘x（位置17）’屏蔽：b，x，y，z”，并且加载演绎器包会覆盖Kevin Wright或taRifx包的sort.data.frame。

#Load each time
dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
library(microbenchmark)

# Reload R between benchmarks
microbenchmark(dd[with(dd, order(-z, b)), ] ,
    dd[order(-dd$z, dd$b),],
    times=1000
)

中值时间：

dd[带（dd，顺序（-z，b）），]778

dd[订单（-dd$z，dd$b），]788

library(taRifx)
microbenchmark(sort(dd, f= ~-z+b ),times=1000)

中位时间：1567

library(plyr)
microbenchmark(arrange(dd,desc(z),b),times=1000)

中位时间：862

library(doBy)
microbenchmark(orderBy(~-z+b, data=dd),times=1000)

中位时间：1694

注意，doBy需要很长时间来加载包。

library(Deducer)
microbenchmark(sortData(dd,c("z","b"),increasing= c(FALSE,TRUE)),times=1000)

无法使扣减器加载。需要JGR控制台。

esort <- function(x, sortvar, ...) {
attach(x)
x <- x[with(x,order(sortvar,...)),]
return(x)
detach(x)
}

microbenchmark(esort(dd, -z, b),times=1000)

由于连接/分离，似乎与微基准测试不兼容。

m <- microbenchmark(
  arrange(dd,desc(z),b),
  sort(dd, f= ~-z+b ),
  dd[with(dd, order(-z, b)), ] ,
  dd[order(-dd$z, dd$b),],
  times=1000
  )

uq <- function(x) { fivenum(x)[4]}  
lq <- function(x) { fivenum(x)[2]}

y_min <- 0 # min(by(m$time,m$expr,lq))
y_max <- max(by(m$time,m$expr,uq)) * 1.05
  
p <- ggplot(m,aes(x=expr,y=time)) + coord_cartesian(ylim = c( y_min , y_max )) 
p + stat_summary(fun.y=median,fun.ymin = lq, fun.ymax = uq, aes(fill=expr))

（线从下四分位延伸到上四分位，点是中间值）

考虑到这些结果，并权衡了简单性与速度，我不得不同意在plyer包中进行安排。它有一个简单的语法，但它的速度几乎和基本的R命令一样快，而且具有复杂的机制。典型的杰出哈德利·威克姆作品。我唯一的不满是它打破了按排序（对象）调用排序对象的标准R命名法，但我理解哈德利之所以这样做，是因为上面所讨论的问题。

2011-07-29 10:48:00

如果SQL是自然生成的，sqldf包将按照Codd的意图处理ORDERBY。

2010-03-08 23:30:37

或者您可以使用包doBy

library(doBy)
dd <- orderBy(~-z+b, data=dd)

2010-01-19 20:44:38

按多列对数据帧行排序（排序）

推荐文章

最新文章

标签