按多列对数据帧行排序（排序）

我想按多列对数据帧进行排序。例如，对于下面的数据帧，我希望按列“z”（降序）排序，然后按列“b”（升序）排序：

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
dd
    b x y z
1  Hi A 8 1
2 Med D 3 1
3  Hi A 9 1
4 Low C 9 2

当前回答

当我想自动化n列的排序过程时，我正在与上述解决方案作斗争，因为每一列的列名都可能不同。我从psych包中找到了一个非常有用的功能，可以直接实现这一点：

dfOrder(myDf, columnIndices)

其中columnIndex是一个或多个列的索引，按要对其排序的顺序排列。此处提供更多信息：

“psych”包中的dfOrder函数

2018-10-24 22:32:43

其他回答

R包data.table使用简单的语法（Matt在回答中很好地强调了这一点）提供了data.table的快速排序和内存高效排序。从那时起，已经有了很多改进，并且有了一个新的函数setorder（）。从v1.9.5+开始，setorder（）也适用于data.frames。

首先，我们将创建一个足够大的数据集，并对其他答案中提到的不同方法进行基准测试，然后列出data.table的特性。

数据：

require(plyr)
require(doBy)
require(data.table)
require(dplyr)
require(taRifx)

set.seed(45L)
dat = data.frame(b = as.factor(sample(c("Hi", "Med", "Low"), 1e8, TRUE)),
                 x = sample(c("A", "D", "C"), 1e8, TRUE),
                 y = sample(100, 1e8, TRUE),
                 z = sample(5, 1e8, TRUE), 
                 stringsAsFactors = FALSE)

基准：

报告的计时来自运行system.time（…）的这些函数，如下所示。时间列表如下（按最慢到最快的顺序）。

orderBy( ~ -z + b, data = dat)     ## doBy
plyr::arrange(dat, desc(z), b)     ## plyr
arrange(dat, desc(z), b)           ## dplyr
sort(dat, f = ~ -z + b)            ## taRifx
dat[with(dat, order(-z, b)), ]     ## base R

# convert to data.table, by reference
setDT(dat)

dat[order(-z, b)]                  ## data.table, base R like syntax
setorder(dat, -z, b)               ## data.table, using setorder()
                                   ## setorder() now also works with data.frames 

# R-session memory usage (BEFORE) = ~2GB (size of 'dat')
# ------------------------------------------------------------
# Package      function    Time (s)  Peak memory   Memory used
# ------------------------------------------------------------
# doBy          orderBy      409.7        6.7 GB        4.7 GB
# taRifx           sort      400.8        6.7 GB        4.7 GB
# plyr          arrange      318.8        5.6 GB        3.6 GB 
# base R          order      299.0        5.6 GB        3.6 GB
# dplyr         arrange       62.7        4.2 GB        2.2 GB
# ------------------------------------------------------------
# data.table      order        6.2        4.2 GB        2.2 GB
# data.table   setorder        4.5        2.4 GB        0.4 GB
# ------------------------------------------------------------

data.table的DT[order（…）]语法比其他最快的方法（dplyr）快约10倍，同时消耗与dplyr相同的内存量。data.table的setorder（）比其他最快的方法（dplyr）快了约14倍，只需要0.4GB的额外内存。dat现在按照我们要求的顺序（通过引用更新）。

数据表功能：

速度：

表的排序非常快，因为它实现了基数排序。语法DT[order（…）]在内部进行了优化，以使用data.table的快速排序。您可以继续使用熟悉的基本R语法，但可以加快处理速度（并且使用更少的内存）。

内存：

大多数时候，我们不需要重新排序后的原始data.frame或data.table。也就是说，我们通常将结果分配回同一个对象，例如：DF<-DF[订单（…）]问题是，这至少需要原始对象的两倍（2倍）内存。为了提高内存效率，data.table还提供了一个函数setorder（）。setorder（）通过引用（就地）重新排序data.tables，而无需创建任何其他副本。它只使用相当于一列大小的额外内存。

其他功能：

它支持整数、逻辑、数字、字符和偶数位64:：integer64类型。请注意，factor、Date、POSIXct等.类下面都是带有附加属性的整数/数字类型，因此也受支持。在基R中，我们不能使用字符向量上的-按该列降序排序。相反，我们必须使用-xtfrm（.）。然而，在data.table中，我们可以只做dat[order（-x）]或setorder（dat，-x）。

2015-03-29 15:52:00

或者您可以使用包doBy

library(doBy)
dd <- orderBy(~-z+b, data=dd)

2010-01-19 20:44:38

dfOrder(myDf, columnIndices)

其中columnIndex是一个或多个列的索引，按要对其排序的顺序排列。此处提供更多信息：

“psych”包中的dfOrder函数

2018-10-24 22:32:43

另一种选择是使用rgr包：

> library(rgr)
> gx.sort.df(dd, ~ -z+b)
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1

2018-05-01 10:18:19

为了完整起见，由于没有太多关于按列编号排序的内容。。。可以肯定的是，这通常是不可取的（因为列的顺序可能会改变，为错误铺平道路），但在某些特定情况下（例如，当您需要快速完成工作，并且没有列改变顺序的风险），这可能是最明智的做法，尤其是在处理大量列时。

在这种情况下，do.call（）来拯救：

ind <- do.call(what = "order", args = iris[,c(5,1,2,3)])
iris[ind, ]

##        Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
##    14           4.3         3.0          1.1         0.1     setosa
##    9            4.4         2.9          1.4         0.2     setosa
##    39           4.4         3.0          1.3         0.2     setosa
##    43           4.4         3.2          1.3         0.2     setosa
##    42           4.5         2.3          1.3         0.3     setosa
##    4            4.6         3.1          1.5         0.2     setosa
##    48           4.6         3.2          1.4         0.2     setosa
##    7            4.6         3.4          1.4         0.3     setosa
##    (...)

2019-04-11 03:58:42

按多列对数据帧行排序（排序）

推荐文章

最新文章

标签