按多列对数据帧行排序（排序）

我想按多列对数据帧进行排序。例如，对于下面的数据帧，我希望按列“z”（降序）排序，然后按列“b”（升序）排序：

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
dd
    b x y z
1  Hi A 8 1
2 Med D 3 1
3  Hi A 9 1
4 Low C 9 2

当前回答

德克的回答很好。它还强调了用于索引data.frames和data.tables的语法的一个关键区别：

## The data.frame way
dd[with(dd, order(-z, b)), ]

## The data.table way: (7 fewer characters, but that's not the important bit)
dd[order(-z, b)]

这两个调用之间的差异很小，但可能会产生重要的后果。特别是如果您编写生产代码和/或关注研究中的正确性，最好避免不必要的重复变量名。数据表帮助您做到这一点。

下面是一个重复变量名称可能会给您带来麻烦的示例：

让我们从Dirk的答案中改变上下文，并说这是一个更大项目的一部分，其中有很多对象名称，它们很长，很有意义；而不是dd，它被称为季度报告。它变成：

quarterlyreport[with(quarterlyreport,order(-z,b)),]

好的，好的。这没什么错。接下来，你的老板要求你在报告中包括上一季度的报告。你通过代码，在不同的地方添加一个对象最后一个季度报告，不知怎么的（到底是怎么回事？）你最终得到了这样的结果：

quarterlyreport[with(lastquarterlyreport,order(-z,b)),]

这不是你的意思，但你没有发现它，因为你做得很快，而且它位于一个类似代码的页面上。代码不会出错（没有警告和错误），因为R认为这就是你的意思。你希望无论谁读你的报告都能发现，但也许他们没有。如果您经常使用编程语言，那么这种情况可能非常熟悉。你会说这是个“错别字”。我会纠正你对老板说的“错别字”。

在data.table中，我们关注像这样的微小细节。因此，我们做了一些简单的操作，以避免两次键入变量名。非常简单的事情。我已经在dd的框架内自动评估了。你根本不需要with（）。

而不是

dd[with(dd, order(-z, b)), ]

只是

dd[order(-z, b)]

而不是

quarterlyreport[with(lastquarterlyreport,order(-z,b)),]

只是

quarterlyreport[order(-z,b)]

这是一个很小的区别，但也许有一天它会拯救你的脖子。在权衡这个问题的不同答案时，考虑将变量名称的重复次数作为决定的标准之一。有些答案有相当多的重复，其他答案没有。

2012-05-25 16:25:56

其他回答

有了凯文·赖特（Kevin Wright）在R维基的提示部分发布的这个（非常有用的）功能，这很容易实现。

sort(dd,by = ~ -z + b)
#     b x y z
# 4 Low C 9 2
# 2 Med D 3 1
# 1  Hi A 8 1
# 3  Hi A 9 1

2009-08-18 21:37:22

针对OP中添加的关于如何以编程方式排序的注释：

使用dplyr和data.table

library(dplyr)
library(data.table)

dplyr公司

只需使用arrange_，这是arrange的标准评估版本。

df1 <- tbl_df(iris)
#using strings or formula
arrange_(df1, c('Petal.Length', 'Petal.Width'))
arrange_(df1, ~Petal.Length, ~Petal.Width)
    Source: local data frame [150 x 5]

   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
          (dbl)       (dbl)        (dbl)       (dbl)  (fctr)
1           4.6         3.6          1.0         0.2  setosa
2           4.3         3.0          1.1         0.1  setosa
3           5.8         4.0          1.2         0.2  setosa
4           5.0         3.2          1.2         0.2  setosa
5           4.7         3.2          1.3         0.2  setosa
6           5.4         3.9          1.3         0.4  setosa
7           5.5         3.5          1.3         0.2  setosa
8           4.4         3.0          1.3         0.2  setosa
9           5.0         3.5          1.3         0.3  setosa
10          4.5         2.3          1.3         0.3  setosa
..          ...         ...          ...         ...     ...


#Or using a variable
sortBy <- c('Petal.Length', 'Petal.Width')
arrange_(df1, .dots = sortBy)
    Source: local data frame [150 x 5]

   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
          (dbl)       (dbl)        (dbl)       (dbl)  (fctr)
1           4.6         3.6          1.0         0.2  setosa
2           4.3         3.0          1.1         0.1  setosa
3           5.8         4.0          1.2         0.2  setosa
4           5.0         3.2          1.2         0.2  setosa
5           4.7         3.2          1.3         0.2  setosa
6           5.5         3.5          1.3         0.2  setosa
7           4.4         3.0          1.3         0.2  setosa
8           4.4         3.2          1.3         0.2  setosa
9           5.0         3.5          1.3         0.3  setosa
10          4.5         2.3          1.3         0.3  setosa
..          ...         ...          ...         ...     ...

#Doing the same operation except sorting Petal.Length in descending order
sortByDesc <- c('desc(Petal.Length)', 'Petal.Width')
arrange_(df1, .dots = sortByDesc)

更多信息请点击此处：https://cran.r-project.org/web/packages/dplyr/vignettes/nse.html

最好使用公式，因为它还可以捕获环境来计算表达式

数据表

dt1 <- data.table(iris) #not really required, as you can work directly on your data.frame
sortBy <- c('Petal.Length', 'Petal.Width')
sortType <- c(-1, 1)
setorderv(dt1, sortBy, sortType)
dt1
     Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
  1:          7.7         2.6          6.9         2.3 virginica
  2:          7.7         2.8          6.7         2.0 virginica
  3:          7.7         3.8          6.7         2.2 virginica
  4:          7.6         3.0          6.6         2.1 virginica
  5:          7.9         3.8          6.4         2.0 virginica
 ---                                                            
146:          5.4         3.9          1.3         0.4    setosa
147:          5.8         4.0          1.2         0.2    setosa
148:          5.0         3.2          1.2         0.2    setosa
149:          4.3         3.0          1.1         0.1    setosa
150:          4.6         3.6          1.0         0.2    setosa

2016-02-05 21:11:52

另一种选择是使用rgr包：

> library(rgr)
> gx.sort.df(dd, ~ -z+b)
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1

2018-05-01 10:18:19

您可以直接使用order（）函数，而无需使用附加工具——请参阅这个更简单的答案，它使用了示例（order）代码顶部的技巧：

R> dd[with(dd, order(-z, b)), ]
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1

两年多后编辑：只是被问到如何按列索引进行编辑。答案是简单地将所需的排序列传递给order（）函数：

R> dd[order(-dd[,4], dd[,1]), ]
    b x y z
4 Low C 9 2
2 Med D 3 1
1  Hi A 8 1
3  Hi A 9 1
R>

而不是使用列的名称（使用with（）可以更方便/更直接地访问）。

2009-08-18 21:51:22

Dirk的回答很好，但如果您需要排序来持久化，您需要将排序应用回数据帧的名称。使用示例代码：

dd <- dd[with(dd, order(-z, b)), ]

2011-05-26 15:08:39

按多列对数据帧行排序（排序）

推荐文章

最新文章

标签