按多列对数据帧行排序（排序）

我想按多列对数据帧进行排序。例如，对于下面的数据帧，我希望按列“z”（降序）排序，然后按列“b”（升序）排序：

dd <- data.frame(b = factor(c("Hi", "Med", "Hi", "Low"), 
      levels = c("Low", "Med", "Hi"), ordered = TRUE),
      x = c("A", "D", "A", "C"), y = c(8, 3, 9, 9),
      z = c(1, 1, 1, 2))
dd
    b x y z
1  Hi A 8 1
2 Med D 3 1
3  Hi A 9 1
4 Low C 9 2

当前回答

就像很久以前的机械卡片分拣机一样，首先按最不重要的键排序，然后按下一个最重要的键进行排序。不需要库，可以使用任意数量的键以及任意组合的升序和降序键。

 dd <- dd[order(dd$b, decreasing = FALSE),]

现在我们准备好做最重要的关键。这一类是稳定的，最重要的密钥中的任何联系都已经解决。

dd <- dd[order(dd$z, decreasing = TRUE),]

这可能不是最快的，但它确实简单可靠

2015-01-15 04:28:25

其他回答

有了凯文·赖特（Kevin Wright）在R维基的提示部分发布的这个（非常有用的）功能，这很容易实现。

sort(dd,by = ~ -z + b)
#     b x y z
# 4 Low C 9 2
# 2 Med D 3 1
# 1  Hi A 8 1
# 3  Hi A 9 1

2009-08-18 21:37:22

德克的回答很好。它还强调了用于索引data.frames和data.tables的语法的一个关键区别：

## The data.frame way
dd[with(dd, order(-z, b)), ]

## The data.table way: (7 fewer characters, but that's not the important bit)
dd[order(-z, b)]

这两个调用之间的差异很小，但可能会产生重要的后果。特别是如果您编写生产代码和/或关注研究中的正确性，最好避免不必要的重复变量名。数据表帮助您做到这一点。

下面是一个重复变量名称可能会给您带来麻烦的示例：

让我们从Dirk的答案中改变上下文，并说这是一个更大项目的一部分，其中有很多对象名称，它们很长，很有意义；而不是dd，它被称为季度报告。它变成：

quarterlyreport[with(quarterlyreport,order(-z,b)),]

好的，好的。这没什么错。接下来，你的老板要求你在报告中包括上一季度的报告。你通过代码，在不同的地方添加一个对象最后一个季度报告，不知怎么的（到底是怎么回事？）你最终得到了这样的结果：

quarterlyreport[with(lastquarterlyreport,order(-z,b)),]

这不是你的意思，但你没有发现它，因为你做得很快，而且它位于一个类似代码的页面上。代码不会出错（没有警告和错误），因为R认为这就是你的意思。你希望无论谁读你的报告都能发现，但也许他们没有。如果您经常使用编程语言，那么这种情况可能非常熟悉。你会说这是个“错别字”。我会纠正你对老板说的“错别字”。

在data.table中，我们关注像这样的微小细节。因此，我们做了一些简单的操作，以避免两次键入变量名。非常简单的事情。我已经在dd的框架内自动评估了。你根本不需要with（）。

而不是

dd[with(dd, order(-z, b)), ]

只是

dd[order(-z, b)]

而不是

quarterlyreport[with(lastquarterlyreport,order(-z,b)),]

只是

quarterlyreport[order(-z,b)]

这是一个很小的区别，但也许有一天它会拯救你的脖子。在权衡这个问题的不同答案时，考虑将变量名称的重复次数作为决定的标准之一。有些答案有相当多的重复，其他答案没有。

2012-05-25 16:25:56

当我想自动化n列的排序过程时，我正在与上述解决方案作斗争，因为每一列的列名都可能不同。我从psych包中找到了一个非常有用的功能，可以直接实现这一点：

dfOrder(myDf, columnIndices)

其中columnIndex是一个或多个列的索引，按要对其排序的顺序排列。此处提供更多信息：

“psych”包中的dfOrder函数

2018-10-24 22:32:43

为了完整起见，由于没有太多关于按列编号排序的内容。。。可以肯定的是，这通常是不可取的（因为列的顺序可能会改变，为错误铺平道路），但在某些特定情况下（例如，当您需要快速完成工作，并且没有列改变顺序的风险），这可能是最明智的做法，尤其是在处理大量列时。

在这种情况下，do.call（）来拯救：

ind <- do.call(what = "order", args = iris[,c(5,1,2,3)])
iris[ind, ]

##        Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
##    14           4.3         3.0          1.1         0.1     setosa
##    9            4.4         2.9          1.4         0.2     setosa
##    39           4.4         3.0          1.3         0.2     setosa
##    43           4.4         3.2          1.3         0.2     setosa
##    42           4.5         2.3          1.3         0.3     setosa
##    4            4.6         3.1          1.5         0.2     setosa
##    48           4.6         3.2          1.4         0.2     setosa
##    7            4.6         3.4          1.4         0.3     setosa
##    (...)

2019-04-11 03:58:42

假设您有一个data.frame a，并且希望使用名为x降序的列对其进行排序。调用排序后的数据。frame newdata

newdata <- A[order(-A$x),]

如果需要升序，请将“-”替换为空。你可以吃类似的东西

newdata <- A[order(-A$x, A$y, -A$z),]

其中x和z是data.frame A中的一些列。这意味着按照x降序、y升序和z降序对data.frameA进行排序。

2011-01-25 13:10:21

按多列对数据帧行排序（排序）

推荐文章

最新文章

标签