如何找到统计模式?

在R中，mean()和median()是标准函数，它们执行您所期望的功能。Mode()告诉您对象的内部存储模式，而不是参数中出现次数最多的值。但是是否存在一个标准库函数来实现向量(或列表)的统计模式?

当前回答

估计来自连续单变量分布(例如正态分布)的数字向量的模式的一种快速而肮脏的方法是定义并使用以下函数:

estimate_mode <- function(x) {
  d <- density(x)
  d$x[which.max(d$y)]
}

然后得到模态估计:

x <- c(5.8, 5.6, 6.2, 4.1, 4.9, 2.4, 3.9, 1.8, 5.7, 3.2)
estimate_mode(x)
## 5.439788

2012-12-14 08:00:22

其他回答

可以尝试以下功能:

将数值转换为因子使用summary()获取频率表返回模式为频率最大的索引转换因子回到数字，即使有超过1个模式，这个函数工作得很好!

mode <- function(x){
  y <- as.factor(x)
  freq <- summary(y)
  mode <- names(freq)[freq[names(freq)] == max(freq)]
  as.numeric(mode)
}

2014-04-05 07:36:49

我发现Ken Williams上面的帖子很棒，我添加了几行来解释NA值，并使其成为一个函数。

Mode <- function(x, na.rm = FALSE) {
  if(na.rm){
    x = x[!is.na(x)]
  }

  ux <- unique(x)
  return(ux[which.max(tabulate(match(x, ux)))])
}

2014-09-03 03:21:55

对Ken Williams的回答做了一个小修改，增加了可选的params na。Rm和return_multiple。

与依赖names()的答案不同，此答案在返回值中维护x的数据类型。

stat_mode <- function(x, return_multiple = TRUE, na.rm = FALSE) {
  if(na.rm){
    x <- na.omit(x)
  }
  ux <- unique(x)
  freq <- tabulate(match(x, ux))
  mode_loc <- if(return_multiple) which(freq==max(freq)) else which.max(freq)
  return(ux[mode_loc])
}

要显示它与可选参数一起工作并维护数据类型:

foo <- c(2L, 2L, 3L, 4L, 4L, 5L, NA, NA)
bar <- c('mouse','mouse','dog','cat','cat','bird',NA,NA)

str(stat_mode(foo)) # int [1:3] 2 4 NA
str(stat_mode(bar)) # chr [1:3] "mouse" "cat" NA
str(stat_mode(bar, na.rm=T)) # chr [1:2] "mouse" "cat"
str(stat_mode(bar, return_mult=F, na.rm=T)) # chr "mouse"

感谢@Frank的简化。

2017-07-20 13:43:38

我还不能投票，但Rasmus Bååth的答案是我一直在寻找的。但是，我将稍微修改一下，允许将分布限制在0到1之间。

estimate_mode <- function(x,from=min(x), to=max(x)) {
  d <- density(x, from=from, to=to)
  d$x[which.max(d$y)]
}

我们知道你可能根本不想约束你的分布，那么设置from=-"BIG NUMBER"， to="BIG NUMBER"

2013-09-12 11:50:04

另一个可能的解决方案:

Mode <- function(x) {
    if (is.numeric(x)) {
        x_table <- table(x)
        return(as.numeric(names(x_table)[which.max(x_table)]))
    }
}

用法:

set.seed(100)
v <- sample(x = 1:100, size = 1000000, replace = TRUE)
system.time(Mode(v))

输出:

   user  system elapsed 
   0.32    0.00    0.31

2015-12-16 02:45:39

如何找到统计模式?

推荐文章

最新文章

标签