如何找到统计模式?

在R中，mean()和median()是标准函数，它们执行您所期望的功能。Mode()告诉您对象的内部存储模式，而不是参数中出现次数最多的值。但是是否存在一个标准库函数来实现向量(或列表)的统计模式?

当前回答

对此有多种解决方案。我检查了第一个，然后写了我自己的。把它贴在这里，如果它能帮助到任何人:

Mode <- function(x){
  y <- data.frame(table(x))
  y[y$Freq == max(y$Freq),1]
}

让我们用几个例子来测试一下。我正在取虹膜数据集。让我们用数值数据进行测试

> Mode(iris$Sepal.Length)
[1] 5

你可以验证这是正确的。

现在虹膜数据集中唯一的非数字字段(Species)没有模式。让我们用我们自己的例子进行测试

> test <- c("red","red","green","blue","red")
> Mode(test)
[1] red

EDIT

正如注释中提到的，用户可能希望保留输入类型。在这种情况下，mode函数可以修改为:

Mode <- function(x){
  y <- data.frame(table(x))
  z <- y[y$Freq == max(y$Freq),1]
  as(as.character(z),class(x))
}

函数的最后一行只是将最终的模式值强制为原始输入的类型。

2018-04-24 12:43:15

其他回答

可以尝试以下功能:

将数值转换为因子使用summary()获取频率表返回模式为频率最大的索引转换因子回到数字，即使有超过1个模式，这个函数工作得很好!

mode <- function(x){
  y <- as.factor(x)
  freq <- summary(y)
  mode <- names(freq)[freq[names(freq)] == max(freq)]
  as.numeric(mode)
}

2014-04-05 07:36:49

假设你的观测值是来自实数的类，当你的观测值是2,2,3,3时，你期望模态为2.5，然后你可以用mode = l1 + I * (f1-f0) / (2f1 -f0 - f2)来估计模态，其中l1..最频繁类的下限，f1..最频繁类的频率，f0..在最频繁类之前的类的频率，f2..在最频繁类之后的类的频率，i..分类间隔，如在1,2,3中给出:

#Small Example
x <- c(2,2,3,3) #Observations
i <- 1          #Class interval

z <- hist(x, breaks = seq(min(x)-1.5*i, max(x)+1.5*i, i), plot=F) #Calculate frequency of classes
mf <- which.max(z$counts)   #index of most frequent class
zc <- z$counts
z$breaks[mf] + i * (zc[mf] - zc[mf-1]) / (2*zc[mf] - zc[mf-1] - zc[mf+1])  #gives you the mode of 2.5


#Larger Example
set.seed(0)
i <- 5          #Class interval
x <- round(rnorm(100,mean=100,sd=10)/i)*i #Observations

z <- hist(x, breaks = seq(min(x)-1.5*i, max(x)+1.5*i, i), plot=F)
mf <- which.max(z$counts)
zc <- z$counts
z$breaks[mf] + i * (zc[mf] - zc[mf-1]) / (2*zc[mf] - zc[mf-1] - zc[mf+1])  #gives you the mode of 99.5

如果你想要最频繁的级别，并且你有多个最频繁的级别，你可以得到所有的级别，例如:

x <- c(2,2,3,5,5)
names(which(max(table(x))==table(x)))
#"2" "5"

2019-03-26 11:46:23

在我看来，如果一个集合有一个模式，那么它的元素就可以与自然数一一对应。因此，查找模式的问题简化为生成这样一个映射，查找映射值的模式，然后映射回集合中的一些项。(处理NA发生在映射阶段)。

我有一个直方图函数，它的原理类似。(本文代码中使用的特殊函数和操作符应在Shapiro和/或neatOveRse中定义。在此复制夏皮罗和奈尔斯的部分是经过允许的;复制的片段可根据本网站的条款使用。)直方图的伪代码是

.histogram <- function (i)
        if (i %|% is.empty) integer() else
        vapply2(i %|% max %|% seqN, `==` %<=% i %O% sum)

histogram <- function(i) i %|% rmna %|% .histogram

(特殊的二进制操作符完成管道、咖喱和组合)我还有一个maxloc函数，它与which类似。Max，但返回一个向量的所有绝对最大值。maxloc的R伪代码是

FUNloc <- function (FUN, x, na.rm=F)
        which(x == list(identity, rmna)[[na.rm %|% index.b]](x) %|% FUN)

maxloc <- FUNloc %<=% max

minloc <- FUNloc %<=% min # I'M THROWING IN minloc TO EXPLAIN WHY I MADE FUNloc

Then

imode <- histogram %O% maxloc

and

x %|% map %|% imode %|% unmap

将计算任何集合的模式，只要定义了适当的映射-ping和取消映射-ping函数。

2019-10-30 23:47:06

还有一个解决方案，适用于数字和字符/因子数据:

Mode <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}

在我的小机器上，它可以在大约半秒内生成并找到一个10m整数向量的模式。

如果您的数据集可能有多种模式，上述解决方案采用与which相同的方法。Max，并返回模式集中第一个出现的值。要返回所有模式，使用这个变体(来自评论中的@digEmAll):

Modes <- function(x) {
  ux <- unique(x)
  tab <- tabulate(match(x, ux))
  ux[tab == max(tab)]
}

2011-11-18 21:33:10

效果很好

> a<-c(1,1,2,2,3,3,4,4,5)
> names(table(a))[table(a)==max(table(a))]

2014-02-07 04:16:37

如何找到统计模式?

推荐文章

最新文章

标签