我有一个名为spam的数据集,其中包含58列和约3500行与垃圾邮件相关的数据。

我计划将来在这个数据集上运行一些线性回归,但我想事先做一些预处理,并将列标准化,使其具有零平均值和单位方差。

有人告诉我,最好的方法是用R,所以我想问,如何用R实现归一化?我已经正确加载了数据,我只是在寻找一些包或方法来执行这个任务。


当前回答

dplyr包有两个函数可以做到这一点。

> require(dplyr)

要更改数据表的特定列,可以使用mutate_at()函数。要更改所有列,可以使用mutate_all。

下面是使用这些函数来标准化数据的简单示例。

改变特定的列:

dt = data.table(a = runif(3500), b = runif(3500), c = runif(3500))
dt = data.table(dt %>% mutate_at(vars("a", "c"), scale)) # can also index columns by number, e.g., vars(c(1,3))

> apply(dt, 2, mean)
            a             b             c 
 1.783137e-16  5.064855e-01 -5.245395e-17 

> apply(dt, 2, sd)
        a         b         c 
1.0000000 0.2906622 1.0000000 

改变所有列:

dt = data.table(a = runif(3500), b = runif(3500), c = runif(3500))
dt = data.table(dt %>% mutate_all(scale))

> apply(dt, 2, mean)
            a             b             c 
-1.728266e-16  9.291994e-17  1.683551e-16 

> apply(dt, 2, sd)
a b c 
1 1 1 

其他回答

@BBKim给出了最好的答案,但它可以做得更短。我很惊讶居然还没人想到。

<- data.frame(x = rnorm(10,30, .2), y = runif(10,3,5)) 应用(dat, 2, function(x) (x - mean(x)) / sd(x))

下面的代码可能是实现这一目标的最短方法。

dataframe <- apply(dataframe, 2, scale)

我假设你想要的是均值为0,标准差为1。如果你的数据在一个数据框架中,所有的列都是数值的,你可以简单地调用数据上的缩放函数来做你想做的事情。

dat <- data.frame(x = rnorm(10, 30, .2), y = runif(10, 3, 5))
scaled.dat <- scale(dat)

# check that we get mean of 0 and sd of 1
colMeans(scaled.dat)  # faster version of apply(scaled.dat, 2, mean)
apply(scaled.dat, 2, sd)

使用内置函数是有品位的。比如这只猫:

dplyr包有两个函数可以做到这一点。

> require(dplyr)

要更改数据表的特定列,可以使用mutate_at()函数。要更改所有列,可以使用mutate_all。

下面是使用这些函数来标准化数据的简单示例。

改变特定的列:

dt = data.table(a = runif(3500), b = runif(3500), c = runif(3500))
dt = data.table(dt %>% mutate_at(vars("a", "c"), scale)) # can also index columns by number, e.g., vars(c(1,3))

> apply(dt, 2, mean)
            a             b             c 
 1.783137e-16  5.064855e-01 -5.245395e-17 

> apply(dt, 2, sd)
        a         b         c 
1.0000000 0.2906622 1.0000000 

改变所有列:

dt = data.table(a = runif(3500), b = runif(3500), c = runif(3500))
dt = data.table(dt %>% mutate_all(scale))

> apply(dt, 2, mean)
            a             b             c 
-1.728266e-16  9.291994e-17  1.683551e-16 

> apply(dt, 2, sd)
a b c 
1 1 1 

您还可以使用数据轻松地将数据规范化。clusterSim包中的归一化函数。它提供了不同的数据规范化方法。

    data.Normalization (x,type="n0",normalization="column")

参数

x 向量,矩阵或数据集 类型 归一化类型: N0 -没有归一化

N1 -标准化((x-mean)/sd)

N2 -位置标准化((x-median)/mad)

N3 -单元化((x-mean)/range)

N3a -位置单元化(x-median /range)

N4 -最小值为零的单元化((x-min)/范围)

N5 -归一化范围<-1,1> ((x-mean)/max(abs(x-mean)))

N5a -位置归一化范围<-1,1> ((x-median)/max(abs(x-median)))

N6 -商变换(x/sd)

N6a -位置商变换(x/mad)

N7 -商变换(x/range)

N8 -商变换(x/max)

N9 -商数变换(x/mean)

N9a -位置商变换(x/median)

N10 -商变换(x/sum)

n11 -商变换(x/√(SSQ))

N12 -归一化((x-mean)/根号(sum((x-mean)^2))

N12a -位置归一化((x-median)/平方根(sum(x-median)^2))

N13 -归一化,中心点为0 ((x-midrange)/(range/2))

归一化 "列" -由变量归一化,"行" -由对象归一化