我有一个名为spam的数据集,其中包含58列和约3500行与垃圾邮件相关的数据。
我计划将来在这个数据集上运行一些线性回归,但我想事先做一些预处理,并将列标准化,使其具有零平均值和单位方差。
有人告诉我,最好的方法是用R,所以我想问,如何用R实现归一化?我已经正确加载了数据,我只是在寻找一些包或方法来执行这个任务。
我有一个名为spam的数据集,其中包含58列和约3500行与垃圾邮件相关的数据。
我计划将来在这个数据集上运行一些线性回归,但我想事先做一些预处理,并将列标准化,使其具有零平均值和单位方差。
有人告诉我,最好的方法是用R,所以我想问,如何用R实现归一化?我已经正确加载了数据,我只是在寻找一些包或方法来执行这个任务。
当前回答
缩放可以用于完整的数据帧和特定的列。 对于特定的列,可以使用以下代码:
trainingSet[, 3:7] = scale(trainingSet[, 3:7]) # For column 3 to 7
trainingSet[, 8] = scale(trainingSet[, 8]) # For column 8
全数据帧
trainingSet <- scale(trainingSet)
其他回答
在我碰巧发现这条线索之前,我也有同样的问题。我有用户依赖的列类型,所以我写了一个for循环遍历它们并获得所需的列。也许有更好的方法,但这个方法很好地解决了问题:
for(i in 1:length(colnames(df))) {
if(class(df[,i]) == "numeric" || class(df[,i]) == "integer") {
df[,i] <- as.vector(scale(df[,i])) }
}
作为。向量是一个必要的部分,因为scale做rownames x 1矩阵这通常不是你想要的在data。frame中。
@BBKim给出了最好的答案,但它可以做得更短。我很惊讶居然还没人想到。
<- data.frame(x = rnorm(10,30, .2), y = runif(10,3,5)) 应用(dat, 2, function(x) (x - mean(x)) / sd(x))
这是三年前的。不过,我还是觉得有必要补充以下几点:
最常见的归一化是z变换,其中减去平均值并除以变量的标准差。结果将是mean=0, sd=1。
为此,你不需要任何包装。
zVar <- (myVar - mean(myVar)) / sd(myVar)
就是这样。
缩放可以用于完整的数据帧和特定的列。 对于特定的列,可以使用以下代码:
trainingSet[, 3:7] = scale(trainingSet[, 3:7]) # For column 3 to 7
trainingSet[, 8] = scale(trainingSet[, 8]) # For column 8
全数据帧
trainingSet <- scale(trainingSet)
您还可以使用数据轻松地将数据规范化。clusterSim包中的归一化函数。它提供了不同的数据规范化方法。
data.Normalization (x,type="n0",normalization="column")
参数
x 向量,矩阵或数据集 类型 归一化类型: N0 -没有归一化
N1 -标准化((x-mean)/sd)
N2 -位置标准化((x-median)/mad)
N3 -单元化((x-mean)/range)
N3a -位置单元化(x-median /range)
N4 -最小值为零的单元化((x-min)/范围)
N5 -归一化范围<-1,1> ((x-mean)/max(abs(x-mean)))
N5a -位置归一化范围<-1,1> ((x-median)/max(abs(x-median)))
N6 -商变换(x/sd)
N6a -位置商变换(x/mad)
N7 -商变换(x/range)
N8 -商变换(x/max)
N9 -商数变换(x/mean)
N9a -位置商变换(x/median)
N10 -商变换(x/sum)
n11 -商变换(x/√(SSQ))
N12 -归一化((x-mean)/根号(sum((x-mean)^2))
N12a -位置归一化((x-median)/平方根(sum(x-median)^2))
N13 -归一化,中心点为0 ((x-midrange)/(range/2))
归一化 "列" -由变量归一化,"行" -由对象归一化