规范化数据框架的列

我有一个熊猫的数据框架，其中每一列都有不同的值范围。例如:

df:

A     B   C
1000  10  0.5
765   5   0.35
800   7   0.09

知道我如何规范化这个数据框架的列，其中每个值都在0到1之间吗?

我想要的输出是:

A     B    C
1     1    1
0.765 0.5  0.7
0.8   0.7  0.18(which is 0.09/0.5)

当前回答

你的问题实际上是一个作用于列的简单变换:

def f(s):
    return s/s.max()

frame.apply(f, axis=0)

或者更简洁:

   frame.apply(lambda x: x/x.max(), axis=0)

2014-10-17 09:57:03

其他回答

def normalize(x):
    try:
        x = x/np.linalg.norm(x,ord=1)
        return x
    except :
        raise
data = pd.DataFrame.apply(data,normalize)

根据pandas的文档，DataFrame结构可以对自身应用操作(函数)。

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

沿着数据帧的输入轴应用函数。传递给函数的对象是具有DataFrame的索引(轴=0)或列(轴=1)索引的Series对象。返回类型取决于传递的函数是否聚合，如果DataFrame为空则使用reduce参数。

您可以应用自定义函数来操作DataFrame。

2018-04-13 09:21:47

您可以创建要规范化的列的列表

column_names_to_normalize = ['A', 'E', 'G', 'sadasdsd', 'lol']
x = df[column_names_to_normalize].values
x_scaled = min_max_scaler.fit_transform(x)
df_temp = pd.DataFrame(x_scaled, columns=column_names_to_normalize, index = df.index)
df[column_names_to_normalize] = df_temp

你的Pandas数据帧现在只在你想要的列上被标准化了

然而，如果你想要相反的结果，选择一个你不想规范化的列列表，你可以简单地创建一个所有列的列表，并删除那些不需要的列

column_names_to_not_normalize = ['B', 'J', 'K']
column_names_to_normalize = [x for x in list(df) if x not in column_names_to_not_normalize ]

2018-09-29 21:34:28

你可以在一行中完成

DF_test = DF_test.sub(DF_test.mean(axis=0), axis=1)/DF_test.mean(axis=0)

它取每一列的平均值，然后从每一行中减去它(平均值)(特定列的平均值仅从该行中减去)，然后仅除以平均值。最后，我们得到的是规范化的数据集。

2019-04-12 06:13:35

注意这个答案，因为它只适用于范围为[0,n]的数据。这对任何范围的数据都不起作用。

简单就是美:

df["A"] = df["A"] / df["A"].max()
df["B"] = df["B"] / df["B"].max()
df["C"] = df["C"] / df["C"].max()

2018-02-06 20:03:31

df_normalized = df / df.max(axis=0)

2020-05-31 11:35:48

规范化数据框架的列

推荐文章

最新文章

标签