scikit-learn中跨多列的标签编码

我试图使用scikit-learn的LabelEncoder来编码字符串标签的pandas DataFrame。由于数据帧有许多(50+)列，我想避免为每一列创建一个LabelEncoder对象;我宁愿只有一个大的LabelEncoder对象，它可以跨所有数据列工作。

将整个DataFrame扔到LabelEncoder中会产生以下错误。请记住，我在这里使用的是虚拟数据;实际上，我正在处理大约50列的字符串标记数据，所以需要一个解决方案，不引用任何列的名称。

import pandas
from sklearn import preprocessing 

df = pandas.DataFrame({
    'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 
    'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 
    'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 
                 'New_York']
})

le = preprocessing.LabelEncoder()

le.fit(df)

回溯(最近一次调用): 文件“”，第1行，在文件"/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/预处理/label.py"，第103行 y = column_or_1d(y, warn=True) 文件"/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py"，第306行，在column_or_1d中 raise ValueError("错误的输入形状{0}".format(形状)) ValueError:错误的输入形状(6,3)

对于如何解决这个问题有什么想法吗?

当前回答

这并没有直接回答你的问题(Naputipulu Jon和PriceHardman对此有精彩的回答)

但是，对于一些分类任务等，您可以使用

pandas.get_dummies(input_df)

这可以输入带有分类数据的数据框架，并返回带有二进制值的数据框架。变量值被编码到结果数据框架中的列名中。更多的

2016-06-24 12:26:42

其他回答

假设你只是想获得一个sklearn.预处理. labelencoder()对象，可以用来表示你的列，你所要做的就是:

le.fit(df.columns)

在上面的代码中，每一列都有一个唯一的数字。更精确地说，你将得到df的1:1映射。列到le.transform(df.columns.get_values())。要获得列的编码，只需将其传递给le.transform(…)。作为一个例子，下面将得到每一列的编码:

le.transform(df.columns.get_values())

假设你想为你所有的行标签创建一个sklearn.预处理. labelencoder()对象，你可以这样做:

le.fit([y for x in df.get_values() for y in x])

在本例中，您很可能拥有非唯一的行标签(如您的问题所示)。要查看编码器创建了哪些类，可以执行le.classes_。你会注意到，这应该具有与set中相同的元素(y for x in df.get_values() for y in x)。再次使用le.transform(…)将行标签转换为编码标签。例如，如果您想检索df. xml文件中第一列的标签。列数组和第一行，你可以这样做:

le.transform([df.get_value(0, df.columns[0])])

你在评论中提出的问题有点复杂，但仍然可以完成:

le.fit([str(z) for z in set((x[0], y) for x in df.iteritems() for y in x[1])])

上面的代码实现了以下功能:

使所有(列，行)对的唯一组合将每个对表示为元组的字符串版本。这是克服LabelEncoder类不支持元组作为类名的一种变通方法。将新项目贴合到LabelEncoder。

现在要使用这个新模型就有点复杂了。假设我们想要提取在前一个例子中查找的同一项的表示(df中的第一列)。列和第一行)，我们可以这样做:

le.transform([str((df.columns[0], df.get_value(0, df.columns[0])))])

记住，现在每个查找都是一个元组的字符串表示包含(列、行)。

2015-03-11 04:43:58

如果我们有单列来做标签编码和它的逆变换，当python中有多列时，很容易做到这一点

def stringtocategory(dataset):
    '''
    @author puja.sharma
    @see The function label encodes the object type columns and gives label      encoded and inverse tranform of the label encoded data
    @param dataset dataframe on whoes column the label encoding has to be done
    @return label encoded and inverse tranform of the label encoded data.
   ''' 
   data_original = dataset[:]
   data_tranformed = dataset[:]
   for y in dataset.columns:
       #check the dtype of the column object type contains strings or chars
       if (dataset[y].dtype == object):
          print("The string type features are  : " + y)
          le = preprocessing.LabelEncoder()
          le.fit(dataset[y].unique())
          #label encoded data
          data_tranformed[y] = le.transform(dataset[y])
          #inverse label transform  data
          data_original[y] = le.inverse_transform(data_tranformed[y])
   return data_tranformed,data_original

2017-05-05 05:27:30

import pandas as pd
from sklearn.preprocessing import LabelEncoder

train=pd.read_csv('.../train.csv')

#X=train.loc[:,['waterpoint_type_group','status','waterpoint_type','source_class']].values
# Create a label encoder object 
def MultiLabelEncoder(columnlist,dataframe):
    for i in columnlist:

        labelencoder_X=LabelEncoder()
        dataframe[i]=labelencoder_X.fit_transform(dataframe[i])
columnlist=['waterpoint_type_group','status','waterpoint_type','source_class','source_type']
MultiLabelEncoder(columnlist,train)

在这里，我正在从位置读取一个csv，在函数中，我正在传递列列表，我想要labelencode和dataframe，我想应用这个。

2019-01-23 19:22:30

如果你在数据框架中有数值和类别两种类型的数据你可以使用:这里X是我的数据框架，有分类变量和数值变量

from sklearn import preprocessing
le = preprocessing.LabelEncoder()

for i in range(0,X.shape[1]):
    if X.dtypes[i]=='object':
        X[X.columns[i]] = le.fit_transform(X[X.columns[i]])

注意:如果你对转换它们不感兴趣，这个技巧是很好的。

2018-05-14 20:29:36

问题是传递给fit函数的数据(pd dataframe)的形状。你必须通过1d列表。

2018-09-03 20:29:28

scikit-learn中跨多列的标签编码

推荐文章

最新文章

标签