我试图替换一个数据框架的一列的值。列('female')只包含值'female'和'male'。

我尝试过以下方法:

w['female']['female']='1'
w['female']['male']='0' 

但收到的是与之前结果完全相同的副本。

理想情况下,我希望得到类似于以下循环元素的输出。

if w['female'] =='female':
    w['female'] = '1';
else:
    w['female'] = '0';

我已经查看了gotchas文档(http://pandas.pydata.org/pandas-docs/stable/gotchas.html),但不明白为什么什么都没有发生。

任何帮助都将不胜感激。


当前回答

这也可以工作:

w.female[w.female == 'female'] = 1 
w.female[w.female == 'male']   = 0

其他回答

我认为,在答案应该指出哪种类型的对象,你得到的所有方法上面建议:它是系列或数据帧。

当你看到w。female的专栏。或者w[[2]](其中,假设2是你的列的数字),你会得到DataFrame。 在这种情况下,你可以使用DataFrame方法,比如。replace。

当你使用。loc或iloc时,你会返回Series,而Series没有。replace方法,所以你应该使用apply, map等方法。

pandas中还有一个叫做factorize的函数,您可以使用它自动完成这类工作。它将标签转换为数字:['male', 'female', 'male'] ->[0,1,0]。更多信息请看这个答案。

这也可以工作:

w.female[w.female == 'female'] = 1 
w.female[w.female == 'male']   = 0
dic = {'female':1, 'male':0}
w['female'] = w['female'].replace(dic)

.replace有一个字典作为参数,在这个字典中你可以做任何你想要或需要的事情。

如果你只有两个类,你可以使用相等运算符。例如:

df = pd.DataFrame({'col1':['a', 'a', 'a', 'b']})

df['col1'].eq('a').astype(int)
# (df['col1'] == 'a').astype(int)

输出:

0    1
1    1
2    1
3    0
Name: col1, dtype: int64