我很好奇为什么df[2]不被支持,而df。Ix[2]和df[2:3]都可以工作。
In [26]: df.ix[2]
Out[26]:
A 1.027680
B 1.514210
C -1.466963
D -0.162339
Name: 2000-01-03 00:00:00
In [27]: df[2:3]
Out[27]:
A B C D
2000-01-03 1.02768 1.51421 -1.466963 -0.162339
我希望df[2]与df[2:3]的工作方式相同,与Python索引约定一致。是否有设计原因不支持按单个整数索引行?
@HYRY,详见0.11的新文档
http://pandas.pydata.org/pandas-docs/stable/indexing.html
这里我们有了新的操作符,.iloc到显式只支持整数索引,.loc到显式只支持标签索引
例如,想象一下这个场景
In [1]: df = pd.DataFrame(np.random.rand(5,2),index=range(0,10,2),columns=list('AB'))
In [2]: df
Out[2]:
A B
0 1.068932 -0.794307
2 -0.470056 1.192211
4 -0.284561 0.756029
6 1.037563 -0.267820
8 -0.538478 -0.800654
In [5]: df.iloc[[2]]
Out[5]:
A B
4 -0.284561 0.756029
In [6]: df.loc[[2]]
Out[6]:
A B
2 -0.470056 1.192211
[]只对行进行切片(根据标签位置)
DataFrame索引操作符[]的主要目的是选择列。
当向索引操作符传递一个字符串或整数时,它将尝试查找具有该特定名称的列,并将其作为Series返回。
因此,在上面的问题中:df[2]搜索与整数值2匹配的列名。此列不存在并引发KeyError。
当使用切片表示法时,DataFrame索引操作符完全改变了选择行的行为
奇怪的是,当给定一个片时,DataFrame索引操作符可以通过整数位置或索引标签来选择行。
df[2:3]
这将从整数位置为2到3的行开始切片,不包括最后一个元素。所以,只有一行。下面每隔第三行选择从整数位置6开始到但不包括20的行。
df[6:20:3]
如果你的DataFrame索引中有字符串,你也可以使用由字符串标签组成的切片。有关更多详细信息,请参阅.iloc vs .loc的解决方案。
我几乎从不使用这个切片符号和索引操作符,因为它不是显式的,几乎没有使用过。当按行切片时,坚持使用.loc/.iloc。