根据日期过滤Pandas数据框架

我有一个熊猫DataFrame与“日期”列。现在我需要过滤掉DataFrame中日期在未来两个月之外的所有行。实际上，我只需要保留接下来两个月内的行。

实现这一目标的最佳方式是什么?

当前回答

根据我的经验，前面的答案是不正确的，你不能传递一个简单的字符串，需要一个datetime对象。所以:

import datetime 
df.loc[datetime.date(year=2014,month=1,day=1):datetime.date(year=2014,month=2,day=1)]

2016-02-04 14:29:12

其他回答

如果您的datetime列具有Pandas datetime类型(例如datetime64[ns])，为了进行适当的过滤，您需要pd。时间戳对象，例如:

from datetime import date

import pandas as pd

value_to_check = pd.Timestamp(date.today().year, 1, 1)
filter_mask = df['date_column'] < value_to_check
filtered_df = df[filter_mask]

2018-06-18 00:38:24

在pandas版本1.1.3中，我遇到了基于python datetime的索引降序排列的情况。在这种情况下

df.loc['2021-08-01':'2021-08-31']

返回空的。而

df.loc['2021-08-31':'2021-08-01']

返回预期的数据。

2021-10-12 02:38:45

如果你想使用.query()方法，这是另一种解决方案。

它允许你使用编写可读的代码，如.query(f"{start} < MyDate < {end}")的权衡，.query()解析字符串，列值必须是熊猫日期格式(这样。query()也可以理解)

df = pd.DataFrame({
     'MyValue': [1,2,3],
     'MyDate': pd.to_datetime(['2021-01-01','2021-01-02','2021-01-03'])
})
start = datetime.date(2021,1,1).strftime('%Y%m%d')
end = datetime.date(2021,1,3).strftime('%Y%m%d')
df.query(f"{start} < MyDate < {end}")

(下面是@Phillip Cloud的评论，@Retozi的回答)

2021-08-03 13:04:56

如果date列是索引，则使用.loc进行基于标签的索引，或使用.iloc进行位置索引。

例如:

df.loc['2014-01-01':'2014-02-01']

详情见这里http://pandas.pydata.org/pandas-docs/stable/dsintro.html#indexing-selection

如果列不是索引，你有两个选择:

将其作为索引(如果是时间序列数据，可以是临时索引，也可以是永久索引) df [(df(“日期”)> 2013-01-01)& (df(“日期”)< ' 2013-02-01 '))

请看这里的一般解释

注意:.ix已弃用。

2014-04-06 19:32:50

根据我的经验，前面的答案是不正确的，你不能传递一个简单的字符串，需要一个datetime对象。所以:

import datetime 
df.loc[datetime.date(year=2014,month=1,day=1):datetime.date(year=2014,month=2,day=1)]

2016-02-04 14:29:12

根据日期过滤Pandas数据框架

推荐文章

最新文章

标签