我有一个熊猫DataFrame与“日期”列。现在我需要过滤掉DataFrame中日期在未来两个月之外的所有行。实际上,我只需要保留接下来两个月内的行。
实现这一目标的最佳方式是什么?
我有一个熊猫DataFrame与“日期”列。现在我需要过滤掉DataFrame中日期在未来两个月之外的所有行。实际上,我只需要保留接下来两个月内的行。
实现这一目标的最佳方式是什么?
当前回答
在pandas版本1.1.3中,我遇到了基于python datetime的索引降序排列的情况。在这种情况下
df.loc['2021-08-01':'2021-08-31']
返回空的。而
df.loc['2021-08-31':'2021-08-01']
返回预期的数据。
其他回答
如果你想使用.query()方法,这是另一种解决方案。
它允许你使用编写可读的代码,如.query(f"{start} < MyDate < {end}")的权衡,.query()解析字符串,列值必须是熊猫日期格式(这样。query()也可以理解)
df = pd.DataFrame({
'MyValue': [1,2,3],
'MyDate': pd.to_datetime(['2021-01-01','2021-01-02','2021-01-03'])
})
start = datetime.date(2021,1,1).strftime('%Y%m%d')
end = datetime.date(2021,1,3).strftime('%Y%m%d')
df.query(f"{start} < MyDate < {end}")
(下面是@Phillip Cloud的评论,@Retozi的回答)
用pyjanitor怎么样
它有很酷的功能。
pip后安装pyjanitor
import janitor
df_filtered = df.filter_date(your_date_column_name, start_date, end_date)
如果你的日期是通过导入datetime包来标准化的,你可以简单地使用:
df[(df['date']>datetime.date(2016,1,1)) & (df['date']<datetime.date(2016,3,1))]
使用datetime包来标准化你的日期字符串,你可以使用这个函数:
import datetime
datetime.datetime.strptime
按日期过滤数据帧的最短方法: 假设你的日期列的类型是datetime64[ns]
# filter by single day
df_filtered = df[df['date'].dt.strftime('%Y-%m-%d') == '2014-01-01']
# filter by single month
df_filtered = df[df['date'].dt.strftime('%Y-%m') == '2014-01']
# filter by single year
df_filtered = df[df['date'].dt.strftime('%Y') == '2014']
在pandas版本1.1.3中,我遇到了基于python datetime的索引降序排列的情况。在这种情况下
df.loc['2021-08-01':'2021-08-31']
返回空的。而
df.loc['2021-08-31':'2021-08-01']
返回预期的数据。