如何将字符串的DataFrame列(dd/mm/yyyy格式)转换为datetime dtype?
当前回答
多个datetime列
如果希望将多个字符串列转换为datetime,则使用apply()会很有用。
df[['date1', 'date2']] = df[['date1', 'date2']].apply(pd.to_datetime)
您可以将参数作为kwargs传递给to_datetime。
df[['start_date', 'end_date']] = df[['start_date', 'end_date']].apply(pd.to_datetime, format="%m/%d/%Y")
使用format=加快速度
如果列包含时间组件,并且您知道datetime/time的格式,那么显式传递该格式将大大加快转换速度。但是,如果列只是日期,则几乎没有任何区别。在我的项目中,对于一个500万行的列,差异是巨大的:~2.5分钟vs 6分钟。
结果表明,显式指定格式大约快25倍。下面的运行时图显示了性能上的巨大差距,这取决于是否传递格式。
用于生成图的代码:
import perfplot
import random
mdYHM = range(1, 13), range(1, 29), range(2000, 2024), range(24), range(60)
perfplot.show(
kernels=[lambda x: pd.to_datetime(x), lambda x: pd.to_datetime(x, format='%m/%d/%Y %H:%M')],
labels=['pd.to_datetime(x)', "pd.to_datetime(x, format='%m/%d/%Y %H:%M')"],
n_range=[2**k for k in range(19)],
setup=lambda n: pd.Series([f"{m}/{d}/{Y} {H}:{M}"
for m,d,Y,H,M in zip(*[random.choices(e, k=n) for e in mdYHM])]),
equality_check=pd.Series.equals,
xlabel='len(df)'
)
其他回答
最简单的方法是使用to_datetime:
df['col'] = pd.to_datetime(df['col'])
它还为欧洲时报提供了一个日优先的参数(但注意这不是严格的)。
下面是它的实际情况:
In [11]: pd.to_datetime(pd.Series(['05/23/2005']))
Out[11]:
0 2005-05-23 00:00:00
dtype: datetime64[ns]
你可以传递一个特定的格式:
In [12]: pd.to_datetime(pd.Series(['05/23/2005']), format="%m/%d/%Y")
Out[12]:
0 2005-05-23
dtype: datetime64[ns]
试试这个解决方案:
将“2022-12-31 00:00:00”更改为“2022-12-31 00:00:01” 然后运行以下代码:pandas.to_datetime(pandas. to_datetime)系列([' 2022-12-31 00:00:01 '])) 输出:2022-12-31 00:00:01
如果日期列是'2017-01-01'格式的字符串 您可以使用pandas astype将其转换为datetime。
df['date'] = df['date'].astype('datetime64[ns]')
或者使用datetime64[D]如果你想要日精度而不是纳秒
print(type(df_launath['date'].iloc[0]))
收益率
<class 'pandas._libs.tslib.Timestamp'>
与使用pandas.to_datetime时相同
您可以尝试其他格式,然后'%Y-%m-%d',但至少这是可行的。
如果你想指定复杂的格式,你可以使用下面的方法:
df['date_col'] = pd.to_datetime(df['date_col'], format='%d/%m/%Y')
更多关于格式的细节:
Python 2 https://docs.python.org/2/library/datetime.html#strftime-strptime-behavior Python 3 https://docs.python.org/3.7/library/datetime.html#strftime-strptime-behavior
如果在日期中混合使用了多种格式,请不要忘记设置infer_datetime_format=True,以便简化工作。
df[数据]= pd。to_datetime (df[’date’],infer_datetime_format = True)
来源:pd.to_datetime
或者如果你想要一个定制的方法:
def autoconvert_datetime(value):
formats = ['%m/%d/%Y', '%m-%d-%y'] # formats to try
result_format = '%d-%m-%Y' # output format
for dt_format in formats:
try:
dt_obj = datetime.strptime(value, dt_format)
return dt_obj.strftime(result_format)
except Exception as e: # throws exception when format doesn't match
pass
return value # let it be if it doesn't match
df['date'] = df['date'].apply(autoconvert_datetime)
推荐文章
- python中的assertEquals和assertEqual
- 如何保持Python打印不添加换行符或空格?
- 为什么Python的无穷散列中有π的数字?
- Python 3.7数据类中的类继承
- 如何在PyTorch中初始化权重?
- 计数唯一的值在一列熊猫数据框架像在Qlik?
- 使用Pandas将列转换为行
- 从matplotlib中的颜色映射中获取单个颜色
- 将Pandas或Numpy Nan替换为None以用于MysqlDB
- 使用pandas对同一列进行多个聚合
- 使用Python解析HTML
- django MultiValueDictKeyError错误,我如何处理它
- 如何在for循环期间修改列表条目?
- 我如何在Django中创建一个鼻涕虫?
- 没有名为'django.core.urlresolvers'的模块