今天,我非常惊讶地发现,当从数据文件读取数据时(例如),熊猫能够识别值的类型:

df = pandas.read_csv('test.dat', delimiter=r"\s+", names=['col1','col2','col3'])

例如,可以这样检查:

for i, r in df.iterrows():
    print type(r['col1']), type(r['col2']), type(r['col3'])

特别是整数、浮点数和字符串被正确识别。但是,我有一列的日期格式如下:2013-6-4。这些日期被识别为字符串(而不是python date-objects)。


当前回答

是的——根据熊猫的说法。read_csv文档:

注意:对于iso8601格式的日期存在快速路径。

因此,如果您的csv有一个名为datetime的列,日期看起来像2013-01-01T01:01,例如,运行这个将使pandas(我在v0.19.2)自动获取日期和时间:

Df = pd.read_csv('test.csv', parse_dates=['datetime'])

请注意,您需要显式地传递parse_dates,否则它无法工作。

验证:

df.dtypes

您应该看到该列的数据类型是datetime64[ns]

其他回答

是的,这段代码工作起来很轻松。这里索引0指的是日期列的索引。

df = pd.read_csv(filepath, parse_dates=[0], infer_datetime_format = True)

不,在pandas中没有办法自动识别日期列。

Pandas在类型推断方面做得很差。它基本上把大多数列作为泛型对象类型,除非你手动绕过它。使用上面提到的parse_dates参数。

如果您想自动检测列类型,则必须使用单独的数据分析工具,例如。然后将推断的类型转换或反馈回DataFrame构造函数(例如。对于dates和from_csv,使用parse_dates参数)。

加载csv文件时包含日期列。我们有两种方法来制作熊猫 识别日期列,即

熊猫显式识别格式通过arg date_parser=mydateparser Pandas隐式识别agr infer_datetime_format=True的格式

一些日期列数据

01/01/18

01/02/18

这里我们不知道前两件事,可能是月,也可能是日。在这种情况下,我们要用 方法1: 显式传递格式

    mydateparser = lambda x: pd.datetime.strptime(x, "%m/%d/%y")
    df = pd.read_csv(file_name, parse_dates=['date_col_name'],
date_parser=mydateparser)

方法2:—隐式或自动识别格式

df = pd.read_csv(file_name, parse_dates=[date_col_name],infer_datetime_format=True)

你可以使用参数date_parser和一个函数来将一个字符串列序列转换为一个datetime实例数组:

parser = lambda x: pd.to_datetime(x, format='%Y-%m-%d %H:%M:%S')
pd.read_csv('path', date_parser=parser, parse_dates=['date_col1', 'date_col2'])

是的——根据熊猫的说法。read_csv文档:

注意:对于iso8601格式的日期存在快速路径。

因此,如果您的csv有一个名为datetime的列,日期看起来像2013-01-01T01:01,例如,运行这个将使pandas(我在v0.19.2)自动获取日期和时间:

Df = pd.read_csv('test.csv', parse_dates=['datetime'])

请注意,您需要显式地传递parse_dates,否则它无法工作。

验证:

df.dtypes

您应该看到该列的数据类型是datetime64[ns]