如何解析ISO 8601格式的日期？

我需要将RFC 3339字符串（如“2008-09-03T20:56:55.450686Z”）解析为Python的datetime类型。

我在Python标准库中找到了strptime，但它不是很方便。

最好的方法是什么？

当前回答

因为ISO 8601允许出现许多可选冒号和破折号的变体，基本上是CCYY MM DDThh:MM:ss[Z|（+|-）hh:MM]。如果你想使用strptime，你需要先去掉这些变体。目标是生成utc-datetime对象。如果您只需要一个适用于UTC的Z后缀的基本案例，如2016-06-29T19:36:29.3453Z：

datetime.datetime.strptime(timestamp.translate(None, ':-'), "%Y%m%dT%H%M%S.%fZ")

如果您想处理时区偏移，如2016-06-29T19:36:29.3453-0400或2008-09-03T20:56:55.450686+05:00，请使用以下命令。这些将把所有变体转换成没有变量分隔符的东西，如20080903T205635.450686+0500，使其更一致/更容易解析。

import re
# this regex removes all colons and all 
# dashes EXCEPT for the dash indicating + or - utc offset for the timezone
conformed_timestamp = re.sub(r"[:]|([-](?!((\d{2}[:]\d{2})|(\d{4}))$))", '', timestamp)
datetime.datetime.strptime(conformed_timestamp, "%Y%m%dT%H%M%S.%f%z" )

如果您的系统不支持%z strptime指令（您看到类似ValueError的内容：“z”是格式为“%Y%m%dT%H%m%S.%f%z”的错误指令），则需要手动从z（UTC）偏移时间。注意%z在python版本＜3的系统上可能不起作用，因为它依赖于c库支持，而c库支持随系统/python构建类型（例如Jython、Cython等）而变化。

import re
import datetime

# this regex removes all colons and all 
# dashes EXCEPT for the dash indicating + or - utc offset for the timezone
conformed_timestamp = re.sub(r"[:]|([-](?!((\d{2}[:]\d{2})|(\d{4}))$))", '', timestamp)

# split on the offset to remove it. use a capture group to keep the delimiter
split_timestamp = re.split(r"[+|-]",conformed_timestamp)
main_timestamp = split_timestamp[0]
if len(split_timestamp) == 3:
    sign = split_timestamp[1]
    offset = split_timestamp[2]
else:
    sign = None
    offset = None

# generate the datetime object without the offset at UTC time
output_datetime = datetime.datetime.strptime(main_timestamp +"Z", "%Y%m%dT%H%M%S.%fZ" )
if offset:
    # create timedelta based on offset
    offset_delta = datetime.timedelta(hours=int(sign+offset[:-2]), minutes=int(sign+offset[-2:]))
    # offset datetime with timedelta
    output_datetime = output_datetime + offset_delta

2016-06-28 19:54:18

其他回答

python dateutil中的等参函数

python dateutil包具有dateutil.parser.isose，不仅可以解析RFC 3339日期时间字符串（如问题中的字符串），还可以解析其他不符合RFC 3339的ISO 8601日期和时间字符串（例如没有UTC偏移量的字符串，或仅表示日期的字符串）。

>>> import dateutil.parser
>>> dateutil.parser.isoparse('2008-09-03T20:56:35.450686Z') # RFC 3339 format
datetime.datetime(2008, 9, 3, 20, 56, 35, 450686, tzinfo=tzutc())
>>> dateutil.parser.isoparse('2008-09-03T20:56:35.450686') # ISO 8601 extended format
datetime.datetime(2008, 9, 3, 20, 56, 35, 450686)
>>> dateutil.parser.isoparse('20080903T205635.450686') # ISO 8601 basic format
datetime.datetime(2008, 9, 3, 20, 56, 35, 450686)
>>> dateutil.parser.isoparse('20080903') # ISO 8601 basic format, date only
datetime.datetime(2008, 9, 3, 0, 0)

python dateutil包还具有dateutil.parser.parse。与isose相比，它可能不那么严格，但这两个函数都非常宽容，都会尝试解释传入的字符串。如果要消除任何误读的可能性，需要使用比这两个函式更严格的函数。

与Python 3.7+内置datetime.datetime.fromisoformat的比较

dateutil.parser.isorse是一个完整的ISO-8601格式解析器，但在Python≤3.10中，fromsoformat故意不是。在Python 3.11中，fromsoformat支持有效ISO 8601中的几乎所有字符串。请参阅isoformat的文档以了解此警告。（参见此答案）。

2013-03-05 15:44:16

你得到的确切错误是什么？它像下面这样吗？

>>> datetime.datetime.strptime("2008-08-12T12:20:30.656234Z", "%Y-%m-%dT%H:%M:%S.Z")
ValueError: time data did not match format:  data=2008-08-12T12:20:30.656234Z  fmt=%Y-%m-%dT%H:%M:%S.Z

如果是，您可以将输入字符串拆分为“.”，然后将微秒添加到获得的日期时间中。

试试看：

>>> def gt(dt_str):
        dt, _, us= dt_str.partition(".")
        dt= datetime.datetime.strptime(dt, "%Y-%m-%dT%H:%M:%S")
        us= int(us.rstrip("Z"), 10)
        return dt + datetime.timedelta(microseconds=us)

>>> gt("2008-08-12T12:20:30.656234Z")
datetime.datetime(2008, 8, 12, 12, 20, 30, 656234)

2008-09-24 15:19:27

import re
import datetime
s = "2008-09-03T20:56:35.450686Z"
d = datetime.datetime(*map(int, re.split(r'[^\d]', s)[:-1]))

2008-09-24 15:27:24

尝试iso8601模块；它正是这样做的。

python.org wiki上的WorkingWithTime页面上还提到了其他几个选项。

2008-09-24 15:38:17

如今，Arrow还可以作为第三方解决方案：

>>> import arrow
>>> date = arrow.get("2008-09-03T20:56:35.450686Z")
>>> date.datetime
datetime.datetime(2008, 9, 3, 20, 56, 35, 450686, tzinfo=tzutc())

2015-02-15 16:47:44

如何解析ISO 8601格式的日期？

推荐文章

最新文章

标签