标记数据错误

我试图使用熊猫操作.csv文件，但我得到这个错误:

pandas.parser.CParserError:标记数据错误。C错误:第3行有2个字段，见12

我试着读过熊猫的文件，但一无所获。

我的代码很简单:

path = 'GOOG Key Ratios.csv'
#print(open(path).read())
data = pd.read_csv(path)

我该如何解决这个问题?我应该使用csv模块还是其他语言?

文件来自晨星公司

当前回答

在我的例子中，分隔符不是默认的“，”，而是Tab。

pd.read_csv(file_name.csv, sep='\\t',lineterminator='\\r', engine='python', header='infer')

注意:“\t”并不像某些来源所建议的那样有效。“\\t”是必需的。

其他回答

我自己也遇到过几次这样的问题。几乎每次，原因都是我试图打开的文件一开始就不是一个正确保存的CSV。这里的“适当”是指每一行都有相同数量的分隔符或列。

通常发生这种情况是因为我在Excel中打开了CSV，然后不恰当地保存了它。尽管文件扩展名仍然是. CSV，但纯CSV格式已经被改变了。

任何以pandas to_csv保存的文件都将被正确格式化，不应该有这个问题。但如果你用另一个程序打开它，它可能会改变结构。

希望这能有所帮助。

以下是对我有用的(我张贴了这个答案，因为我在谷歌协作笔记本中特别遇到了这个问题):

df = pd.read_csv("/path/foo.csv", delimiter=';', skiprows=0, low_memory=False)

我遇到过这样的错误，一个丢失的引号。我使用映射软件，当导出以逗号分隔的文件时，它会在文本项周围加上引号。使用引号的文本(例如:' =英尺和' =英寸)可能会导致分隔符冲突。考虑下面这个例子，5英寸的测井曲线打印很差:

UWI_key,经度,纬度,备注 US42051316890000, 30.4386484, -96.4330734,“可怜的5””

用5英寸作为5英寸的简写，最终会给工作带来麻烦。Excel会简单地去掉额外的引号，但是Pandas没有上面提到的error_bad_lines=False参数就会失效。

我从同事那里收到了.csv文件，当我试图使用pd.read_csv()读取csv文件时，我收到了类似的错误。显然，它试图使用第一行来为数据框架生成列，但许多行包含的列比第一行所暗示的要多。我最终通过简单地打开文件并重新保存为.csv并再次使用pd.read_csv()来解决这个问题。

解析器被文件头弄糊涂了。它读取第一行并从该行推断列数。但是前两行并不能代表文件中的实际数据。

用data = pd试试。read_csv(路径,skiprows = 2)

推荐文章