标记数据错误

我试图使用熊猫操作.csv文件，但我得到这个错误:

pandas.parser.CParserError:标记数据错误。C错误:第3行有2个字段，见12

我试着读过熊猫的文件，但一无所获。

我的代码很简单:

path = 'GOOG Key Ratios.csv'
#print(open(path).read())
data = pd.read_csv(path)

我该如何解决这个问题?我应该使用csv模块还是其他语言?

文件来自晨星公司

当前回答

你可以这样做，以避免问题-

train = pd.read_csv('/home/Project/output.csv' , header=None)

just add - header=None

希望这能有所帮助!!

2018-08-19 06:59:39

其他回答

我也遇到过同样的问题。在同一个源文件上使用pd.read_table()似乎可以工作。我找不到原因，但对我的情况来说，这是一个有用的变通办法。也许有更博学的人能解释清楚为什么它能起作用。

编辑: 我发现，当文件中的某些文本与实际数据的格式不一致时，这个错误就会出现。这通常是页眉或页脚信息(大于一行，所以skip_header不起作用)，它们不会被与实际数据相同数量的逗号分隔(当使用read_csv时)。使用read_table使用制表符作为分隔符，可以避免用户当前错误，但引入其他错误。

我通常通过将额外的数据读入文件，然后使用read_csv()方法来解决这个问题。

具体的解决方案可能因您的实际文件而异，但这种方法在一些情况下对我来说是有效的

2014-06-30 11:46:21

我有一个类似的情况

train = pd.read_csv('input.csv' , encoding='latin1',engine='python')

工作

2018-11-20 02:08:07

解决方法简单:在excel中打开csv文件，并保存为csv格式的不同名称文件。再次尝试导入它spyder，你的问题将得到解决!

2019-09-07 01:53:53

在我的例子中，这是因为csv文件的第一行和最后两行格式与文件的中间内容不同。

因此，我所做的是将csv文件作为字符串打开，解析字符串的内容，然后使用read_csv获取数据帧。

import io
import pandas as pd

file = open(f'{file_path}/{file_name}', 'r')
content = file.read()

# change new line character from '\r\n' to '\n'
lines = content.replace('\r', '').split('\n')

# Remove the first and last 2 lines of the file
# StringIO can be considered as a file stored in memory
df = pd.read_csv(StringIO("\n".join(lines[2:-2])), header=None)

2019-11-27 01:13:44

据我所知，在查看了您的文件后，问题是您试图加载的csv文件有多个表。有空行，或者包含表标题的行。试着看看这个Stackoverflow的答案。它展示了如何以编程方式实现这一点。

另一种动态方法是使用csv模块，一次读取每一行，并进行健全检查/正则表达式，以推断该行是否为(title/header/values/blank)。使用这种方法还有一个优点，你可以根据需要在python对象中分割/追加/收集数据。

最简单的方法是在手动选择表格并将其复制到剪贴板后使用pandas函数pd.read_clipboard()，以防您可以在excel或其他工具中打开csv。

无关:

此外，与您的问题无关，但因为没有人提到这一点:我在从UCI加载一些数据集(如seeds_dataset.txt)时遇到了同样的问题。在我的例子中，发生错误是因为一些分隔符的空格比真正的制表符多。例如，请参见下面的第3行

14.38   14.21   0.8951  5.386   3.312   2.462   4.956   1
14.69   14.49   0.8799  5.563   3.259   3.586   5.219   1
14.11   14.1    0.8911  5.42    3.302   2.7     5       1

因此，在分隔符模式中使用\t+而不是\t。

data = pd.read_csv(path, sep='\t+`, header=None)

2019-11-03 09:35:50

标记数据错误

推荐文章

最新文章

标签