标记数据错误

我试图使用熊猫操作.csv文件，但我得到这个错误:

pandas.parser.CParserError:标记数据错误。C错误:第3行有2个字段，见12

我试着读过熊猫的文件，但一无所获。

我的代码很简单:

path = 'GOOG Key Ratios.csv'
#print(open(path).read())
data = pd.read_csv(path)

我该如何解决这个问题?我应该使用csv模块还是其他语言?

文件来自晨星公司

当前回答

标记数据错误。C错误:第3行有2个字段，见12

这个错误给出了解决问题“Expected 2 fields in line 3, saw 12”的线索，saw 12表示第二行长度为12，第一行长度为2。

当您有如下所示的数据时，如果您跳过行，那么大部分数据将被跳过

data = """1,2,3
1,2,3,4
1,2,3,4,5
1,2
1,2,3,4"""

如果您不想跳过任何行，请执行以下操作

#First lets find the maximum column for all the rows
with open("file_name.csv", 'r') as temp_f:
    # get No of columns in each line
    col_count = [ len(l.split(",")) for l in temp_f.readlines() ]

### Generate column names  (names will be 0, 1, 2, ..., maximum columns - 1)
column_names = [i for i in range(max(col_count))] 

import pandas as pd
# inside range set the maximum value you can see in "Expected 4 fields in line 2, saw 8"
# here will be 8 
data = pd.read_csv("file_name.csv",header = None,names=column_names )

使用range而不是手动设置名称，因为当您有很多列时，这样做会很麻烦。

此外，如果需要使用均匀的数据长度，可以将NaN值填充为0。如。对于聚类(k-means)

new_data = data.fillna(0)

2020-02-16 09:58:45

其他回答

我自己也遇到过几次这样的问题。几乎每次，原因都是我试图打开的文件一开始就不是一个正确保存的CSV。这里的“适当”是指每一行都有相同数量的分隔符或列。

通常发生这种情况是因为我在Excel中打开了CSV，然后不恰当地保存了它。尽管文件扩展名仍然是. CSV，但纯CSV格式已经被改变了。

任何以pandas to_csv保存的文件都将被正确格式化，不应该有这个问题。但如果你用另一个程序打开它，它可能会改变结构。

希望这能有所帮助。

2016-07-07 17:22:00

我也遇到过同样的问题。在同一个源文件上使用pd.read_table()似乎可以工作。我找不到原因，但对我的情况来说，这是一个有用的变通办法。也许有更博学的人能解释清楚为什么它能起作用。

编辑: 我发现，当文件中的某些文本与实际数据的格式不一致时，这个错误就会出现。这通常是页眉或页脚信息(大于一行，所以skip_header不起作用)，它们不会被与实际数据相同数量的逗号分隔(当使用read_csv时)。使用read_table使用制表符作为分隔符，可以避免用户当前错误，但引入其他错误。

我通常通过将额外的数据读入文件，然后使用read_csv()方法来解决这个问题。

具体的解决方案可能因您的实际文件而异，但这种方法在一些情况下对我来说是有效的

2014-06-30 11:46:21

我有一个类似的情况

train = pd.read_csv('input.csv' , encoding='latin1',engine='python')

工作

2018-11-20 02:08:07

下面的命令序列工作(我丢失了数据的第一行-no header=None present-，但至少它加载):

Df = pd.read_csv(文件名， usecols =范围(0,42)) df。列=[‘年’,‘莫’,‘天’,“人力资源”,“分”,“秒”,“猎狗”, ' error '， ' rectype '， ' lane '， ' speed '， ' class '， ' length ' ' gvw ' ' esal ' ' w1 ' ' s1 ' ' w2 ' ' s2 ' ' w3 ' ' s3 ' ' w4 ' ' s4 ' ' w5 ' ' s5 ' ' w6 ' ' s6 ' ' w7 ' ' s7 ' ' w8 ' ' s8 ' ' w9 ' ' s9 ' ' w10 ' ' s10 ' ' w11 '， ' s11 '， ' w12 '， ' s12 '， ' w13 '， ' s13 '， ' w14 ']

以下不工作:

Df = pd.read_csv(文件名，名称=[‘年’,‘莫’,‘天’,“人力资源”,“分”,“秒”,“猎狗”, ' error '， ' rectype '， ' lane '， ' speed '， ' class '， ' length ' ' gvw ' ' esal ' ' w1 ' ' s1 ' ' w2 ' ' s2 ' ' w3 ' ' s3 ' ' w4 ' ' s4 ' ' w5 ' ' s5 ' ' w6 ' ' s6 ' ' w7 ' ' s7 ' ' w8 ' ' s8 ' ' w9 ' ' s9 ' ' w10 ' ' s10 ' ' w11 '， ' s11 '， ' w12 '， ' s12 '， ' w13 '， ' s13 '， ' w14 ']， usecols =范围(0,42))

CParserError:标记数据错误。C错误:在1605634行中预期有53个字段，看到54 以下不工作:

df = pd read_csv(文件) 标题=郎)

CParserError:标记数据错误。C错误:在1605634行中预期有53个字段，看到54

因此，在你的问题中，你必须传递usecols=range(0,2)

2018-05-23 11:45:25

你可以使用:

pd.read_csv("mycsv.csv", delimiter=";")

熊猫1.4.4

它可以是文件的分隔符，将其作为文本文件打开，查找分隔符。然后，您将拥有可以为空且未命名的列，因为行包含太多分隔符。

因此，您可以使用pandas来处理它们并检查值。对我来说，这比在我的情况下跳过台词要好。

2022-09-23 10:29:20

标记数据错误

推荐文章

最新文章

标签