标记数据错误

我试图使用熊猫操作.csv文件，但我得到这个错误:

pandas.parser.CParserError:标记数据错误。C错误:第3行有2个字段，见12

我试着读过熊猫的文件，但一无所获。

我的代码很简单:

path = 'GOOG Key Ratios.csv'
#print(open(path).read())
data = pd.read_csv(path)

我该如何解决这个问题?我应该使用csv模块还是其他语言?

文件来自晨星公司

当前回答

这看起来很丑，但你会有你的数据框架

import re
path = 'GOOG Key Ratios.csv'

try:
    data = pd.read_csv(path)
except Exception as e:
    val = re.findall('tokenizing.{1,100}\s*Expected\s*(\d{1,2})\s*',str(e),re.I)
    data = pd.read_csv(path, skiprows=int(val[0])-1)

2021-08-26 20:17:07

其他回答

我有一个已有行号的数据集，我使用index_col:

pd.read_csv('train.csv', index_col=0)

2017-06-20 05:28:30

这肯定是分隔符的问题，因为大多数csv csv都是使用sep='/t'创建的，所以尝试使用分隔符/t的制表符(\t)来读取csv。所以，尝试使用下面的代码行打开。

data=pd.read_csv("File_path", sep='\t')

2015-04-01 05:42:48

问题可能与文件问题，在我的情况下，问题在重命名文件后得到解决。还没弄清楚原因。

2018-10-28 12:46:45

标记数据错误。C错误:第3行有2个字段，见12

这个错误给出了解决问题“Expected 2 fields in line 3, saw 12”的线索，saw 12表示第二行长度为12，第一行长度为2。

当您有如下所示的数据时，如果您跳过行，那么大部分数据将被跳过

data = """1,2,3
1,2,3,4
1,2,3,4,5
1,2
1,2,3,4"""

如果您不想跳过任何行，请执行以下操作

#First lets find the maximum column for all the rows
with open("file_name.csv", 'r') as temp_f:
    # get No of columns in each line
    col_count = [ len(l.split(",")) for l in temp_f.readlines() ]

### Generate column names  (names will be 0, 1, 2, ..., maximum columns - 1)
column_names = [i for i in range(max(col_count))] 

import pandas as pd
# inside range set the maximum value you can see in "Expected 4 fields in line 2, saw 8"
# here will be 8 
data = pd.read_csv("file_name.csv",header = None,names=column_names )

使用range而不是手动设置名称，因为当您有很多列时，这样做会很麻烦。

此外，如果需要使用均匀的数据长度，可以将NaN值填充为0。如。对于聚类(k-means)

new_data = data.fillna(0)

2020-02-16 09:58:45

解析器被文件头弄糊涂了。它读取第一行并从该行推断列数。但是前两行并不能代表文件中的实际数据。

用data = pd试试。read_csv(路径,skiprows = 2)

2013-08-04 02:24:35

标记数据错误

推荐文章

最新文章

标签