处理CSV文件中的逗号

我正在寻找关于如何处理正在创建的csv文件的建议，然后由我们的客户上传，并且可能在值中有逗号，如公司名称。

我们正在考虑的一些想法是:带引号的标识符(value "，" values "，"等等)或使用|代替逗号。最大的问题是我们必须让它变得简单，否则客户就不会这么做。

当前回答

在欧洲，我们有这个问题必须早于这个问题。在欧洲，我们用逗号来表示小数点。请看下面的数字:

| American      | Europe        |
| ------------- | ------------- |
| 0.5           | 0,5           |
| 3.14159265359 | 3,14159265359 |
| 17.54         | 17,54         |
| 175,186.15    | 175.186,15    |

因此，CSV文件不能使用逗号分隔符。由于这个原因，欧洲的CSV文件由分号(;)分隔。

像微软Excel这样的程序可以读取带有分号的文件，也可以从分隔符切换到分号。您甚至可以使用制表符(\t)作为分隔符。请看来自Supper用户的回答。

2017-05-10 14:03:53

其他回答

您可以在字段周围加上双引号。我不喜欢这种方法，因为它增加了另一个特殊字符(双引号)。只需定义一个转义字符(通常是反斜杠)，并在需要转义的地方使用它:

data,more data,more data\, even,yet more

您不必尝试匹配引号，而且需要解析的异常也更少。这也简化了您的代码。

2009-04-20 19:34:14

添加对Microsoft的引用。VisualBasic(是的，它说的是VisualBasic，但它在c#中也一样好用——记住，最后它都是IL)。

使用Microsoft.VisualBasic.FileIO.TextFieldParser类来解析CSV文件。

 Dim parser As TextFieldParser = New TextFieldParser("C:\mar0112.csv")
 parser.TextFieldType = FieldType.Delimited
 parser.SetDelimiters(",")      

   While Not parser.EndOfData         
      'Processing row             
      Dim fields() As String = parser.ReadFields         
      For Each field As String In fields             
         'TODO: Process field                   

      Next      
      parser.Close()
   End While

2012-04-11 19:29:27

如果你想重新发明轮子，下面的方法可能对你有用:

public static IEnumerable<string> SplitCSV(string line)
{
    var s = new StringBuilder();
    bool escaped = false, inQuotes = false;
    foreach (char c in line)
    {
        if (c == ',' && !inQuotes)
        {
            yield return s.ToString();
            s.Clear();
        }
        else if (c == '\\' && !escaped)
        {
            escaped = true;
        }
        else if (c == '"' && !escaped)
        {
            inQuotes = !inQuotes;
        }
        else
        {
            escaped = false;
            s.Append(c);
        }
    }
    yield return s.ToString();
}

2014-05-01 17:27:09

如果您在*nix-系统上，可以访问sed，并且仅在您的CSV的特定字段中可以有一个或多个不需要的逗号，您可以使用以下一行程序，以便将它们包含在RFC4180 Section 2中:

sed -r 's/([^,]*,[^,]*,[^,]*,)(.*)(,.*,.*)/\1"\2"\3/' inputfile

根据不需要的逗号可能在哪个字段中，您必须更改/扩展正则表达式的捕获组(以及替换)。上面的示例将第四个字段(六个字段中的第四个字段)括在引号中。

结合使用——In -place选项，您可以将这些更改直接应用到文件。

为了“构建”正确的正则表达式，需要遵循一个简单的原则:

对于CSV中出现在不需要的逗号字段之前的每个字段，您可以编写一个[^，]*，并将它们放在一个捕获组中。对于包含不需要的逗号的字段，请写入(.*)。对于带不需要的逗号的字段后面的每个字段，都要写一个，。*并将它们放在一个捕获组中。

下面是根据特定字段的不同可能的正则表达式/替换的简短概述。如果没有给出，则替换为\1"\2"\3。

([^,]*)(,.*)                     #first field, regex
"\1"\2                           #first field, substitution

(.*,)([^,]*)                     #last field, regex
\1"\2"                           #last field, substitution


([^,]*,)(.*)(,.*,.*,.*)          #second field (out of five fields)
([^,]*,[^,]*,)(.*)(,.*)          #third field (out of four fields)
([^,]*,[^,]*,[^,]*,)(.*)(,.*,.*) #fourth field (out of six fields)

如果您想用sed删除不需要的逗号，而不是用引号将它们括起来，请参考此答案。

2014-01-24 09:39:19

您可以像这样读取csv文件。

这利用了分割和空格。

ArrayList List = new ArrayList();
static ServerSocket Server;
static Socket socket;
static ArrayList<Object> list = new ArrayList<Object>();


public static void ReadFromXcel() throws FileNotFoundException
{   
    File f = new File("Book.csv");
    Scanner in = new Scanner(f);
    int count  =0;
    String[] date;
    String[] name;
    String[] Temp = new String[10];
    String[] Temp2 = new String[10];
    String[] numbers;
    ArrayList<String[]> List = new ArrayList<String[]>();
    HashMap m = new HashMap();

         in.nextLine();
         date = in.nextLine().split(",");
         name = in.nextLine().split(",");
         numbers = in.nextLine().split(",");
         while(in.hasNext())
         {
             String[] one = in.nextLine().split(",");
             List.add(one);
         }
         int xount = 0;
         //Making sure the lines don't start with a blank
         for(int y = 0; y<= date.length-1; y++)
         {
             if(!date[y].equals(""))
             {   
                 Temp[xount] = date[y];
                 Temp2[xount] = name[y];
                 xount++;
             }
         }

         date = Temp;
         name =Temp2;
         int counter = 0;
         while(counter < List.size())
         {
             String[] list = List.get(counter);
             String sNo = list[0];
             String Surname = list[1];
             String Name = list[2];
             for(int x = 3; x < list.length; x++)
             {           
                 m.put(numbers[x], list[x]);
             }
            Object newOne = new newOne(sNo, Name, Surname, m, false);
             StudentList.add(s);
             System.out.println(s.sNo);
             counter++;
         }

2013-11-21 05:50:36

处理CSV文件中的逗号

推荐文章

最新文章

标签