如何在PySpark中更改数据帧列名?

我来自熊猫的背景，我习惯了从CSV文件读取数据到一个dataframe，然后简单地改变列名使用简单的命令有用的东西:

df.columns = new_column_name_list

然而，这在使用sqlContext创建的PySpark数据框架中是行不通的。我能想到的唯一解决办法是:

df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load("data.txt")
oldSchema = df.schema
for i,k in enumerate(oldSchema.fields):
  k.name = new_column_name_list[i]
df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', delimiter='\t').load("data.txt", schema=oldSchema)

这基本上是定义变量两次，首先推断模式，然后重命名列名，然后用更新的模式再次加载数据框架。

有没有更好更有效的方法来做到这一点，就像我们对熊猫做的那样?

我的Spark版本是1.5.0

当前回答

最接近df的表述。Columns = new_column_name_list为:

import pyspark.sql.functions as F
df = df.select(*[F.col(name_old).alias(name_new) 
                 for (name_old, name_new) 
                 in zip(df.columns, new_column_name_list)]

这并不需要任何很少使用的函数，并强调了一些在Spark中非常有用的模式。如果你发现这一行代码做了太多的事情，你也可以拆分这些步骤:

import pyspark.sql.functions as F
column_mapping = [F.col(name_old).alias(name_new) 
                  for (name_old, name_new) 
                  in zip(df.columns, new_column_name_list)]
df = df.select(*column_mapping)

2022-12-19 23:30:36

其他回答

我们可以使用col.alias重命名列:

from pyspark.sql.functions import col
df.select(['vin',col('timeStamp').alias('Date')]).show()

2018-01-31 14:33:23

我喜欢使用字典重命名df。

rename = {'old1': 'new1', 'old2': 'new2'}
for col in df.schema.names:
    df = df.withColumnRenamed(col, rename[col])

2020-11-03 11:51:44

列表理解+ f-string:

df = df.toDF(*[f'n_{c}' for c in df.columns])

简单的列表理解:

df = df.toDF(*[c.lower() for c in df.columns])

2022-09-06 14:20:48

另一种重命名一个列的方法(使用import pyspark.sql.functions as F):

df = df.select( '*', F.col('count').alias('new_count') ).drop('count')

2018-06-20 14:24:12

我们可以使用各种方法重命名列名。

首先，让我们创建一个简单的数据框架。

df = spark.createDataFrame([("x", 1), ("y", 2)], 
                                  ["col_1", "col_2"])

现在我们试着把col_1重命名为col_3。PFB的几个方法也一样。

# Approach - 1 : using withColumnRenamed function.
df.withColumnRenamed("col_1", "col_3").show()

# Approach - 2 : using alias function.
df.select(df["col_1"].alias("col3"), "col_2").show()

# Approach - 3 : using selectExpr function.
df.selectExpr("col_1 as col_3", "col_2").show()

# Rename all columns
# Approach - 4 : using toDF function. Here you need to pass the list of all columns present in DataFrame.
df.toDF("col_3", "col_2").show()

这是输出。

+-----+-----+
|col_3|col_2|
+-----+-----+
|    x|    1|
|    y|    2|
+-----+-----+

我希望这能有所帮助。

2020-05-31 08:40:58

如何在PySpark中更改数据帧列名?

推荐文章

最新文章

标签