比起Scala,我更喜欢Python。但是,由于Spark本身是用Scala编写的,我希望我的代码在Scala中比Python版本运行得更快,原因很明显。基于这个假设,我想学习并编写一些非常常见的1

我来自熊猫的背景,我习惯了从CSV文件读取数据到一个dataframe,然后简单地改变列名使用简单的命令有用的东西:然而,这在使用sqlContext创建的PySpark数据框架中是行不通的。我能想到