比起Scala,我更喜欢Python。但是,由于Spark本身是用Scala编写的,我希望我的代码在Scala中比Python版本运行得更快,原因很明显。基于这个假设,我想学习并编写一些非常常见的1

在RDD持久性方面,spark中的cache()和persist()有什么区别?

我只是想知道在Apache Spark中RDD和DataFrame (Spark 2.0.0 DataFrame只是数据集[行]的类型别名)之间的区别是什么?你能把一个转换成另一个吗?

根据Learning Spark请记住,重新划分数据是一项相当昂贵的操作。Spark还有一个repartition()的优化版本,称为coalesce(),它允许避免数据移动,但仅当您正在减少RDD分