分类 - Code

比起Scala，我更喜欢Python。但是，由于Spark本身是用Scala编写的，我希望我的代码在Scala中比Python版本运行得更快，原因很明显。基于这个假设，我想学习并编写一些非常常见的1

2025-04-07 05:00:03

在RDD持久性方面，spark中的cache()和persist()有什么区别?

2025-01-03 09:00:03

我只是想知道在Apache Spark中RDD和DataFrame (Spark 2.0.0 DataFrame只是数据集[行]的类型别名)之间的区别是什么?你能把一个转换成另一个吗?

2024-11-18 10:24:16

根据Learning Spark请记住，重新划分数据是一项相当昂贵的操作。Spark还有一个repartition()的优化版本，称为coalesce()，它允许避免数据移动，但仅当您正在减少RDD分

2024-11-18 14:06:33

Scala vs Python的Spark性能