Spark - repartition() vs coalesce()

根据Learning Spark

请记住，重新划分数据是一项相当昂贵的操作。 Spark还有一个repartition()的优化版本，称为coalesce()，它允许避免数据移动，但仅当您正在减少RDD分区的数量时。

我得到的一个区别是，使用repartition()可以增加/减少分区的数量，但使用coalesce()只能减少分区的数量。

如果分区分布在多台机器上，并且运行了coalesce()，它如何避免数据移动?

当前回答

重新分区-建议在增加分区数量的同时使用它，因为它涉及到所有数据的洗牌。

Coalesce—建议在使用它的同时减少分区的数量。例如，如果你有3个分区，你想把它减少到2个，coalesce将把第3个分区的数据移动到分区1和分区2。分区1和分区2将保留在同一个容器中。另一方面，重新分区将打乱所有分区中的数据，因此执行程序之间的网络使用将很高，这将影响性能。

在减少分区数量的同时，Coalesce比重分区的性能更好。

2018-08-31 07:14:07

其他回答

这里需要注意的一点是，Spark RDD的基本原则是不变性。重新分区或合并将创建新的RDD。基本RDD将继续存在其原始分区数量。如果用例要求将RDD持久化在缓存中，则必须对新创建的RDD进行同样的操作。

scala> pairMrkt.repartition(10)
res16: org.apache.spark.rdd.RDD[(String, Array[String])] =MapPartitionsRDD[11] at repartition at <console>:26

scala> res16.partitions.length
res17: Int = 10

scala>  pairMrkt.partitions.length
res20: Int = 2

2016-08-21 15:44:49

另一个不同之处是考虑到存在倾斜连接的情况，您必须在其之上进行合并。在大多数情况下，重新分区将解决倾斜连接，然后您可以进行合并。

另一种情况是，假设你在一个数据帧中保存了一个中等/大量的数据，你必须批量生成到Kafka。在某些情况下，在生成到Kafka之前，重新分区有助于collectasList。但是，当容量非常大时，重新分区可能会导致严重的性能影响。在这种情况下，直接从dataframe生成Kafka会有所帮助。

附注:Coalesce并不像在工作人员之间进行完整的数据移动那样避免数据移动。但它确实减少了洗牌的次数。我想这就是那本书的意思。

2020-11-04 19:04:58

联合——可以增加或减少分区重新分区——只会增加分区

但是我想说性能纯粹是基于用例的。联合并不总是比重新划分好。

2022-07-11 06:23:03

用一种简单的方式 COALESCE:-仅用于减少分区数量，没有数据变换，它只是压缩分区

REPARTITION:-用于增加和减少分区的数量，但会发生洗牌

例子:-

val rdd = sc.textFile("path",7)
rdd.repartition(10)
rdd.repartition(2)

两者都很好

但是当我们需要在一个集群中看到输出时，我们通常会选择这两个。

2017-08-24 06:46:50

它避免了完全洗牌。如果已知分区数量正在减少，则执行器可以安全地将数据保存在最小分区数量上，只将数据从额外的节点移到我们保留的节点上。

所以，它会是这样的:

Node 1 = 1,2,3
Node 2 = 4,5,6
Node 3 = 7,8,9
Node 4 = 10,11,12

然后合并到2个分区:

Node 1 = 1,2,3 + (10,11,12)
Node 3 = 7,8,9 + (4,5,6)

注意，节点1和节点3不需要移动其原始数据。

2015-07-24 14:13:21

Spark - repartition() vs coalesce()

推荐文章

最新文章

标签