Spark - repartition() vs coalesce()

根据Learning Spark

请记住，重新划分数据是一项相当昂贵的操作。 Spark还有一个repartition()的优化版本，称为coalesce()，它允许避免数据移动，但仅当您正在减少RDD分区的数量时。

我得到的一个区别是，使用repartition()可以增加/减少分区的数量，但使用coalesce()只能减少分区的数量。

如果分区分布在多台机器上，并且运行了coalesce()，它如何避免数据移动?

当前回答

基本上，重分区允许您增加或减少分区的数量。重分区重新分配来自所有分区的数据，这导致完全shuffle，这是非常昂贵的操作。

Coalesce是重新分区的优化版本，您只能减少分区的数量。由于我们只能减少分区的数量，它所做的是将一些分区合并为一个分区。通过合并分区，与重新分区相比，跨分区的数据移动更低。所以在Coalesce中是最小的数据移动，但说Coalesce不做数据移动是完全错误的说法。

另一件事是通过提供分区的数量来重新分区，它试图在所有分区上均匀地重新分配数据而在Coalesce的情况下，在某些情况下我们仍然可能有倾斜的数据。

2021-02-05 06:47:38

其他回答

但是你也应该确保，如果你在处理巨大的数据，将要合并的节点的数据应该是高度配置的。因为所有的数据都会加载到那些节点上，可能会导致内存异常。虽然赔款很贵，但我还是愿意用它。因为它对数据进行了洗牌和平均分配。

在合并和重新分区之间进行明智的选择。

2018-08-30 13:10:23

以下是代码级别的一些额外细节/差异:

在这里只添加函数定义，完整的代码实现检查spark的github页面。

下面是在数据帧上重新分区的不同方法: 点击这里查看完整实现。

def repartition(numPartitions: Int): Dataset[T]

每当我们在dataframe上调用上述方法时，它都会返回一个新的数据集，该数据集恰好有numPartitions分区。

def repartition(numPartitions: Int, partitionExprs: Column*): Dataset[T]

上述方法返回一个新的数据集，该数据集由给定的分区表达式划分为numPartitions。生成的数据集是哈希分区的。

 def repartition(partitionExprs: Column*): Dataset[T]

上面的方法返回一个新的数据集，由给定的分区表达式划分，使用spark.sql.shuffle.partitions作为分区数。生成的数据集是哈希分区的。

def repartitionByRange(numPartitions: Int, partitionExprs: Column*): Dataset[T]

上述方法返回一个新的数据集，该数据集由给定的分区表达式划分为numPartitions。生成的数据集是范围分区的。

def repartitionByRange(partitionExprs: Column*): Dataset[T]

上面的方法返回一个新的数据集，由给定的分区表达式划分，使用spark.sql.shuffle.partitions作为分区数。生成的数据集是范围分区的。

但是对于合并，我们只有以下方法在数据框架上:

def coalesce(numPartitions: Int): Dataset[T]

上述方法将返回一个新的数据集，该数据集恰好有numPartitions分区

下面是RDD上可用于重分区和合并的方法: 点击这里查看完整实现。

  def coalesce(numPartitions: Int, shuffle: Boolean = false,
           partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
          (implicit ord: Ordering[T] = null)
  : RDD[T]

  def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
coalesce(numPartitions, shuffle = true)

}

基本上，重分区方法通过将shuffle值传递为true来调用合并方法。现在如果我们在RDD上使用coalesce方法，通过传递shuffle值为true，我们也可以增加分区!

2022-06-13 12:28:14

联合——可以增加或减少分区重新分区——只会增加分区

但是我想说性能纯粹是基于用例的。联合并不总是比重新划分好。

2022-07-11 06:23:03

重分区算法对数据进行完全洗牌，并创建大小相等的数据分区。Coalesce结合现有分区以避免完全洗牌。

Coalesce可以很好地使用一个具有大量分区的RDD，并将单个工作节点上的分区组合在一起，以生成一个具有较少分区的最终RDD。

重新分区将重新洗牌RDD中的数据，以产生您请求的最终分区数量。 DataFrames的分区看起来像是一个应该由框架管理的低级实现细节，但事实并非如此。当将大的dataframe过滤成小的dataframe时，你应该总是对数据进行重新分区。你可能会经常把大的数据帧过滤成小的数据帧，所以要习惯重新分区。

如果你想了解更多细节，请阅读这篇博客文章。

2020-05-16 14:55:24

重新分区-建议在增加分区数量的同时使用它，因为它涉及到所有数据的洗牌。

Coalesce—建议在使用它的同时减少分区的数量。例如，如果你有3个分区，你想把它减少到2个，coalesce将把第3个分区的数据移动到分区1和分区2。分区1和分区2将保留在同一个容器中。另一方面，重新分区将打乱所有分区中的数据，因此执行程序之间的网络使用将很高，这将影响性能。

在减少分区数量的同时，Coalesce比重分区的性能更好。

2018-08-31 07:14:07

Spark - repartition() vs coalesce()

推荐文章

最新文章

标签