Spark - repartition() vs coalesce()

根据Learning Spark

请记住，重新划分数据是一项相当昂贵的操作。 Spark还有一个repartition()的优化版本，称为coalesce()，它允许避免数据移动，但仅当您正在减少RDD分区的数量时。

我得到的一个区别是，使用repartition()可以增加/减少分区的数量，但使用coalesce()只能减少分区的数量。

如果分区分布在多台机器上，并且运行了coalesce()，它如何避免数据移动?

当前回答

Coalesce使用现有分区来最小化数据量被打乱。重新分区将创建新的分区并执行满分区洗牌。合并会产生具有不同数据量的分区 (有时分区有许多不同的大小)和重新分区会产生大小大致相同的分区。合并可以减少分区，但修复可以用来增加或减少分区。

2021-03-26 16:40:29

其他回答

重分区算法对数据进行完全洗牌，并创建大小相等的数据分区。Coalesce结合现有分区以避免完全洗牌。

Coalesce可以很好地使用一个具有大量分区的RDD，并将单个工作节点上的分区组合在一起，以生成一个具有较少分区的最终RDD。

重新分区将重新洗牌RDD中的数据，以产生您请求的最终分区数量。 DataFrames的分区看起来像是一个应该由框架管理的低级实现细节，但事实并非如此。当将大的dataframe过滤成小的dataframe时，你应该总是对数据进行重新分区。你可能会经常把大的数据帧过滤成小的数据帧，所以要习惯重新分区。

如果你想了解更多细节，请阅读这篇博客文章。

2020-05-16 14:55:24

重分区:将数据移到新的分区中。

如。初始数据帧划分为200个分区。

df.repartition(500):数据将从200个分区重新排列到新的500个分区。

联合:将数据移到现有的分区中。

df.coalesce(5):数据将从剩余的195个分区转移到5个现有分区。

2019-09-26 07:13:17

从代码和代码文档中可以看出，coalesce(n)与coalesce(n, shuffle = false)相同，而repartition(n)与coalesce(n, shuffle = true)相同。

因此，合并和重新分区都可以用来增加分区的数量

使用shuffle = true，实际上可以合并为更大的数字的分区。如果你有少量的分区，这很有用，比如100，可能有几个分区异常大。

另一个需要强调的重要注意事项是，如果您大幅减少分区数量，则应该考虑使用合并的打乱版本(在这种情况下与重新分区相同)。这将允许您的计算在父分区上并行执行(多个任务)。

然而，如果你正在做一个激烈的合并，例如numPartitions = 1，这可能会导致你的计算发生在比你想要的更少的节点上(例如，numPartitions = 1的情况下只有一个节点)。为了避免这种情况，你可以传递shuffle = true。这将添加一个shuffle步骤，但意味着当前的上游分区将并行执行(无论当前分区是什么)。

相关答案也请参考此处

2019-07-19 12:20:13

以下是代码级别的一些额外细节/差异:

在这里只添加函数定义，完整的代码实现检查spark的github页面。

下面是在数据帧上重新分区的不同方法: 点击这里查看完整实现。

def repartition(numPartitions: Int): Dataset[T]

每当我们在dataframe上调用上述方法时，它都会返回一个新的数据集，该数据集恰好有numPartitions分区。

def repartition(numPartitions: Int, partitionExprs: Column*): Dataset[T]

上述方法返回一个新的数据集，该数据集由给定的分区表达式划分为numPartitions。生成的数据集是哈希分区的。

 def repartition(partitionExprs: Column*): Dataset[T]

上面的方法返回一个新的数据集，由给定的分区表达式划分，使用spark.sql.shuffle.partitions作为分区数。生成的数据集是哈希分区的。

def repartitionByRange(numPartitions: Int, partitionExprs: Column*): Dataset[T]

上述方法返回一个新的数据集，该数据集由给定的分区表达式划分为numPartitions。生成的数据集是范围分区的。

def repartitionByRange(partitionExprs: Column*): Dataset[T]

上面的方法返回一个新的数据集，由给定的分区表达式划分，使用spark.sql.shuffle.partitions作为分区数。生成的数据集是范围分区的。

但是对于合并，我们只有以下方法在数据框架上:

def coalesce(numPartitions: Int): Dataset[T]

上述方法将返回一个新的数据集，该数据集恰好有numPartitions分区

下面是RDD上可用于重分区和合并的方法: 点击这里查看完整实现。

  def coalesce(numPartitions: Int, shuffle: Boolean = false,
           partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
          (implicit ord: Ordering[T] = null)
  : RDD[T]

  def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
coalesce(numPartitions, shuffle = true)

}

基本上，重分区方法通过将shuffle值传递为true来调用合并方法。现在如果我们在RDD上使用coalesce方法，通过传递shuffle值为true，我们也可以增加分区!

2022-06-13 12:28:14

另一个不同之处是考虑到存在倾斜连接的情况，您必须在其之上进行合并。在大多数情况下，重新分区将解决倾斜连接，然后您可以进行合并。

另一种情况是，假设你在一个数据帧中保存了一个中等/大量的数据，你必须批量生成到Kafka。在某些情况下，在生成到Kafka之前，重新分区有助于collectasList。但是，当容量非常大时，重新分区可能会导致严重的性能影响。在这种情况下，直接从dataframe生成Kafka会有所帮助。

附注:Coalesce并不像在工作人员之间进行完整的数据移动那样避免数据移动。但它确实减少了洗牌的次数。我想这就是那本书的意思。

2020-11-04 19:04:58

Spark - repartition() vs coalesce()

推荐文章

最新文章

标签