缓存和持久化的区别是什么?

在RDD持久性方面，spark中的cache()和persist()有什么区别?

当前回答

Cache()和persist()这两个方法都用于提高spark计算的性能。这些方法有助于保存中间结果，以便在后续阶段中重用。

cache()和persist()之间的唯一区别是，使用cache技术，我们可以只在需要时将中间结果保存在内存中，而在persist()中，我们可以将中间结果保存在5个存储级别(MEMORY_ONLY, MEMORY_AND_DISK, MEMORY_ONLY_SER, MEMORY_AND_DISK_SER, DISK_ONLY)。

2019-04-09 06:37:52

其他回答

没有区别。从RDD.scala。

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()

2014-11-11 19:13:04

Spark提供了5种存储级别

MEMORY_ONLY MEMORY_ONLY_SER MEMORY_AND_DISK MEMORY_AND_DISK_SER DISK_ONLY

cache()将使用MEMORY_ONLY。如果你想使用其他方法，请使用persist(StorageLevel.<*type*>)。

默认情况下，persist()会将数据作为未序列化的对象存储在JVM堆中。

2017-04-05 12:59:46

缓存和持久化操作之间的区别很简单语法。缓存是持久化或持久化(MEMORY_ONLY)的同义词。缓存仅保留默认存储级别MEMORY_ONLY

但是坚持() 我们可以将中间结果保存在5个存储级别。 MEMORY_ONLY MEMORY_AND_DISK MEMORY_ONLY_SER MEMORY_AND_DISK_SER DISK_ONLY

/** *保留该RDD的默认存储级别 (MEMORY_ONLY)。* / Def persist():这个。类型= 坚持(StorageLevel.MEMORY_ONLY) /** *保留该RDD的默认存储级别 (MEMORY_ONLY)。* / Def cache():这个。Type = persist()

在这里查看更多细节…

缓存或持久化是用于(迭代和交互的)Spark计算的优化技术。它们有助于保存中间部分结果，以便在后续阶段中重用。因此，作为rdd的这些中期结果保存在内存(默认)或更可靠的存储中，如磁盘和/或复制。 rdd可以通过缓存操作进行缓存。也可以使用持久化操作持久化它们。

#持续下去,缓存通过这些功能可以调整RDD的存储级别。当释放内存时，Spark将使用存储级别标识符来决定应该保留哪些分区。无参数变量 Persist()和cache()只是坚持(StorageLevel.MEMORY_ONLY)。

警告:存储级别一旦被更改，就不能再更改!

警告-谨慎缓存…参见((为什么)我们需要调用缓存或持久化RDD)

仅仅因为您可以在内存中缓存RDD并不意味着您应该盲目地这样做。根据数据集被访问的次数和这样做所涉及的工作量，重新计算可能比增加的内存压力所付出的代价更快。

不用说，如果只读取一次数据集，就没有必要缓存它，它实际上会使您的工作变慢。缓存数据集的大小可以从Spark Shell中看到。

清单变异……

def cache(): RDD[T]
 def persist(): RDD[T]
 def persist(newLevel: StorageLevel): RDD[T]

请看下面的例子:

val c = sc.parallelize(List("Gnu", "Cat", "Rat", "Dog", "Gnu", "Rat"), 2)
     c.getStorageLevel
     res0: org.apache.spark.storage.StorageLevel = StorageLevel(false, false, false, false, 1)
     c.cache
     c.getStorageLevel
     res2: org.apache.spark.storage.StorageLevel = StorageLevel(false, true, false, true, 1)

注意: 由于rdd的缓存和持久性之间的语法差异非常小，这两个术语通常可以互换使用。

详情请点击这里....

在内存和磁盘中持久化:

缓存:

缓存可以在很大程度上提高应用程序的性能。

通常，建议使用特定存储级别的持久化来更好地控制缓存行为，而缓存可以作为在内存中缓存数据的一种快速方便的方法。

2016-08-09 09:42:17

Cache()和persist()这两个方法都用于提高spark计算的性能。这些方法有助于保存中间结果，以便在后续阶段中重用。

2019-04-09 06:37:52

使用cache()，你只使用默认的存储级别:

MEMORY_ONLY用于RDD MEMORY_AND_DISK用于数据集

使用persist()，可以为RDD和Dataset指定需要的存储级别。