Spark中DataFrame、Dataset和RDD的区别

我只是想知道在Apache Spark中RDD和DataFrame (Spark 2.0.0 DataFrame只是数据集[行]的类型别名)之间的区别是什么?

你能把一个转换成另一个吗?

当前回答

Spark RDD(弹性分布式数据集):

RDD is the core data abstraction API and is available since very first release of Spark (Spark 1.0). It is a lower-level API for manipulating distributed collection of data. The RDD APIs exposes some extremely useful methods which can be used to get very tight control over underlying physical data structure. It is an immutable (read only) collection of partitioned data distributed on different machines. RDD enables in-memory computation on large clusters to speed up big data processing in a fault tolerant manner. To enable fault tolerance, RDD uses DAG (Directed Acyclic Graph) which consists of a set of vertices and edges. The vertices and edges in DAG represent the RDD and the operation to be applied on that RDD respectively. The transformations defined on RDD are lazy and executes only when an action is called

Spark DataFrame

Spark 1.3 introduced two new data abstraction APIs – DataFrame and DataSet. The DataFrame APIs organizes the data into named columns like a table in relational database. It enables programmers to define schema on a distributed collection of data. Each row in a DataFrame is of object type row. Like an SQL table, each column must have same number of rows in a DataFrame. In short, DataFrame is lazily evaluated plan which specifies the operations needs to be performed on the distributed collection of the data. DataFrame is also an immutable collection.

Spark数据集:

作为DataFrame api的扩展，Spark 1.3还引入了DataSet api，在Spark中提供严格类型和面向对象的编程接口。它是不可变的、类型安全的分布式数据集合。像DataFrame一样，DataSet APIs也使用Catalyst引擎来实现执行优化。DataSet是DataFrame api的扩展。

〇其他差异

2019-07-02 18:37:51

其他回答

Apache Spark - RDD, DataFrame和DataSet

Spark RDD –

RDD代表弹性分布式数据集。只读记录的分区集合。RDD是最基本的数据结构的火花。它允许程序员在内存中执行计算采用容错方式的大型集群。因此，加快任务的速度。

星火数据帧 –

与RDD不同，数据被组织成命名列。比如一张表在关系数据库中。的不可变分布式集合数据。Spark中的DataFrame允许开发人员在上面强加一个结构数据的分布式集合，允许更高层次的抽象。

Spark数据集-

Apache Spark中的数据集是DataFrame API的扩展提供类型安全的面向对象编程接口。数据集通过暴露表达式来利用Spark的Catalyst优化器和数据字段到查询计划器。

2019-12-11 17:54:15

通过谷歌搜索“DataFrame definition”可以很好地定义一个DataFrame:

数据帧是一种表格，或者是一种二维的类似数组的结构每一列包含对一个变量的测量，以及每一行包含一个大小写。

因此，由于其表格格式，DataFrame具有额外的元数据，这允许Spark在最终查询上运行某些优化。

另一方面，RDD只是一个弹性分布式数据集(Resilient Distributed Dataset)，它更像是一个数据黑箱，不能对其进行优化，因为可以对其执行的操作不受约束。

然而，你可以通过RDD方法从一个DataFrame到一个RDD，你也可以通过toDF方法从一个RDD到一个DataFrame(如果RDD是一个表格格式)

一般来说，由于内置的查询优化，建议尽可能使用DataFrame。

2015-07-20 03:09:05

Dataframe是Row对象的RDD，每个对象代表一条记录。一个 Dataframe还知道它的行的模式(即数据字段)。虽然Dataframes 看起来像常规的rdd，它们内部以更有效的方式存储数据，利用它们的模式。此外，它们还提供了rdd上不可用的新操作，例如运行SQL查询的能力。数据帧可以从外部数据源、查询结果或常规rdd中创建。

参考文献:Zaharia M.， et al。学习火花(O'Reilly, 2015)

2016-10-20 13:27:26

DataFrame相当于RDBMS中的表，也可以以类似于rdd中的“原生”分布式集合的方式进行操作。与rdd不同，dataframe跟踪模式并支持各种关系操作，从而实现更优化的执行。每个DataFrame对象表示一个逻辑计划，但由于它们的“惰性”性质，直到用户调用特定的“输出操作”才会执行。

2015-09-25 03:45:06

一个。 RDD （Spark1.0） —> Dataframe（Spark1.3） —> Dataset（Spark1.6）

b. RDD让我们决定如何做，这限制了Spark在底层处理上的优化。dataframe/dataset让我们决定我们想做什么，并把一切都留给Spark来决定如何进行计算。

作为内存中的jvm对象，RDD涉及到垃圾收集和Java(或稍微好一点的Kryo)序列化的开销，当数据增长时，这些开销是昂贵的。这会降低性能。

数据帧比rdd提供了巨大的性能提升，因为它有2个强大的特性:

自定义内存管理(又名Project Tungsten) 优化的执行计划(又名Catalyst Optimizer) RDD ->数据帧->数据集

d.数据集(Project Tungsten和Catalyst Optimizer)如何在数据帧上得分是它拥有的另一个功能:编码器

2021-04-06 07:00:58

Spark中DataFrame、Dataset和RDD的区别

推荐文章

最新文章

标签