Spark中DataFrame、Dataset和RDD的区别

我只是想知道在Apache Spark中RDD和DataFrame (Spark 2.0.0 DataFrame只是数据集[行]的类型别名)之间的区别是什么?

你能把一个转换成另一个吗?

当前回答

Dataframe是Row对象的RDD，每个对象代表一条记录。一个 Dataframe还知道它的行的模式(即数据字段)。虽然Dataframes 看起来像常规的rdd，它们内部以更有效的方式存储数据，利用它们的模式。此外，它们还提供了rdd上不可用的新操作，例如运行SQL查询的能力。数据帧可以从外部数据源、查询结果或常规rdd中创建。

参考文献:Zaharia M.， et al。学习火花(O'Reilly, 2015)

2016-10-20 13:27:26

其他回答

因为DataFrame是弱类型的，开发人员没有得到类型系统的好处。例如，假设你想从SQL中读取一些东西，并对其运行一些聚合:

val people = sqlContext.read.parquet("...")
val department = sqlContext.read.parquet("...")

people.filter("age > 30")
  .join(department, people("deptId") === department("id"))
  .groupBy(department("name"), "gender")
  .agg(avg(people("salary")), max(people("age")))

当你说people("deptId")时，你得到的不是Int或Long对象，你得到的是你需要操作的Column对象。在具有丰富类型系统的语言(如Scala)中，您最终失去了所有类型安全，这增加了在编译时可以发现的运行时错误的数量。

相反，输入数据集[T]。当你这样做时:

val people: People = val people = sqlContext.read.parquet("...").as[People]

您实际上得到了一个People对象，其中deptId是一个实际的整型而不是列型，从而利用了类型系统。

从Spark 2.0开始，DataFrame和DataSet api将是统一的，其中DataFrame将是DataSet[Row]的类型别名。

2016-05-18 13:39:42

参考文献:Zaharia M.， et al。学习火花(O'Reilly, 2015)

2016-10-20 13:27:26

Apache Spark - RDD, DataFrame和DataSet

Spark RDD –

RDD代表弹性分布式数据集。只读记录的分区集合。RDD是最基本的数据结构的火花。它允许程序员在内存中执行计算采用容错方式的大型集群。因此，加快任务的速度。

星火数据帧 –

与RDD不同，数据被组织成命名列。比如一张表在关系数据库中。的不可变分布式集合数据。Spark中的DataFrame允许开发人员在上面强加一个结构数据的分布式集合，允许更高层次的抽象。

Spark数据集-

Apache Spark中的数据集是DataFrame API的扩展提供类型安全的面向对象编程接口。数据集通过暴露表达式来利用Spark的Catalyst优化器和数据字段到查询计划器。

2019-12-11 17:54:15

所有(RDD、DataFrame和DataSet)在一张图片中。

图片致谢

RDD

RDD是可以并行操作的元素的容错集合。

DataFrame

DataFrame是一个被组织成命名列的数据集。它是概念上等价于关系数据库中的表或数据框架，但是在底层有更丰富的优化。

数据集

数据集是数据的分布式集合。Dataset是Spark 1.6中新增的接口，提供rdd的优点 (强类型，能够使用强大的lambda函数) Spark SQL优化执行引擎的好处。注意: 在Scala/Java中，Dataset of Rows (Dataset[Row])通常被称为DataFrames。

用一个代码片段对它们进行了很好的比较。

源

问:你能把一个转换成另一个，像RDD到DataFrame，反之亦然?

是的，两者都有可能

1. 使用.toDF() RDD到DataFrame

val rowsRdd: RDD[Row] = sc.parallelize(
  Seq(
    Row("first", 2.0, 7.0),
    Row("second", 3.5, 2.5),
    Row("third", 7.0, 5.9)
  )
)

val df = spark.createDataFrame(rowsRdd).toDF("id", "val1", "val2")

df.show()
+------+----+----+
|    id|val1|val2|
+------+----+----+
| first| 2.0| 7.0|
|second| 3.5| 2.5|
| third| 7.0| 5.9|
+------+----+----+

在Spark中将RDD对象转换为Dataframe

2. 使用.rdd()方法将DataFrame/DataSet转换为RDD

val rowsRdd: RDD[Row] = df.rdd() // DataFrame to RDD

2017-07-22 09:37:56

大部分答案都是正确的，我只想补充一点

在Spark 2.0中，这两个API (DataFrame +DataSet)将统一为一个API。

统一DataFrame和Dataset:在Scala和Java中，DataFrame和Dataset是统一的，即DataFrame只是Dataset of Row的类型别名。在Python和R中，由于缺乏类型安全，DataFrame是主要的编程接口。”

数据集类似于rdd，但是，它们不使用Java序列化或Kryo，而是使用专门的Encoder来序列化对象，以便在网络上进行处理或传输。

Spark SQL支持两种将现有rdd转换为数据集的方法。第一种方法使用反射来推断包含特定类型对象的RDD的模式。这种基于反射的方法可以生成更简洁的代码，如果在编写Spark应用程序时已经知道模式，这种方法也能很好地工作。

创建数据集的第二种方法是通过编程接口，该接口允许您构造一个模式，然后将其应用于现有的RDD。虽然此方法更详细，但它允许您在运行时之前不知道列及其类型时构造数据集。

在这里你可以找到RDD tof数据帧对话的答案

如何将rdd对象转换为数据帧在火花

2016-11-20 13:53:39

Spark中DataFrame、Dataset和RDD的区别

推荐文章

最新文章

标签