map和flatMap之间的区别是什么，以及它们各自的良好用例?

谁能给我解释一下map和flatMap之间的区别，以及它们各自的良好用例是什么?

“flatten the results”是什么意思? 它有什么好处?

当前回答

如果您正在询问RDD之间的区别。map和RDD。在Spark中，map将一个大小为N的RDD转换为另一个大小为N的RDD。如。

myRDD.map(x => x*2)

例如，如果myRDD由double组成。

而flatMap可以将RDD转换为另一个不同大小的RDD: 如:

myRDD.flatMap(x =>new Seq(2*x,3*x))

这将返回一个大小为2*N的RDD 或

myRDD.flatMap(x =>if x<10 new Seq(2*x,3*x) else new Seq(x) )

2014-04-24 13:46:54

其他回答

使用测试。以Md为例:

➜  spark-1.6.1 cat test.md
This is the first line;
This is the second line;
This is the last line.

scala> val textFile = sc.textFile("test.md")
scala> textFile.map(line => line.split(" ")).count()
res2: Long = 3

scala> textFile.flatMap(line => line.split(" ")).count()
res3: Long = 15

scala> textFile.map(line => line.split(" ")).collect()
res0: Array[Array[String]] = Array(Array(This, is, the, first, line;), Array(This, is, the, second, line;), Array(This, is, the, last, line.))

scala> textFile.flatMap(line => line.split(" ")).collect()
res1: Array[String] = Array(This, is, the, first, line;, This, is, the, second, line;, This, is, the, last, line.)

如果您使用映射方法，您将得到测试线。md，对于flatMap方法，您将得到字数。

map方法类似于flatMap，它们都返回一个新的RDD。map方法经常使用返回一个新的RDD, flatMap方法经常使用分割词。

2016-06-17 07:41:27

map(func)返回一个新的分布式数据集，该数据集通过func声明的函数传递源的每个元素。map()是单个项

其间

flatMap(func)类似于map，但是每个输入项可以映射到0个或多个输出项，因此func应该返回一个Sequence而不是单个项。

2018-02-23 15:48:26

map:它通过对RDD的每个元素应用函数来返回一个新的RDD。.map中的函数只能返回一个项。

flatMap:与map类似，它通过对RDD的每个元素应用函数来返回一个新的RDD，但输出是扁平的。

同样，flatMap中的函数可以返回一个元素列表(0或更多)

例如:

sc.parallelize([3,4,5]).map(lambda x: range(1,x)).collect()

输出:[[1,2]，[1,2,3]，[1,2,3,4]]

sc.parallelize([3,4,5]).flatMap(lambda x: range(1,x)).collect()

输出:注意o/p在单个列表[1,2,1,2,3， 1,2,3,4]

来源:https://www.linkedin.com/pulse/difference-between-map-flatmap-transformations-spark-pyspark-pandey/

2018-06-26 22:45:47

下面是一个不同的例子，作为一个spark-shell会话:

首先是一些数据——两行文本:

val rdd = sc.parallelize(Seq("Roses are red", "Violets are blue"))  // lines

rdd.collect

    res0: Array[String] = Array("Roses are red", "Violets are blue")

现在，map将一个长度为N的RDD转换为另一个长度为N的RDD。

例如，它将两行映射为两行长度:

rdd.map(_.length).collect

    res1: Array[Int] = Array(13, 16)

但是flatMap(松散地说)将长度为N的RDD转换为N个集合的集合，然后将这些集合平展为单个结果RDD。

rdd.flatMap(_.split(" ")).collect

    res2: Array[String] = Array("Roses", "are", "red", "Violets", "are", "blue")

我们每行有多个单词，而且每行有多行，但我们最终得到一个单词输出数组

为了说明这一点，从一个行集合到一个单词集合的flatMapping如下:

["aa bb cc", "", "dd"] => [["aa","bb","cc"],[],["dd"]] => ["aa","bb","cc","dd"]

因此，对于flatMap，输入和输出rdd通常具有不同的大小。

如果我们试图使用map与我们的split函数，我们将以嵌套结构结束(RDD的单词数组，类型为RDD[Array[String]])，因为我们必须对每个输入只有一个结果:

rdd.map(_.split(" ")).collect

    res3: Array[Array[String]] = Array(
                                     Array(Roses, are, red), 
                                     Array(Violets, are, blue)
                                 )

最后，一个有用的特殊情况是映射到一个可能不返回答案的函数，因此返回一个Option。我们可以使用flatMap过滤出返回None的元素，并从返回Some的元素中提取值:

val rdd = sc.parallelize(Seq(1,2,3,4))

def myfn(x: Int): Option[Int] = if (x <= 2) Some(x * 10) else None

rdd.flatMap(myfn).collect

    res3: Array[Int] = Array(10,20)

(注意这里Option的行为很像一个只有一个元素或者没有元素的列表)

2014-03-19 15:21:23

map和flatMap是相似的，从某种意义上说，它们从输入RDD中获取一行并在其上应用一个函数。它们的不同之处在于map中的函数只返回一个元素，而flatMap中的函数可以返回一个元素列表(0或更多)作为迭代器。

同样，flatMap的输出是扁平的。尽管flatMap中的函数返回一个元素列表，但flatMap返回一个RDD，其中以平面方式(而不是列表)包含列表中的所有元素。

2015-09-01 12:44:33

map和flatMap之间的区别是什么，以及它们各自的良好用例?

推荐文章

最新文章

标签