任务不可序列化:java.io.NotSerializableException，当只对类而不是对象调用闭包外部的函数时

在闭包外部调用函数时出现奇怪的行为:

当函数在一个对象中时，一切都在工作当函数在类中，get:

任务不可序列化:java.io.NotSerializableException:测试

问题是我需要在类而不是对象中编写代码。知道为什么会这样吗?Scala对象是否序列化(默认?)?

这是一个工作代码示例:

object working extends App {
    val list = List(1,2,3)

    val rddList = Spark.ctx.parallelize(list)
    //calling function outside closure 
    val after = rddList.map(someFunc(_))

    def someFunc(a:Int)  = a+1

    after.collect().map(println(_))
}

这是一个无效的例子:

object NOTworking extends App {
  new testing().doIT
}

//adding extends Serializable wont help
class testing {  
  val list = List(1,2,3)  
  val rddList = Spark.ctx.parallelize(list)

  def doIT =  {
    //again calling the fucntion someFunc 
    val after = rddList.map(someFunc(_))
    //this will crash (spark lazy)
    after.collect().map(println(_))
  }

  def someFunc(a:Int) = a+1
}

当前回答

我的解决方案是添加一个同伴类来处理类中不可序列化的所有方法。

2021-05-28 11:30:21

其他回答

完整的演讲充分解释了这个问题，并提出了一个很好的范式转换方法来避免这些序列化问题:https://github.com/samthebest/dump/blob/master/sams-scala-tutorial/serialization-exceptions-and-memory-leaks-no-ws.md

投票最多的答案基本上是建议抛弃整个语言特性——不再使用方法，只使用函数。的确，在函数式编程中，类中的方法应该避免，但是将它们转换为函数并不能解决设计问题(参见上面的链接)。

在这种特殊的情况下，你可以使用@transient注释告诉它不要试图序列化有问题的值(这里是Spark。ctx是一个自定义类，而不是Spark的OP命名):

@transient
val rddList = Spark.ctx.parallelize(list)

您还可以重新构造代码，使rddList存在于其他地方，但这也很麻烦。

未来可能是孢子

在将来，Scala将包括这些被称为“孢子”的东西，这将允许我们细粒度地控制闭包到底会吸引什么，不吸引什么。此外，这应该将所有意外拉入不可序列化类型(或任何不需要的值)的错误转变为编译错误，而不是现在可怕的运行时异常/内存泄漏。

http://docs.scala-lang.org/sips/pending/spores.html

关于Kryo序列化的提示

当使用kyro，使注册是必要的，这将意味着你得到错误，而不是内存泄漏:

最后，我知道kryo有kryo. setregistrationoptional (true)，但我很难弄清楚如何使用它。当打开这个选项时，如果我没有注册类，kryo似乎仍然会抛出异常。”

用kryo注册类的策略

当然，这只能提供类型级别的控制，而不是值级别的控制。

．.．还会有更多的想法。

2014-08-12 17:33:41

我的解决方案是添加一个同伴类来处理类中不可序列化的所有方法。

2021-05-28 11:30:21

我用另一种方法解决了这个问题。您只需要在传递闭包之前序列化对象，然后反序列化。即使您的类不是Serializable，这种方法也很有效，因为它在幕后使用了Kryo。你只需要一些咖喱。；）

下面是我的一个例子:

def genMapper(kryoWrapper: KryoSerializationWrapper[(Foo => Bar)])
               (foo: Foo) : Bar = {
    kryoWrapper.value.apply(foo)
}
val mapper = genMapper(KryoSerializationWrapper(new Blah(abc))) _
rdd.flatMap(mapper).collectAsMap()

object Blah(abc: ABC) extends (Foo => Bar) {
    def apply(foo: Foo) : Bar = { //This is the real function }
}

你可以随心所欲地让Blah变得复杂，比如类、伴生对象、嵌套类、对多个第三方库的引用。

KryoSerializationWrapper是指:https://github.com/amplab/shark/blob/master/src/main/scala/shark/execution/serialization/KryoSerializationWrapper.scala

2014-04-14 06:54:59

rdd扩展了Serialisable接口，所以这不是导致任务失败的原因。现在这并不意味着你可以用Spark序列化一个RDD并且避免NotSerializableException

Spark是一个分布式计算引擎，它的主要抽象是一个弹性分布式数据集(RDD)，它可以被视为一个分布式集合。基本上，RDD的元素是在集群的节点上进行分区的，但是Spark将其从用户那里抽象出来，让用户与RDD(集合)交互，就像它是一个本地的集合一样。

不涉及太多细节，但当你在RDD上运行不同的转换(map, flatMap, filter和其他)时，你的转换代码(闭包)是:

在驱动节点上序列化，发送到集群中的适当节点，反序列化, 最后在节点上执行

当然，您可以在本地运行(如您的示例)，但所有这些阶段(除了通过网络传输)仍然会发生。[这可以让您在部署到生产环境之前捕捉任何错误]

在第二种情况下，您正在调用一个方法，该方法是在map函数内部的类测试中定义的。Spark看到了这一点，因为方法不能单独序列化，所以Spark尝试序列化整个测试类，这样代码在另一个JVM中执行时仍然可以工作。你有两种可能:

要么你让类测试可序列化，这样整个类都可以被Spark序列化:

import org.apache.spark.{SparkContext,SparkConf}

object Spark {
  val ctx = new SparkContext(new SparkConf().setAppName("test").setMaster("local[*]"))
}

object NOTworking extends App {
  new Test().doIT
}

class Test extends java.io.Serializable {
  val rddList = Spark.ctx.parallelize(List(1,2,3))

  def doIT() =  {
    val after = rddList.map(someFunc)
    after.collect().foreach(println)
  }

  def someFunc(a: Int) = a + 1
}

或者你让someFunc函数而不是方法(函数在Scala中是对象)，这样Spark就可以序列化它:

import org.apache.spark.{SparkContext,SparkConf}

object Spark {
  val ctx = new SparkContext(new SparkConf().setAppName("test").setMaster("local[*]"))
}

object NOTworking extends App {
  new Test().doIT
}

class Test {
  val rddList = Spark.ctx.parallelize(List(1,2,3))

  def doIT() =  {
    val after = rddList.map(someFunc)
    after.collect().foreach(println)
  }

  val someFunc = (a: Int) => a + 1
}

类似的，但不相同的类序列化问题可能会引起您的兴趣，您可以在Spark Summit 2013的演讲中阅读它。

作为旁注，你可以将rddList.map(someFunc(_))重写为rddList.map(someFunc)，它们是完全相同的。通常情况下，首选第二种，因为它不那么冗长，读起来更清楚。

编辑(2015-03-15):Spark -5307引入了SerializationDebugger, Spark 1.3.0是第一个使用它的版本。它将序列化路径添加到NotSerializableException。当遇到NotSerializableException时，调试器访问对象图以查找无法序列化的对象的路径，并构造信息以帮助用户找到该对象。

在OP的例子中，这是打印到stdout的内容:

Serialization stack:
    - object not serializable (class: testing, value: testing@2dfe2f00)
    - field (class: testing$$anonfun$1, name: $outer, type: class testing)
    - object (class testing$$anonfun$1, <function1>)

2014-03-23 20:48:56

Scala类中定义的方法是不可序列化的，方法可以转换为函数来解决序列化问题。

方法的语法

def func_name (x String) : String = {
...
return x
}

函数的语法

val func_name = { (x String) => 
...
x
}

2021-08-04 16:29:39

任务不可序列化:java.io.NotSerializableException，当只对类而不是对象调用闭包外部的函数时

推荐文章

最新文章

标签