无锡大型网站设计公司,色see琪琪电影院,中国建设银行北京市互联网网站,河北省永清县建设局网站序列化
Spark是基于JVM运行的进行#xff0c;其序列化必然遵守Java的序列化规则。
序列化就是指将一个对象转化为二进制的byte流#xff08;注意#xff0c;不是bit流#xff09;#xff0c;然后以文件的方式进行保存或通过网络传输#xff0c;等待被反序列化读取出来。…序列化
Spark是基于JVM运行的进行其序列化必然遵守Java的序列化规则。
序列化就是指将一个对象转化为二进制的byte流注意不是bit流然后以文件的方式进行保存或通过网络传输等待被反序列化读取出来。序列化常被用于数据存取和通信过程中
spark dirver和executor间传递变量默认需要进行序列化才能传递。不序列话的成员可以通过添加transient 或lazy标识。
在spark中4个地方用到了序列化
算子中用到了driver定义的外部变量的时候将自定义的类型作为RDD的泛型类型所有的自定义类型对象都会进行序列化使用可序列化的持久化策略的时候。比如MEMORY_ONLY_SERspark会将RDD中每个分区都序列化成一个大的字节数组。shuffle的时候
序列化的方法
类继承scala.Serializable使用case class修饰类case class默认实现了序列化
transient 和 lazy
scala 中transient 是 java 的 transient 关键字的作用是需要实现 Serilizable 接口transient 是类型修饰符只能用来修饰字段。在对象序列化过程中 被 transient 标记的变量不会被序列化
transient使用小结 1一旦变量被transient修饰变量将不再是对象持久化的一部分该变量内容在序列化后无法获得访问。spark中反序列化后还可以访问吗可以但读到的是null。加上lazy才能访问到具体的值。
2transient关键字只能修饰变量而不能修饰方法和类。注意本地变量是不能被transient关键字修饰的。变量如果是用户自定义类变量则该类需要实现Serializable接口。
3被transient关键字修饰的变量不再能被序列化一个静态变量不管是否被transient修饰均不能被序列化。
transient修饰符的lazy val的区别
lazy val是一个懒加载的不可变值在第一次访问时才会被计算并缓存起来且只计算一次。而transient修饰符则可以用来标记某些字段在序列化时忽略。
示例1
class A(val a: Int)def compute(rdd: RDD[Int]) {// lazy val instance {transient lazy val instance {println(in lazy object)new A(1)}val res rdd.map(instance.a _).count()println(res)
}compute(sc.makeRDD(1 to 100, 8))如果在driver端不使用instance那么transient 不是必须的序列化会发生这时候序列化的instance 为null。 在executor处使用的时候才真正创建instance。
如果在driver端先使用了instance那么transient 是必须的。
示例2 test(序列化) {class A(a: String) extends Serializable {transient val name alazy val nanme2 aval nanme3 atransient lazy val name4 a}val sc SparkSession.builder().enableHiveSupport().master(local).appName(JoinTest).getOrCreate()import sc.sqlContext.implicits._val a new A(张三)val res Seq(ddd).toDF(c1).map {x (a.name, a.nanme2, a.nanme3, a.name4)}.toDF(a, b, c, d).show()}----------------
| a| b| c| d|
----------------
|null|张三|张三|张三|
----------------可以看到不序列化的在executor端读到的是null。
参考
Spark 序列化和kryo序列化器详解 Scala的序列化Serialization以及SerialVersionUID Spark序列化 Java transient关键字使用小记 Scala 序列化带有或不带有transient修饰符的lazy val的区别 Scala and the ‘transient lazy val’ pattern Difference when serializing a lazy val with or without transient