当前位置：首页 > 技术文章 > 大数据 > 正文

缓存、持久化机制

2019-04-18 12:00:34 分类：大数据阅读(3022)

与RDD类似，Spark Streaming也可以让开发人员手动控制，将数据流中的数据持久化到内存中。对DStream调用persist()方法，就可以让Spark Streaming自动将该数据流中的所有产生的RDD，都持久化到内存中。如果要对一个DStream多次执行操作，那么，对DStream持久化是非常有用的。因为多次操作，可以共享使用内存中的一份缓存数据。
对于基于窗口的操作，比如reduceByWindow、reduceByKeyAndWindow，以及基于状态的操作，比如updateStateByKey，默认就隐式开启了持久化机制。即Spark Streaming默认就会将上述操作产生的Dstream中的数据，缓存到内存中，不需要开发人员手动调用persist()方法。
对于通过网络接收数据的输入流，比如socket、Kafka、Flume等，默认的持久化级别，是将数据复制一份，以便于容错。相当于是，用的是类似MEMORY_ONLY_SER_2。
与RDD不同的是，默认的持久化级别，统一都是要序列化的。

未经允许不得转载：技术文章 » 大数据 » 缓存、持久化机制

标签：

相关推荐

微信咨询
关注微信
QQ咨询
QQ咨询
回顶
回顶部