与RDD类似,Spark Streaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中。对DStream调用persist()方法,就可以让Spark Streaming自动将该数据流中的所有产生的RDD,都持久化到内存中。如果要对一个DStream多次执行操作,那么,对DStream持久化是非常有用的。因为多次操作,可以共享使用内存中的一份缓存数据。
对于基于窗口的操作,比如reduceByWindow、reduceByKeyAndWindow,以及基于状态的操作,比如updateStateByKey,默认就隐式开启了持久化机制。即Spark Streaming默认就会将上述操作产生的Dstream中的数据,缓存到内存中,不需要开发人员手动调用persist()方法。
对于通过网络接收数据的输入流,比如socket、Kafka、Flume等,默认的持久化级别,是将数据复制一份,以便于容错。相当于是,用的是类似MEMORY_ONLY_SER_2。
与RDD不同的是,默认的持久化级别,统一都是要序列化的。
缓存、持久化机制
相关推荐
- 乐企中发票额度有效期是多久?
- 乐企数电票额度
- 乐企自动开票怎么开?
- 乐企直连是什么模式?
- 什么是JNPF低代码平台?
- 乐企直连是什么意思
- 税务乐企平台是什么?
- 乐企自用直连服务是什么?
- Building for 'iOS-simulator', but linking in object file (/Users/caohaifeng/Code/SDK_3_99/SDK/Libs/BMKLocationKit.framework/BMKLocationKit[arm64][3](BMKLocationUtil.o)) built for 'iOS'
- 本应用使用 HBuilderX3.3.11编译或对应的cli版本编译,而手机端SDK版本是3.99。不匹配的版本可能造成应用异常。