与RDD类似,Spark Streaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中。对DStream调用persist()方法,就可以让Spark Streaming自动将该数据流中的所有产生的RDD,都持久化到内存中。如果要对一个DStream多次执行操作,那么,对DStream持久化是非常有用的。因为多次操作,可以共享使用内存中的一份缓存数据。
对于基于窗口的操作,比如reduceByWindow、reduceByKeyAndWindow,以及基于状态的操作,比如updateStateByKey,默认就隐式开启了持久化机制。即Spark Streaming默认就会将上述操作产生的Dstream中的数据,缓存到内存中,不需要开发人员手动调用persist()方法。
对于通过网络接收数据的输入流,比如socket、Kafka、Flume等,默认的持久化级别,是将数据复制一份,以便于容错。相当于是,用的是类似MEMORY_ONLY_SER_2。
与RDD不同的是,默认的持久化级别,统一都是要序列化的。
缓存、持久化机制
相关推荐
- C2C 模式解析:消费者与消费者之间的电子商务
- 什么是EAV(Entity-Attribute-Value)模型
- 什么是闭包表,闭包表详解
- B2B 模式解析:企业与企业之间的电子商务
- B2C模式解析:企业与消费者之间的电子商务
- 电子商务模式概述:B2C、B2B、C2C、C2M、O2O
- 电商行业的瓶颈与挑战
- 电子商务的崛起与行业变革
- uni.downloadFile 使用注意事项
- uniapp drawImage 加载网络图片
- getUnlimitedQRCode 获取不限制的微信小程序码
- uni.addPhoneContact正式发布后,在小程序上点击无反应
- IIS 400 错误:Bad Request - Invalid URL HTTP Error 400. The request URL is invalid.
- HTML5+Runtime打包时未添加 Camera 模块,请参考https://ask.dcloud.net.cn/article/283
- 红冲和红字发票在形式上有什么不同?
- C2C 模式解析:消费者与消费者之间的电子商务
- 什么是EAV(Entity-Attribute-Value)模型
- 什么是闭包表,闭包表详解
- B2B 模式解析:企业与企业之间的电子商务
- B2C模式解析:企业与消费者之间的电子商务
- 电子商务模式概述:B2C、B2B、C2C、C2M、O2O
- 电商行业的瓶颈与挑战
- 电子商务的崛起与行业变革
- uni.downloadFile 使用注意事项
- uniapp drawImage 加载网络图片