编程那点事 编程那点事编程那点事

大数据

接收flume实时数据流

接收flume实时数据流

flume风格的基于push的方式Flume被设计为可以在agent之间推送数据,而不一定是从agent将数据传输到sink中。在这种方式下,Spark Streaming需要启动一个作为Avro Agent的Receiver,来让flume可以推送数据过来。下面是...

赞(0) Vben 阅读(3411)
高阶技术之自定义Receiver

高阶技术之自定义Receiver

spark streaming可以从任何数据源来接收数据,哪怕是除了它内置支持的数据源以外的其他数据源(比如flume、kafka、socket等)。如果我们想要从spark streaming没有内置支持的数据源中接收实时数据,那么我们需要自己...

赞(0) Vben 阅读(3587)
接收flume实时数据流

接收flume实时数据流

flume风格的基于push的方式Flume被设计为可以在agent之间推送数据,而不一定是从agent将数据传输到sink中。在这种方式下,Spark Streaming需要启动一个作为Avro Agent的Receiver,来让flume可以推送数据过来。下面是...

赞(0) Vben 阅读(2488)
flume安装

flume安装

安装flume下载flume解压到/usr/local目录下重命名为mv apache-flume-1.5.0-cdh5.3.6-bin flume配置环境变量修改配置文件vi conf/flume-conf.properties#agent1表示代理名称agent1.sources=source1 agent1.sink...

赞(0) Vben 阅读(2257)
性能调优

性能调优

数据接收并行度调优通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上...

赞(0) Vben 阅读(2845)
容错机制以及事务语义详解

容错机制以及事务语义详解

容错机制的背景要理解Spark Streaming提供的容错机制,先回忆一下Spark RDD的基础容错语义:RDD,Ressilient Distributed Dataset,是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算...

赞(0) Vben 阅读(2702)
部署、升级和监控应用程序

部署、升级和监控应用程序

部署应用程序有一个集群资源管理器,比如standalone模式下的Spark集群,Yarn模式下的Yarn集群等。打包应用程序为一个jar包,课程中一直都有演示。为executor配置充足的内存,因为Receiver接受到的数据,是要存储在Ex...

赞(0) Vben 阅读(2658)
Checkpoint机制

Checkpoint机制

概述每一个Spark Streaming应用,正常来说,都是要7 * 24小时运转的,这就是实时计算程序的特点。因为要持续不断的对数据进行计算。因此,对实时计算应用的要求,应该是必须要能够对与应用程序逻辑无关的失败,进行...

赞(0) Vben 阅读(3364)
缓存、持久化机制

缓存、持久化机制

与RDD类似,Spark Streaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中。对DStream调用persist()方法,就可以让Spark Streaming自动将该数据流中的所有产生的RDD,都持久化到内存中。如果要对一个DS...

赞(0) Vben 阅读(3149)
Stream的output操作以及foreachRDD详解

Stream的output操作以及foreachRDD详解

output操作OutputMeaningprint打印每个batch中的前10个元素,主要用于测试,或者是不需要执行什么output操作时,用于简单触发一下job。saveAsTextFile(prefix, [suffix])将每个batch的数据保存到文件中。每个batch的...

赞(0) Vben 阅读(4459)
updateStateByKey以及基于缓存的实时wordcount程序

updateStateByKey以及基于缓存的实时wordcount程序

updateStateByKey操作,可以让我们为每个key维护一份state,并持续不断的更新该state。首先,要定义一个state,可以是任意的数据类型;其次,要定义state更新函数——指定一个函数如何使用之前的state和新值来更新stat...

赞(0) Vben 阅读(2553)
DStream的transformation操作概述

DStream的transformation操作概述

TransformationMeaningmap对传入的每个元素,返回一个新的元素flatMap对传入的每个元素,返回一个或多个元素filter对传入的元素返回true或false,返回的false的元素被过滤掉union将两个DStream进行合并count返回元素...

赞(0) Vben 阅读(2280)
输入DStream和Receiver详解原理介绍

输入DStream和Receiver详解原理介绍

输入DStream代表了来自数据源的输入数据流。在之前的wordcount例子中,lines就是一个输入DStream(JavaReceiverInputDStream),代表了从netcat(nc)服务接收到的数据流。除了文件数据流之外,所有的输入DStream都...

赞(0) Vben 阅读(2333)
StreamingContext详解

StreamingContext详解

有两种创建StreamingContext的方式:val conf = new SparkConf().setAppName(appName).setMaster(master);val ssc = new StreamingContext(conf, Seconds(1));Streami...

赞(0) Vben 阅读(3617)
实时wordcount程序开发

实时wordcount程序开发

安装nc工具:yum install nc如果遇到错误nc: Protocol not available,是因为版本太高删除原来的ncyum erase nc下载较低版本的nc的.rpm文件wget http://vault.centos.org/6.3/os/i386/Packages/nc-1....

赞(0) Vben 阅读(2627)

编程那点事 更专业 更方便

登录

找回密码

注册