大数据

接收flume实时数据流

flume风格的基于push的方式Flume被设计为可以在agent之间推送数据，而不一定是从agent将数据传输到sink中。在这种方式下，Spark Streaming需要启动一个作为Avro Agent的Receiver，来让flume可以推送数据过来。下面是...

赞(0) Vben 2019-04-27 阅读(3519)

高阶技术之自定义Receiver

spark streaming可以从任何数据源来接收数据，哪怕是除了它内置支持的数据源以外的其他数据源（比如flume、kafka、socket等）。如果我们想要从spark streaming没有内置支持的数据源中接收实时数据，那么我们需要自己...

赞(0) Vben 2019-04-24 阅读(3697)

接收flume实时数据流

flume风格的基于push的方式Flume被设计为可以在agent之间推送数据，而不一定是从agent将数据传输到sink中。在这种方式下，Spark Streaming需要启动一个作为Avro Agent的Receiver，来让flume可以推送数据过来。下面是...

赞(0) Vben 2019-04-24 阅读(2595)

flume安装

安装flume下载flume解压到/usr/local目录下重命名为mv apache-flume-1.5.0-cdh5.3.6-bin flume配置环境变量修改配置文件vi conf/flume-conf.properties#agent1表示代理名称agent1.sources=source1 agent1.sink...

赞(0) Vben 2019-04-22 阅读(2362)

性能调优

数据接收并行度调优通过网络接收数据时（比如Kafka、Flume），会将数据反序列化，并存储在Spark的内存中。如果数据接收称为系统的瓶颈，那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上...

赞(0) Vben 2019-04-16 阅读(2960)

容错机制以及事务语义详解

容错机制的背景要理解Spark Streaming提供的容错机制，先回忆一下Spark RDD的基础容错语义：RDD，Ressilient Distributed Dataset，是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算...

赞(0) Vben 2019-04-16 阅读(2823)

部署、升级和监控应用程序

部署应用程序有一个集群资源管理器，比如standalone模式下的Spark集群，Yarn模式下的Yarn集群等。打包应用程序为一个jar包，课程中一直都有演示。为executor配置充足的内存，因为Receiver接受到的数据，是要存储在Ex...

赞(0) Vben 2019-04-16 阅读(2784)

Checkpoint机制

概述每一个Spark Streaming应用，正常来说，都是要7 * 24小时运转的，这就是实时计算程序的特点。因为要持续不断的对数据进行计算。因此，对实时计算应用的要求，应该是必须要能够对与应用程序逻辑无关的失败，进行...

赞(0) Vben 2019-04-16 阅读(3493)

缓存、持久化机制

与RDD类似，Spark Streaming也可以让开发人员手动控制，将数据流中的数据持久化到内存中。对DStream调用persist()方法，就可以让Spark Streaming自动将该数据流中的所有产生的RDD，都持久化到内存中。如果要对一个DS...

赞(0) Vben 2019-04-16 阅读(3282)

Stream的output操作以及foreachRDD详解

output操作OutputMeaningprint打印每个batch中的前10个元素，主要用于测试，或者是不需要执行什么output操作时，用于简单触发一下job。saveAsTextFile(prefix, [suffix])将每个batch的数据保存到文件中。每个batch的...

赞(0) Vben 2019-04-16 阅读(4562)

window滑动窗口以及热点搜索词滑动统计案例实战

Spark Streaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据，会被聚合起来执行计算操作，然后生成的RDD，会作为window DStream的一个RDD。比如下图...

赞(0) Vben 2019-04-16 阅读(2979)

transform以及广告计费日志实时黑名单过滤案例实战

transform操作，应用在DStream上时，可以用于执行任意的RDD到RDD的转换操作。它可以用于实现，DStream API中所没有提供的操作。比如说，DStream API中，并没有提供将一个DStream中的每个batch，与一个特定的RDD进行j...

赞(0) Vben 2019-04-16 阅读(3084)

updateStateByKey以及基于缓存的实时wordcount程序

updateStateByKey操作，可以让我们为每个key维护一份state，并持续不断的更新该state。首先，要定义一个state，可以是任意的数据类型；其次，要定义state更新函数——指定一个函数如何使用之前的state和新值来更新stat...

赞(0) Vben 2019-04-16 阅读(2690)

DStream的transformation操作概述

TransformationMeaningmap对传入的每个元素，返回一个新的元素flatMap对传入的每个元素，返回一个或多个元素filter对传入的元素返回true或false，返回的false的元素被过滤掉union将两个DStream进行合并count返回元素...

赞(0) Vben 2019-04-16 阅读(2400)

输入DStream之Kafka数据源实战（基于Direct的方式）

基于Direct的方式这种新的不基于Receiver的直接方式，是在Spark 1.3中引入的，从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后，这种方式会周期性地查询Kafka，来获得每个topic+partition的最新的offse...

赞(0) Vben 2019-04-12 阅读(2878)

输入DStream之Kafka数据源实战（基于Receiver的方式）

基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那...

赞(0) Vben 2019-04-12 阅读(3518)

输入DStream之基础数据源以及基于HDFS的实时wordcount程序

Socket：之前的wordcount例子，已经演示过了，StreamingContext.socketTextStream()HDFS文件基于HDFS文件的实时计算，其实就是，监控一个HDFS目录，只要其中有新文件出现，就实时处理。相当于处理实时的文件流。stre...

赞(0) Vben 2019-04-12 阅读(2403)

输入DStream和Receiver详解原理介绍

输入DStream代表了来自数据源的输入数据流。在之前的wordcount例子中，lines就是一个输入DStream（JavaReceiverInputDStream），代表了从netcat（nc）服务接收到的数据流。除了文件数据流之外，所有的输入DStream都...

赞(0) Vben 2019-04-12 阅读(2456)

StreamingContext详解

有两种创建StreamingContext的方式：val conf = new SparkConf().setAppName(appName).setMaster(master);val ssc = new StreamingContext(conf, Seconds(1));Streami...

赞(0) Vben 2019-04-12 阅读(3747)

实时wordcount程序开发

安装nc工具：yum install nc如果遇到错误nc: Protocol not available，是因为版本太高删除原来的ncyum erase nc下载较低版本的nc的.rpm文件wget http://vault.centos.org/6.3/os/i386/Packages/nc-1....

赞(0) Vben 2019-04-12 阅读(2738)

编程那点事

接收flume实时数据流

高阶技术之自定义Receiver

接收flume实时数据流

flume安装

性能调优

容错机制以及事务语义详解

部署、升级和监控应用程序

Checkpoint机制

缓存、持久化机制

Stream的output操作以及foreachRDD详解

window滑动窗口以及热点搜索词滑动统计案例实战

transform以及广告计费日志实时黑名单过滤案例实战

updateStateByKey以及基于缓存的实时wordcount程序

DStream的transformation操作概述

输入DStream之Kafka数据源实战（基于Direct的方式）

输入DStream之Kafka数据源实战（基于Receiver的方式）

输入DStream之基础数据源以及基于HDFS的实时wordcount程序

输入DStream和Receiver详解原理介绍

StreamingContext详解

实时wordcount程序开发

置顶推荐

热门文章

随机推荐

热门专题

热门标签

网站统计

编程那点事更专业更方便

切换注册登录

切换登录注册

大数据

置顶推荐

热门文章

随机推荐

热门专题

热门标签

网站统计

编程那点事 更专业 更方便

切换注册登录

切换登录注册

编程那点事更专业更方便