大数据

SparkStreaming简介

大数据实时计算介绍Spark Streaming，其实就是一种Spark提供的，对于大数据，进行实时计算的一种框架。它的底层，其实，也是基于我们之前讲解的Spark Core的。基本的计算模型，还是基于内存的大数据实时计算模型。而...

赞(0) Vben 2019-04-12 阅读(3075)

综合案例：新闻网站关键指标离线统计

新闻网站关键指标离线统计背景新闻网站版块新闻页面新用户注册用户跳出需求分析每天每个页面的PV：PV是Page View，是指一个页面被所有用户访问次数的总和，页面被访问一次就被记录1次PV每天每个页面的UV：UV是User V...

赞(0) Vben 2019-04-12 阅读(2915)

SparkSQLCLI命令行使用

Spark SQL CLI是一个很方便的工具，可以用来在本地模式下运行Hive的元数据服务，并且通过命令行执行针对Hive的SQL查询。但是要注意的是，Spark SQL CLI是不能与Thrift JDBC server进行通信的。如果要启动Spark SQL C...

赞(0) Vben 2019-04-12 阅读(3491)

Thrift JDBC、ODBC Server

Spark SQL的Thrift JDBC/ODBC server是基于Hive 0.13的HiveServer2实现的。这个服务启动之后，最主要的功能就是可以让我们通过Java JDBC来以编程的方式调用Spark SQL。此外，在启动该服务之后，可以通过Spark或Hive...

赞(0) Vben 2019-04-12 阅读(5001)

Flume搭建

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可...

赞(0) Vben 2019-04-10 阅读(2322)

Spark源码编译

掌握了源码编译，就具备了对Spark进行二次开发的基本条件了！如果你要修改Spark源码，进行二次开发，那么首先就得从官网下载指定版本的源码，然后倒入你的ide开发环境，进行源码的修改；接着修改完了，你希望能够将...

赞(0) Vben 2019-04-10 阅读(3067)

Spark集群搭建

Spark安装下载Spark-bin-hadoop将下载的Spark-bin-hadoop包解压缩到/usr/local文件夹下修改Spark-bin-hadoop文件夹名字为spark配置环境变量sh vi .bashrc export SPARK_HOME=/usr/local/spark export PATH=$PATH:...

赞(0) Vben 2019-04-10 阅读(2685)

kafka集群搭建

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞...

赞(0) Vben 2019-04-10 阅读(3075)

Zookeeper集群搭建

ZooKeeper集群搭建搭建Zookeeper的目的是为了后面搭建kafka，搭建kafka的目的是后面的spark streaming要进行实时计算，最常用的场景就是让Spark streaming接通kafka来做实时计算的实验。下载安装ZooKeeper下载ZooKee...

赞(0) Vben 2019-04-10 阅读(3117)

易用性：标准化SQL支持以及更合理的API

标准化SQL支持以及更合理的APISpark最引以为豪的几个特点就是简单、直观、表达性好。Spark 2.0为了继续加强这几个特点，做了两件事情：1、提供标准化的SQL支持；2、统一了Dataframe和Dataset两套API。在标准化SQL支...

赞(0) Vben 2019-04-09 阅读(2506)

Hive搭建

仅仅在spark1上搭建下载安装HIVE下载hive，下载bin版本，不要下载src版本将下载的hive包解压缩到/usr/local文件夹下修改夹名字为hive配置环境变量下载安装mysql安装mysql serveryum install -y mysql...

赞(0) Vben 2019-04-09 阅读(3063)

Hadoop集群搭建

Hadoop集群搭建安装hadoop下载hadoop将下载的hadoop包解压缩到/usr/local文件夹下配置hadoop环境变量配置hadoopcd hadoop/etc/hadoop/修改core-site.xml<property>   <name>fs.default....

赞(0) Vben 2019-03-31 阅读(2250)

CentOS集群搭建

CentOS设置163的yum源的过程cd /etc/yum.repos.d/ rm -rf * cp /usr/local/CentOS6-Base-163.repo . # 自己的repo文件移动到/etc/yum.repos.d/目录中：cp /usr/local/Cen...

赞(0) Vben 2019-03-31 阅读(3004)

与Spark Core整合之每日top3热点搜索词统计案例实战

案例需求数据格式：日期用户搜索词城市平台版本需求：筛选出符合查询条件（城市、平台、版本）的数据统计出每天搜索uv排名前3的搜索词按照每天的top3搜索词的uv搜索总次数，倒序排序将数据保存到hive表中实现思...

赞(0) Vben 2019-03-31 阅读(2960)

Hive On Spark使用

create table students(name string, age int); load data local inpath '/usr/local/spark-study/resources/students.txt' into table stud...

赞(0) Vben 2019-03-31 阅读(3209)

Hive On Spark环境搭建

下载hive解压到/usr/loca/进入conf目录，mv hive-default.xml.template hive-site.xml，修改hive-site.xml<property>   <name>javax.jdo.option.ConnectionURL</name>   &l...

赞(0) Vben 2019-03-31 阅读(3254)

HiveOnSpark背景

Hive是目前大数据领域，事实上的SQL标准。其底层默认是基于MapReduce实现的，但是由于MapReduce速度实在比较慢，因此这两年，陆续出来了新的SQL查询引擎。包括Spark SQL，Hive On Tez，Hive On Spark等。Spark SQL与...

赞(0) Vben 2019-03-31 阅读(2887)

SparkSQL工作原理剖析

工作原理SqlParseAnalyserOptimizerSparkPlan性能优化设置Shuffle过程中的并行度：spark.sql.shuffle.partitions（SQLContext.setConf()）在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设...

赞(0) Vben 2019-03-31 阅读(2600)

UDF自定义函数和UDAF自定义聚合函数

UDF用户自定义函数。Scala版本实例package cn.spark.study.sql import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext import&...

赞(0) Vben 2019-03-31 阅读(3297)

内置函数

Spark 1.5.x版本引入的内置函数在Spark 1.5.x版本，增加了一系列内置函数到DataFrame API中，并且实现了code-generation的优化。与普通的函数不同，DataFrame的函数并不会执行后立即返回一个结果值，而是返回一个Col...

赞(0) Vben 2019-03-31 阅读(3087)

编程那点事