编程那点事 编程那点事编程那点事

大数据

SparkStreaming简介

SparkStreaming简介

大数据实时计算介绍Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据实时计算模型。而...

赞(0) Vben 阅读(2919)
综合案例:新闻网站关键指标离线统计

综合案例:新闻网站关键指标离线统计

新闻网站关键指标离线统计背景新闻网站版块新闻页面新用户注册用户跳出需求分析每天每个页面的PV:PV是Page View,是指一个页面被所有用户访问次数的总和,页面被访问一次就被记录1次PV每天每个页面的UV:UV是User V...

赞(0) Vben 阅读(2780)
SparkSQLCLI命令行使用

SparkSQLCLI命令行使用

Spark SQL CLI是一个很方便的工具,可以用来在本地模式下运行Hive的元数据服务,并且通过命令行执行针对Hive的SQL查询。但是要注意的是,Spark SQL CLI是不能与Thrift JDBC server进行通信的。如果要启动Spark SQL C...

赞(0) Vben 阅读(3383)
Thrift JDBC、ODBC Server

Thrift JDBC、ODBC Server

Spark SQL的Thrift JDBC/ODBC server是基于Hive 0.13的HiveServer2实现的。这个服务启动之后,最主要的功能就是可以让我们通过Java JDBC来以编程的方式调用Spark SQL。此外,在启动该服务之后,可以通过Spark或Hive...

赞(0) Vben 阅读(4847)
Flume搭建

Flume搭建

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...

赞(0) Vben 阅读(2215)
Spark源码编译

Spark源码编译

掌握了源码编译,就具备了对Spark进行二次开发的基本条件了!如果你要修改Spark源码,进行二次开发,那么首先就得从官网下载指定版本的源码,然后倒入你的ide开发环境,进行源码的修改;接着修改完了,你希望能够将...

赞(0) Vben 阅读(2936)
Spark集群搭建

Spark集群搭建

Spark安装下载Spark-bin-hadoop将下载的Spark-bin-hadoop包解压缩到/usr/local文件夹下修改Spark-bin-hadoop文件夹名字为spark配置环境变量sh vi .bashrc export SPARK_HOME=/usr/local/spark export PATH=$PATH:...

赞(0) Vben 阅读(2550)
kafka集群搭建

kafka集群搭建

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞...

赞(0) Vben 阅读(2958)
Zookeeper集群搭建

Zookeeper集群搭建

ZooKeeper集群搭建搭建Zookeeper的目的是为了后面搭建kafka,搭建kafka的目的是后面的spark streaming要进行实时计算,最常用的场景就是让Spark streaming接通kafka来做实时计算的实验。下载安装ZooKeeper下载ZooKee...

赞(0) Vben 阅读(2996)
易用性:标准化SQL支持以及更合理的API

易用性:标准化SQL支持以及更合理的API

标准化SQL支持以及更合理的APISpark最引以为豪的几个特点就是简单、直观、表达性好。Spark 2.0为了继续加强这几个特点,做了两件事情:1、提供标准化的SQL支持;2、统一了Dataframe和Dataset两套API。在标准化SQL支...

赞(0) Vben 阅读(2376)
Hive搭建

Hive搭建

仅仅在spark1上搭建下载安装HIVE下载hive,下载bin版本,不要下载src版本将下载的hive包解压缩到/usr/local文件夹下修改夹名字为hive配置环境变量下载安装mysql安装mysql serveryum install -y mysql...

赞(0) Vben 阅读(2947)
Hadoop集群搭建

Hadoop集群搭建

Hadoop集群搭建安装hadoop下载hadoop将下载的hadoop包解压缩到/usr/local文件夹下配置hadoop环境变量配置hadoopcd hadoop/etc/hadoop/修改core-site.xml<property>   <name>fs.default....

赞(0) Vben 阅读(2119)
CentOS集群搭建

CentOS集群搭建

CentOS设置163的yum源的过程cd /etc/yum.repos.d/ rm -rf * cp /usr/local/CentOS6-Base-163.repo . # 自己的repo文件移动到/etc/yum.repos.d/目录中:cp /usr/local/Cen...

赞(0) Vben 阅读(2891)
Hive On Spark使用

Hive On Spark使用

create table students(name string, age int); load data local inpath '/usr/local/spark-study/resources/students.txt' into table stud...

赞(0) Vben 阅读(3042)
Hive On Spark环境搭建

Hive On Spark环境搭建

下载hive解压到/usr/loca/进入conf目录,mv hive-default.xml.template hive-site.xml,修改hive-site.xml<property>   <name>javax.jdo.option.ConnectionURL</name>   &l...

赞(0) Vben 阅读(3119)
HiveOnSpark背景

HiveOnSpark背景

Hive是目前大数据领域,事实上的SQL标准。其底层默认是基于MapReduce实现的,但是由于MapReduce速度实在比较慢,因此这两年,陆续出来了新的SQL查询引擎。包括Spark SQL,Hive On Tez,Hive On Spark等。Spark SQL与...

赞(0) Vben 阅读(2720)
SparkSQL工作原理剖析

SparkSQL工作原理剖析

工作原理SqlParseAnalyserOptimizerSparkPlan性能优化设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设...

赞(0) Vben 阅读(2450)
内置函数

内置函数

Spark 1.5.x版本引入的内置函数在Spark 1.5.x版本,增加了一系列内置函数到DataFrame API中,并且实现了code-generation的优化。与普通的函数不同,DataFrame的函数并不会执行后立即返回一个结果值,而是返回一个Col...

赞(0) Vben 阅读(2997)

编程那点事 更专业 更方便

登录

找回密码

注册