编程那点事编程那点事

专注编程入门及提高
探究程序员职业规划之道!
Zookeeper集群搭建
大数据

Zookeeper集群搭建

阅读(2514)

ZooKeeper集群搭建搭建Zookeeper的目的是为了后面搭建kafka,搭建kafka的目的是后面的spark streaming要进行实时计算,最常用的场景就是让Spark streaming接通kafka来做实时计算的实验。下载安装ZooKeeper下载ZooKeeper将下载的ZooKeeper包解压缩到/usr/local文件夹下修改ZooKeeper文件夹名字为zk配置环境变量配置ZooKeeper配置zoo.cfg`sh cd...

Windows客户端内网穿透工具frp设置开机自启动
IT运维

Windows客户端内网穿透工具frp设置开机自启动

阅读(8227)

通过前面的2篇教程Windows服务器端内网穿透工具frps安装及使用教程Windows客户端内网穿透工具frpc安装及使用教程我们已经可以通过阿里云服务器远程到非公网的电脑了,如果自启动的话那就更完美了。1、设置frps自启动,自启动的脚本如下Set ws = CreateObject("Wscript.Shell") ws.run "cmd /c ...

Hive搭建
大数据

Hive搭建

阅读(2122)

仅仅在spark1上搭建下载安装HIVE下载hive,下载bin版本,不要下载src版本将下载的hive包解压缩到/usr/local文件夹下修改夹名字为hive配置环境变量下载安装mysql安装mysql serveryum install -y mysql-server service mysqld start chkconfig mysqld on安装mysql connectoryum install -y ...

易用性:标准化SQL支持以及更合理的API
大数据

易用性:标准化SQL支持以及更合理的API

阅读(1847)

标准化SQL支持以及更合理的APISpark最引以为豪的几个特点就是简单、直观、表达性好。Spark 2.0为了继续加强这几个特点,做了两件事情:1、提供标准化的SQL支持;2、统一了Dataframe和Dataset两套API。在标准化SQL支持方面,引入了新的ANSI-SQL解析器,提供标准化SQL的解析功能,而且还提供了子查询的支持。Spark现在可以运行完整的99个TPC-DS...

Hadoop集群搭建
大数据

Hadoop集群搭建

阅读(1620)

Hadoop集群搭建安装hadoop下载hadoop将下载的hadoop包解压缩到/usr/local文件夹下配置hadoop环境变量配置hadoopcd hadoop/etc/hadoop/修改core-site.xml<property>   <name>fs.default.name</name>   <value>hdfs://spark1:9000</value> </property>修改hdfs-site.xml<pr...

CentOS集群搭建
大数据

CentOS集群搭建

阅读(2240)

CentOS设置163的yum源的过程cd /etc/yum.repos.d/ rm -rf * cp /usr/local/CentOS6-Base-163.repo . # 自己的repo文件移动到/etc/yum.repos.d/目录中:cp /usr/local/CentOS6-Base-163.repo . # 修改repo文件,把所有gpgcheck属性修改为0 # 2、配置yum yum clean all ...

与Spark Core整合之每日top3热点搜索词统计案例实战
大数据

与Spark Core整合之每日top3热点搜索词统计案例实战

阅读(2164)

案例需求数据格式:日期 用户 搜索词 城市 平台 版本需求:筛选出符合查询条件(城市、平台、版本)的数据统计出每天搜索uv排名前3的搜索词按照每天的top3搜索词的uv搜索总次数,倒序排序将数据保存到hive表中实现思路分析针对原始数据(HDFS文件),获取输入的RDD使用filter算子,去针对输入RDD中的数据,进行数据过滤,过滤出符合查询条件的...

Hive On Spark使用
大数据

Hive On Spark使用

阅读(2500)

create table students(name string, age int); load data local inpath '/usr/local/spark-study/resources/students.txt' into table students;使用Hive On Spark非常简单只要用set hive.execution.engine命令设置Hive的执行引擎为spark即可默认是mrset hive.ex...

Hive On Spark环境搭建
大数据

Hive On Spark环境搭建

阅读(2612)

下载hive解压到/usr/loca/进入conf目录,mv hive-default.xml.template hive-site.xml,修改hive-site.xml<property>   <name>javax.jdo.option.ConnectionURL</name>   <value>jdbc:mysql://spark1:3306/hive_metadata_2?createDatabaseIfNotExist=true</value> </property> &l...

HiveOnSpark背景
大数据

HiveOnSpark背景

阅读(2212)

Hive是目前大数据领域,事实上的SQL标准。其底层默认是基于MapReduce实现的,但是由于MapReduce速度实在比较慢,因此这两年,陆续出来了新的SQL查询引擎。包括Spark SQL,Hive On Tez,Hive On Spark等。Spark SQL与Hive On Spark是不一样的。Spark SQL是Spark自己研发出来的针对各种数据源,包括Hive、JSON、Parquet、JDBC、RDD等都可以执行...

专注编程入门及提高,探究程序员职业规划之道!