专注编程入门及提高,探究程序员职业规划之道 - 编程那点事

大数据

Spark源码编译

2019-04-11 22:00:17 阅读(2921)

掌握了源码编译，就具备了对Spark进行二次开发的基本条件了！如果你要修改Spark源码，进行二次开发，那么首先就得从官网下载指定版本的源码，然后倒入你的ide开发环境，进行源码的修改；接着修改完了，你希望能够将修改后的源码部署到集群上面去，那么是不是得对源码进行编译，编译成可以在linux集群上进行部署的格式包吧！编译过程下载spark...

大数据

Spark安装下载Spark-bin-hadoop将下载的Spark-bin-hadoop包解压缩到/usr/local文件夹下修改Spark-bin-hadoop文件夹名字为spark配置环境变量sh vi .bashrc export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib source .bashrc配置Spark修改spark-env...

大数据

kafka集群搭建

2019-04-11 12:00:51 阅读(2941)

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个...

大数据

Zookeeper集群搭建

2019-04-10 22:00:53 阅读(2972)

ZooKeeper集群搭建搭建Zookeeper的目的是为了后面搭建kafka，搭建kafka的目的是后面的spark streaming要进行实时计算，最常用的场景就是让Spark streaming接通kafka来做实时计算的实验。下载安装ZooKeeper下载ZooKeeper将下载的ZooKeeper包解压缩到/usr/local文件夹下修改ZooKeeper文件夹名字为zk配置环境变量配置ZooKeeper配置zoo.cfg`sh cd...

IT运维

Windows客户端内网穿透工具frp设置开机自启动

2019-04-10 18:00:12 阅读(9400)

通过前面的2篇教程Windows服务器端内网穿透工具frps安装及使用教程Windows客户端内网穿透工具frpc安装及使用教程我们已经可以通过阿里云服务器远程到非公网的电脑了，如果自启动的话那就更完美了。1、设置frps自启动，自启动的脚本如下Set ws = CreateObject("Wscript.Shell") ws.run "cmd /c ...

大数据

Hive搭建

2019-04-09 22:00:47 阅读(2919)

仅仅在spark1上搭建下载安装HIVE下载hive，下载bin版本，不要下载src版本将下载的hive包解压缩到/usr/local文件夹下修改夹名字为hive配置环境变量下载安装mysql安装mysql serveryum install -y mysql-server service mysqld start chkconfig mysqld on安装mysql connectoryum install -y ...

大数据

易用性：标准化SQL支持以及更合理的API

2019-04-09 18:00:01 阅读(2351)

标准化SQL支持以及更合理的APISpark最引以为豪的几个特点就是简单、直观、表达性好。Spark 2.0为了继续加强这几个特点，做了两件事情：1、提供标准化的SQL支持；2、统一了Dataframe和Dataset两套API。在标准化SQL支持方面，引入了新的ANSI-SQL解析器，提供标准化SQL的解析功能，而且还提供了子查询的支持。Spark现在可以运行完整的99个TPC-DS...

大数据

Hadoop集群搭建

2019-04-09 12:00:24 阅读(2105)

Hadoop集群搭建安装hadoop下载hadoop将下载的hadoop包解压缩到/usr/local文件夹下配置hadoop环境变量配置hadoopcd hadoop/etc/hadoop/修改core-site.xml<property> <name>fs.default.name</name> <value>hdfs://spark1:9000</value> </property>修改hdfs-site.xml<pr...

大数据

CentOS集群搭建

2019-04-08 22:00:30 阅读(2872)

CentOS设置163的yum源的过程cd /etc/yum.repos.d/ rm -rf * cp /usr/local/CentOS6-Base-163.repo . # 自己的repo文件移动到/etc/yum.repos.d/目录中：cp /usr/local/CentOS6-Base-163.repo . # 修改repo文件，把所有gpgcheck属性修改为0 # 2、配置yum yum clean all ...

大数据

与Spark Core整合之每日top3热点搜索词统计案例实战

2019-04-08 18:00:59 阅读(2785)

案例需求数据格式：日期用户搜索词城市平台版本需求：筛选出符合查询条件（城市、平台、版本）的数据统计出每天搜索uv排名前3的搜索词按照每天的top3搜索词的uv搜索总次数，倒序排序将数据保存到hive表中实现思路分析针对原始数据（HDFS文件），获取输入的RDD使用filter算子，去针对输入RDD中的数据，进行数据过滤，过滤出符合查询条件的...

编程那点事

最新发布

Spark源码编译

Spark集群搭建

kafka集群搭建

Zookeeper集群搭建

Windows客户端内网穿透工具frp设置开机自启动

Hive搭建

易用性：标准化SQL支持以及更合理的API

Hadoop集群搭建

CentOS集群搭建

与Spark Core整合之每日top3热点搜索词统计案例实战

热门文章

热门标签

子站文章

专注编程入门及提高，探究程序员职业规划之道！

关注微信

QQ咨询

回顶部