大数据

大数据

易用性：标准化SQL支持以及更合理的API

2019-04-09 18:00:01 阅读(2346)

标准化SQL支持以及更合理的APISpark最引以为豪的几个特点就是简单、直观、表达性好。Spark 2.0为了继续加强这几个特点，做了两件事情：1、提供标准化的SQL支持；2、统一了Dataframe和Dataset两套API。在标准化SQL支持方面，引入了新的ANSI-SQL解析器，提供标准化SQL的解析功能，而且还提供了子查询的支持。Spark现在可以运行完整的99个TPC-DS...

大数据

Hadoop集群搭建安装hadoop下载hadoop将下载的hadoop包解压缩到/usr/local文件夹下配置hadoop环境变量配置hadoopcd hadoop/etc/hadoop/修改core-site.xml<property> <name>fs.default.name</name> <value>hdfs://spark1:9000</value> </property>修改hdfs-site.xml<pr...

大数据

CentOS集群搭建

2019-04-08 22:00:30 阅读(2869)

CentOS设置163的yum源的过程cd /etc/yum.repos.d/ rm -rf * cp /usr/local/CentOS6-Base-163.repo . # 自己的repo文件移动到/etc/yum.repos.d/目录中：cp /usr/local/CentOS6-Base-163.repo . # 修改repo文件，把所有gpgcheck属性修改为0 # 2、配置yum yum clean all ...

大数据

与Spark Core整合之每日top3热点搜索词统计案例实战

2019-04-08 18:00:59 阅读(2780)

案例需求数据格式：日期用户搜索词城市平台版本需求：筛选出符合查询条件（城市、平台、版本）的数据统计出每天搜索uv排名前3的搜索词按照每天的top3搜索词的uv搜索总次数，倒序排序将数据保存到hive表中实现思路分析针对原始数据（HDFS文件），获取输入的RDD使用filter算子，去针对输入RDD中的数据，进行数据过滤，过滤出符合查询条件的...

大数据

Hive On Spark使用

2019-04-08 12:00:01 阅读(3010)

create table students(name string, age int); load data local inpath '/usr/local/spark-study/resources/students.txt' into table students;使用Hive On Spark非常简单只要用set hive.execution.engine命令设置Hive的执行引擎为spark即可默认是mrset hive.ex...

大数据

Hive On Spark环境搭建

2019-04-07 22:00:05 阅读(3097)

下载hive解压到/usr/loca/进入conf目录，mv hive-default.xml.template hive-site.xml，修改hive-site.xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://spark1:3306/hive_metadata_2?createDatabaseIfNotExist=true</value> </property> &l...

大数据

HiveOnSpark背景

2019-04-07 18:00:33 阅读(2698)

Hive是目前大数据领域，事实上的SQL标准。其底层默认是基于MapReduce实现的，但是由于MapReduce速度实在比较慢，因此这两年，陆续出来了新的SQL查询引擎。包括Spark SQL，Hive On Tez，Hive On Spark等。Spark SQL与Hive On Spark是不一样的。Spark SQL是Spark自己研发出来的针对各种数据源，包括Hive、JSON、Parquet、JDBC、RDD等都可以执行...

大数据

SparkSQL工作原理剖析

2019-04-07 12:00:49 阅读(2424)

工作原理SqlParseAnalyserOptimizerSparkPlan性能优化设置Shuffle过程中的并行度：spark.sql.shuffle.partitions（SQLContext.setConf()）在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。编写SQL时，尽量给出明确的列名，比如select name from students。不要写se...

大数据

UDF自定义函数和UDAF自定义聚合函数

2019-04-06 22:00:14 阅读(3169)

UDF用户自定义函数。Scala版本实例package cn.spark.study.sql import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext import org.apache.spark.sql.Row import org.apache.spark.sql.types.StructType import org.apache.spark.sql.typ...

大数据

内置函数

2019-04-06 18:00:40 阅读(2980)

Spark 1.5.x版本引入的内置函数在Spark 1.5.x版本，增加了一系列内置函数到DataFrame API中，并且实现了code-generation的优化。与普通的函数不同，DataFrame的函数并不会执行后立即返回一个结果值，而是返回一个Column对象，用于在并行作业中进行求值。Column可以用在DataFrame的操作之中，比如select，filter，groupBy等。函数的输入值，也...

编程那点事

易用性：标准化SQL支持以及更合理的API

Hadoop集群搭建

CentOS集群搭建

与Spark Core整合之每日top3热点搜索词统计案例实战

Hive On Spark使用

Hive On Spark环境搭建

HiveOnSpark背景

SparkSQL工作原理剖析

UDF自定义函数和UDAF自定义聚合函数

内置函数

热门文章

热门标签

子站文章

关注微信

QQ咨询

回顶部