编程那点事 编程那点事编程那点事

最新发布

HiveOnSpark背景

HiveOnSpark背景

Hive是目前大数据领域,事实上的SQL标准。其底层默认是基于MapReduce实现的,但是由于MapReduce速度实在比较慢,因此这两年,陆续出来了新的SQL查询引擎。包括Spark SQL,Hive On Tez,Hive On Spark等。Spark SQL与...

赞(0) Vben 大数据 阅读(2718)
SparkSQL工作原理剖析

SparkSQL工作原理剖析

工作原理SqlParseAnalyserOptimizerSparkPlan性能优化设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设...

赞(0) Vben 大数据 阅读(2449)
内置函数

内置函数

Spark 1.5.x版本引入的内置函数在Spark 1.5.x版本,增加了一系列内置函数到DataFrame API中,并且实现了code-generation的优化。与普通的函数不同,DataFrame的函数并不会执行后立即返回一个结果值,而是返回一个Col...

赞(0) Vben 大数据 阅读(2996)
JDBC数据源

JDBC数据源

Spark SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据,依然由DataFrame表示,可以很方便地使用Spark Core提供的各种算子进行处理。这里有一个经验之谈,实际上用Spark SQL处理JDBC中的数据是非...

赞(0) Vben 大数据 阅读(2342)
Hive数据源

Hive数据源

Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时,必须创建HiveContext,而不是SQLContext。HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用HiveQL语法编写SQL的功能。除了sq...

赞(0) Vben 大数据 阅读(2984)
JSON数据源

JSON数据源

Spark SQL可以自动推断JSON文件的元数据,并且加载其数据,创建一个DataFrame。可以使用SQLContext.read.json()方法,针对一个元素类型为String的RDD,或者是一个JSON文件。但是要注意的是,这里使用的JSON文件与传...

赞(0) Vben 大数据 阅读(2686)
数据源Parquet

数据源Parquet

使用编程方式加载数据Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。列式存储和行式存储相比有哪些优势呢?可以跳...

赞(0) Vben 大数据 阅读(2747)
通用的load和save操作

通用的load和save操作

通用的load和save操作对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFrame中的数据...

赞(0) Vben 大数据 阅读(2742)
使用反射方式将RDD转换为DataFrame

使用反射方式将RDD转换为DataFrame

RDD转换为DataFrame为什么要将RDD转换为DataFrame?因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下,针对HDFS中的数据,直接就可以...

赞(0) Vben 大数据 阅读(3473)

编程那点事 更专业 更方便

登录

找回密码

注册