编程那点事编程那点事

专注编程入门及提高
探究程序员职业规划之道!

大数据

Spark 1.x的Volcano Iterator Model深度剖析
大数据

Spark 1.x的Volcano Iterator Model深度剖析

阅读(2714)

深入剖析Spark 2.x的第二代tungsten引擎原理之前,先看一下当前的Spark的工作原理。我们可以通过一个SQL来举例,这个SQL扫描了单个表,然后对属性等于指定值的记录进行汇总计数。SQL语句如下:select count(*) from store_sales where ss_item_sk=1000要执行这个查询,Spark 1.x会使用一种最流行、最经典的查询求值...

智能化:Structured Streaming介绍
大数据

智能化:Structured Streaming介绍

阅读(2003)

Spark Streaming应该说是将离线计算操作和流式计算操作统一起来的大数据计算框架之一。从Spark 0.7开始引入的Spark Streaming,为开发人员提供了很多有用的特性:一次且仅一次的语义支持、容错性、强一致性保证、高吞吐量。但是实际上在真正工业界的流式计算项目中,并不仅仅只是需要一个流式计算引擎。这些项目实际上需要深度地使用批处理计...

高性能:让Spark作为编译器来运行
大数据

高性能:让Spark作为编译器来运行

阅读(1932)

Spark 2.0的一个重大的特点就是搭载了最新的第二代tungsten引擎。第二代tungsten引擎吸取了现代编译器以及并行数据库的一些重要的思想,并且应用在了spark的运行机制中。其中一个核心的思想,就是在运行时动态地生成代码,在这些自动动态生成的代码中,可以将所有的操作都打包到一个函数中,这样就可以避免多次virtual function call,而且还...

Spark2.0新特性
大数据

Spark2.0新特性

阅读(2508)

Spark Core&Spark SQLAPIdataframe与dataset统一,dataframe只是dataset[Row]的类型别名SparkSession:统一SQLContext和HiveContext,新的上下文入口为SparkSession开发的一种新的流式调用的configuration apiaccumulator功能增强:便捷api、web ui支持、性能更高dataset的增强聚合apiSQL支持sql 2003标准支持ansi-sql和hive ql的sql pars...

聚合函数
大数据

聚合函数

阅读(3368)

avg、sum、max、min、count、countDistinctcollect_list、collect_setcollect_list,就是将一个分组内,指定字段的值都收集到一起,不去重collect_set,同上,但是唯一的区别是,会去重都用于将同一个分组内的指定字段的值串起来,变成一个数组,常用于行转列Scala代码package cn.study.spark2 import org.apache.spark.sql.SparkS...

typed操作和untyped操作
大数据

typed操作和untyped操作

阅读(2320)

typed操作coalesce、repartition都是用来重新定义分区的区别在于:coalesce,只能用于减少分区数量,而且可以选择不发生shufflerepartiton,可以增加分区,也可以减少分区,必须会发生shuffle,相当于是进行了一次重分区操作distinct、dropDuplicates都是用来进行去重的,区别在哪儿呢?distinct,是根据每一条数据,进行完整内容的比对和去重...

action操作和基础操作
大数据

action操作和基础操作

阅读(1786)

action操作collect、count、first、foreach、reduce、show、takeScala代码示例package cn.study.spark2 import org.apache.spark.sql.SparkSession /**  * action操作详解  *   * collect、count、first、foreach、reduce、show、take  *   */ object ActionOperation&n...

untypd操作案例:计算部门平均年龄与薪资
大数据

untypd操作案例:计算部门平均年龄与薪资

阅读(2210)

需求:只统计年龄在20岁以上的员工根据部门名称和员工性别为粒度来进行统计统计出每个部门分性别的平均薪资和年龄Scala代码示例package cn.study.spark2 import org.apache.spark.sql.SparkSession /**  * 计算部门的平均薪资和年龄  *   * 需求:  * 1、只统计年龄在20岁以上的员工...

SparkSession、Dataframe、Dataset开发入门
大数据

SparkSession、Dataframe、Dataset开发入门

阅读(2092)

SparkSQLSparkSQLSpark SQL是Spark的一个模块,主要用于处理结构化的数据。与基础的Spark RDD API不同的是,Spark SQL的接口会向提供更多的信息,包括数据结构以及要执行的计算操作等。在Spark SQL内部,会使用这些信息执行一些额外的优化。使用Spark SQL有两种方式,包括SQL语句以及Dataset API。但是在计算的时候,无论你是用哪种接口去进行...