大数据开发者

Developer Training for Spark & Hadoop

掌握诸如Spark(包括SparkStreamingSparkSQL)、FlumeKafka以及Sqoop这样的Hadoop生态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力。

课程时长:4天

课程讲师:原厂商讲师

课程基础:

•学习内容中对ApacheSpark的介绍所涉及的代码及练习使用ScalaPython,因此需至少掌握这两个编程语言中的一种。

•需熟练掌握Linux命令行。

•对SQL有基本了解。

国际认证:CCA Spark and Hadoop Developer

课程体系:

1.Hadoop及生态系统介绍

·Apache Hadoop概述

·数据储存和摄取

·数据处理

·数据分析和探索

·其他生态系统工具

·练习环境及分析应用场景介绍

2.Apache Hadoop 文件存储

·传统大规模系统的问题

·HDFS系统结构

·使用HDFS

·Apache Hadoop文件格式

3. Apache Hadoop 机群上的数据处理

·YARN体系结构

·使用YARN


4.使用Apache Sqoop导入关系数据

·Sqoop简介

·数据导入

·导入的文件选项

·数据导出


5.Apache Spark基础

·什么是Apache Spark

·使用Spark Shell

·RDDs(可恢复的分布式数据集)

·Spark里的函数式编程

6.Spark RDD

·创建RDD

·其他一般性RDD操作

7.使用键值对RDD

·键值对RDD

·Map Reduce

·其他键值对RDD操作

8.编写和运行Apache Spark

·Spark 应用对比Spark Shell

·创建Spark Context

·创建Spark应用(Scala和Java)

·运行Spark应用

·Spark 应用WebUI

9.配置Apache Spark应用

·配置Spark 属性

·运行日志


10. Apache Spark的并行处理

·回顾:机群环境里的Spark

·RDD分区

·基于文件RDD的分区

·HDFS和本地化数据

·执行并行操作

·执行阶段及任务

11.Spark 持久化

·RDD演变族谱、RDD持久化简介

·分布式持久化

12. Apache Spark数据处理的常规模式

·常见Spark应用案例、迭代式算法

·例子:K-Means

13.DataFramesSpark SQL

·Apache Spark SQL和SQL Context

·创建DataFrames

·变更及查询Data Frames

·保存Data Frames

·Data Frames和RDD

·Spark SQL对比Impala和Hive-on-Spark

·Spark2.x版本上的Apache Spark SQL


14.Apache Kafka

·什么是Apache Kafka

·Apache Kafka概述

·如何扩展Apache Kafka

·Apache Kafka机群架构

·Apache Kafka命令性工具


15.使用Apache Flume采集实时数据

·什么是Apache Flume

·Flume基本体系结构

·Flume源、Flume、Flume通道、Flume配置

16.集成Apache Flume和Apache Kafka

·概要、应用案例、配置

17.Apache Spark Streaming:Dstreams介绍

·Apache Spark Streaming:Dstreams概述

·例子:Streaming访问计数

·Dstreams、开发Streaming应用


18.Apache Spark Streaming:批处理

·批处理操作、时间分片、状态操作

·滑动窗口操作

19.Apache Spark Streaming:数据源

·Streaming数据源概述

·Apache FlumeApache Kafka数据源

·例子:使用Direct模式连接Kafka数据源