課程簡介
-
Scala入門
- Scala快速介紹
- 實驗:瞭解Scala
-
Spark基礎
- 背景與歷史
- Spark與Hadoop
- Spark概念與架構
- Spark生態系統(核心、Spark SQL、MLlib、Streaming)
- 實驗:安裝與運行Spark
-
初識Spark
- 在本地模式下運行Spark
- Spark Web UI
- Spark shell
- 數據集分析 – 第一部分
- 檢查RDDs
- 實驗:探索Spark shell
-
RDDs
- RDDs概念
- 分區
- RDD操作/轉換
- RDD類型
- 鍵值對RDDs
- 在RDD上執行MapReduce
- 緩存與持久化
- 實驗:創建與檢查RDDs;緩存RDDs
-
Spark API編程
- Spark API/RDD API介紹
- 提交第一個Spark程序
- 調試/日誌記錄
- 配置屬性
- 實驗:Spark API編程,提交任務
-
Spark SQL
- Spark中的SQL支持
- 數據框
- 定義表並導入數據集
- 使用SQL查詢數據框
- 存儲格式:JSON/Parquet
- 實驗:創建與查詢數據框;評估數據格式
-
MLlib
- MLlib介紹
- MLlib算法
- 實驗:編寫MLib應用程序
-
GraphX
- GraphX庫概述
- GraphX APIs
- 實驗:使用Spark處理圖數據
-
Spark Streaming
- 流處理概述
- 評估流處理平臺
- 流處理操作
- 滑動窗口操作
- 實驗:編寫Spark流處理應用程序
-
Spark與Hadoop
- Hadoop介紹(HDFS/YARN)
- Hadoop + Spark架構
- 在Hadoop YARN上運行Spark
- 使用Spark處理HDFS文件
-
Spark性能與調優
- 廣播變量
- 累加器
- 內存管理與緩存
-
Spark運維
- 在生產環境中部署Spark
- 示例部署模板
- 配置
- 監控
- 故障排除
最低要求
先決條件
熟悉 Java / Scala / Python 語言(我們的 Scala 和 Python 實驗室) 對Linux開發環境有基本的瞭解(命令行導航/使用VI或nano編輯檔案)
客戶評論 (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
課程 - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
課程 - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
課程 - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
課程 - Spark for Developers
We know a lot more about the whole environment.
John Kidd
課程 - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.