課程簡介
-
Scala入門
- Scala快速介紹
- 實驗:瞭解Scala
-
Spark基礎
- 背景與歷史
- Spark與Hadoop
- Spark概念與架構
- Spark生態系統(核心、Spark SQL、MLlib、Streaming)
- 實驗:安裝與運行Spark
-
初識Spark
- 在本地模式下運行Spark
- Spark Web UI
- Spark shell
- 數據集分析 – 第一部分
- 檢查RDDs
- 實驗:探索Spark shell
-
RDDs
- RDDs概念
- 分區
- RDD操作/轉換
- RDD類型
- 鍵值對RDDs
- 在RDD上執行MapReduce
- 緩存與持久化
- 實驗:創建與檢查RDDs;緩存RDDs
-
Spark API編程
- Spark API/RDD API介紹
- 提交第一個Spark程序
- 調試/日誌記錄
- 配置屬性
- 實驗:Spark API編程,提交任務
-
Spark SQL
- Spark中的SQL支持
- 數據框
- 定義表並導入數據集
- 使用SQL查詢數據框
- 存儲格式:JSON/Parquet
- 實驗:創建與查詢數據框;評估數據格式
-
MLlib
- MLlib介紹
- MLlib算法
- 實驗:編寫MLib應用程序
-
GraphX
- GraphX庫概述
- GraphX APIs
- 實驗:使用Spark處理圖數據
-
Spark Streaming
- 流處理概述
- 評估流處理平臺
- 流處理操作
- 滑動窗口操作
- 實驗:編寫Spark流處理應用程序
-
Spark與Hadoop
- Hadoop介紹(HDFS/YARN)
- Hadoop + Spark架構
- 在Hadoop YARN上運行Spark
- 使用Spark處理HDFS文件
-
Spark性能與調優
- 廣播變量
- 累加器
- 內存管理與緩存
-
Spark運維
- 在生產環境中部署Spark
- 示例部署模板
- 配置
- 監控
- 故障排除
最低要求
先決條件
熟悉Java、Scala或Python語言(我們的實驗使用Scala和Python)
對Linux開發環境有基本瞭解(使用VI或nano進行命令行導航/編輯文件)
客戶評論 (6)
通過不同的方式完成類似的練習,確實有助於理解每個組件(Hadoop/Spark,獨立/集羣)單獨和一起工作時能做什麼。這讓我想到了在本地機器上開發時與部署到集羣上時,應該如何測試我的應用程序。
Thomas Carcaud - IT Frankfurt GmbH
課程 - Spark for Developers
機器翻譯
Ajay非常友好,樂於助人,並且對他所討論的主題非常瞭解。
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
課程 - Spark for Developers
機器翻譯
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
課程 - Spark for Developers
機器翻譯
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
課程 - Spark for Developers
機器翻譯
We know a lot more about the whole environment.
John Kidd
課程 - Spark for Developers
機器翻譯
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
課程 - Spark for Developers
機器翻譯