課程簡介

  1. Scala入門

    • Scala快速介紹
    • 實驗:瞭解Scala
  2. Spark基礎

    • 背景與歷史
    • Spark與Hadoop
    • Spark概念與架構
    • Spark生態系統(核心、Spark SQL、MLlib、Streaming)
    • 實驗:安裝與運行Spark
  3. 初識Spark

    • 在本地模式下運行Spark
    • Spark Web UI
    • Spark shell
    • 數據集分析 – 第一部分
    • 檢查RDDs
    • 實驗:探索Spark shell
  4. RDDs

    • RDDs概念
    • 分區
    • RDD操作/轉換
    • RDD類型
    • 鍵值對RDDs
    • 在RDD上執行MapReduce
    • 緩存與持久化
    • 實驗:創建與檢查RDDs;緩存RDDs
  5. Spark API編程

    • Spark API/RDD API介紹
    • 提交第一個Spark程序
    • 調試/日誌記錄
    • 配置屬性
    • 實驗:Spark API編程,提交任務
  6. Spark SQL

    • Spark中的SQL支持
    • 數據框
    • 定義表並導入數據集
    • 使用SQL查詢數據框
    • 存儲格式:JSON/Parquet
    • 實驗:創建與查詢數據框;評估數據格式
  7. MLlib

    • MLlib介紹
    • MLlib算法
    • 實驗:編寫MLib應用程序
  8. GraphX

    • GraphX庫概述
    • GraphX APIs
    • 實驗:使用Spark處理圖數據
  9. Spark Streaming

    • 流處理概述
    • 評估流處理平臺
    • 流處理操作
    • 滑動窗口操作
    • 實驗:編寫Spark流處理應用程序
  10. Spark與Hadoop

    • Hadoop介紹(HDFS/YARN)
    • Hadoop + Spark架構
    • 在Hadoop YARN上運行Spark
    • 使用Spark處理HDFS文件
  11. Spark性能與調優

    • 廣播變量
    • 累加器
    • 內存管理與緩存
  12. Spark運維

    • 在生產環境中部署Spark
    • 示例部署模板
    • 配置
    • 監控
    • 故障排除

最低要求

先決條件

熟悉 Java / Scala / Python 語言(我們的 Scala 和 Python 實驗室) 對Linux開發環境有基本的瞭解(命令行導航/使用VI或nano編輯檔案)

 21 時間:

人數


每位參與者的報價

客戶評論 (6)

即將到來的課程

課程分類