課程簡介

    Scala 入門 Scala 簡介 實驗室:瞭解 Scala Spark 基礎知識 背景和歷史 Spark 和 Hadoop Spark 概念和體系結構 Spark 生態系統(core、spark sql、mlib、streaming) 實驗室:安裝和運行Spark 初探Spark 在本地模式下運行 Spark Spark Web 用戶介面 火花殼 分析資料集 – 第 1 部分 檢查 RDD 實驗室:Spark shell 探索 RDD的 RDD 概念 分區 RDD 操作/轉換 RDD 類型 鍵值對 RDD RDD上的MapReduce 緩存和持久性 實驗室:創建和檢查RDD;  緩存 RDD Spark API 程式設計 Spark API / RDD API 簡介 向 Spark 提交第一個程式 調試/日誌記錄 配置屬性 實驗室:在Spark API中程式設計,提交作業 火花 SQL SQL Spark 中的支援 數據幀 定義表和導入數據集 使用 SQL 查詢數據框 儲存格式 : JSON / Parquet 實驗室:創建和查詢數據框;評估數據格式 MLlib 中 MLlib 簡介 MLlib 演算法 實驗室:編寫 MLib 應用程式 圖形X GraphX 庫概述 GraphX 介面 實驗室:使用Spark處理圖形數據 Spark 流式處理 流式處理概述 評估流媒體平臺 流式處理操作 滑動視窗操作 實驗室:編寫spark流式處理應用程式 Spark 和 Hadoop Hadoop 簡介 (HDFS / YARN) Hadoop + Spark 架構 在 Hadoop YARN 上運行 Spark 使用 Spark 處理 HDFS 檔 Spark 性能和調優 廣播變數 蓄電池 記憶體管理和緩存 Spark 操作 在生產環境中部署Spark 範例部署範本 配置 監測 故障排除

最低要求

先決條件

熟悉 Java / Scala / Python 語言(我們的 Scala 和 Python 實驗室) 對Linux開發環境有基本的瞭解(命令行導航/使用VI或nano編輯檔案)

 21 時間:

人數



每位參與者的報價

相關課程

課程分類