課程簡介

 

介紹:

  • Apache Spark 在 Hadoop 生態系統中
  • python、scala 的簡短介紹

基礎知識(理論):

  • 建築
  • RDD型
  • 轉型與行動
  • 階段、任務、依賴項

使用 Databricks 環境瞭解基礎知識(動手研討會):

  • 使用 RDD API 的練習
  • 基本操作和轉換函數
  • 貨幣對RDD
  • 加入
  • 緩存策略
  • 使用 DataFrame API 的練習
  • 火花SQL
  • DataFrame:選擇、篩選、分組、排序
  • UDF(使用者定義函數)
  • 查看數據集 API

使用 AWS 環境瞭解部署(動手研討會):

  • AWS Glue 基礎知識
  • 瞭解 AWS EMR 和AWS Glue 之間的差異
  • 兩個環境中的示例作業
  • 瞭解利弊

額外:

  • Apache Airflow 編排簡介

最低要求

程式設計技能(最好是 python,scala)

SQL 基礎知識

  21 時間:

人數



每位參與者的報價

客戶評論 (3)

相關課程

課程分類