課程簡介

第1周 — 數據工程簡介

  • 數據工程基礎與現代數據棧
  • 數據攝取模式與數據源
  • 批處理與流處理概念及用例
  • 實踐實驗室:將示例數據攝取到雲存儲

第2周 — Databricks Lakehouse Foundation 徽章

  • Databricks 平臺基礎與工作區導航
  • Delta Lake 概念:ACID、時間旅行與模式演進
  • 工作區安全、訪問控制與 Unity Catalog 基礎
  • 實踐實驗室:Delta 表創建與管理

第3周 — Databricks 高級SQL

  • 高級SQL構造與大規模窗口函數
  • 查詢優化、執行計劃與成本感知模式
  • 物化視圖、緩存與性能調優
  • 實踐實驗室:優化大數據集上的分析查詢

第4周 — Databricks 認證的 Apache Spark 開發者(準備)

  • Spark 架構、RDDs、DataFrames 與 Datasets 深入探討
  • 關鍵Spark轉換與操作;性能考慮
  • Spark 流處理基礎與結構化流模式
  • 練習考試題目與實踐測試問題

第5周 — 數據建模簡介

  • 概念:維度建模、星型/雪花型模式設計與規範化
  • Lakehouse 建模與傳統數據倉庫方法
  • 面向分析就緒數據集的設計模式
  • 實踐實驗室:構建可消費的表與視圖

第6周 — 導入工具與數據攝取自動化簡介

  • Databricks 的連接器與攝取工具(AWS Glue、Data Factory、Kafka)
  • 流攝取模式與微批處理設計
  • 數據驗證、質量檢查與模式強制
  • 實踐實驗室:構建彈性攝取管道

第7周 — Git Flow 與數據工程的 CI/CD 簡介

  • Git Flow 分支策略與倉庫組織
  • 筆記本、作業與基礎設施即代碼的 CI/CD 管道
  • 數據代碼的測試、代碼檢查與部署自動化
  • 實踐實驗室:實現基於 Git 的工作流與自動化作業部署

第8周 — Databricks 認證數據工程師助理(準備)與數據工程模式

  • 認證主題回顧與實踐練習
  • 架構模式:青銅/白銀/黃金、CDC、緩慢變化維度
  • 操作模式:監控、警報與數據血緣
  • 實踐實驗室:應用工程模式的端到端管道

第9周 — Airflow 與 Astronomer 簡介;腳本編寫

  • Airflow 概念:DAGs、任務、操作符與調度
  • Astronomer 平臺概述與編排最佳實踐
  • 自動化腳本編寫:數據任務的 Python 腳本模式
  • 實踐實驗室:使用 Airflow DAGs 編排 Databricks 作業

第10周 — 數據可視化、Tableau 與定製化最終項目

  • 將 Tableau 連接到 Databricks 與 BI 層最佳實踐
  • 儀表板設計原則與性能感知的可視化
  • 頂點項目:定製化最終項目的範圍確定、實施與展示
  • 最終展示、同行評審與導師反饋

總結與下一步

最低要求

  • 瞭解基本的SQL和數據概念
  • 具備Python或Scala編程經驗
  • 熟悉雲服務和虛擬環境

受衆

  • 有志於從事數據工程的人員及在職數據工程師
  • ETL/BI開發人員和數據分析工程師
  • 支持數據管道的平臺和DevOps團隊
 350 時間:

人數


每位參與者的報價

即將到來的課程

課程分類