感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
介紹、目標和遷移策略
- 課程目標、學員角色定位和成功標準
- 高層遷移方法和風險考量
- 設置工作區、存儲庫和實驗數據集
第1天 — 遷移基礎與架構
- Lakehouse概念、Delta Lake概述和Databricks架構
- SMP與MPP的差異及其對遷移的影響
- Medallion(Bronze→Silver→Gold)設計和Unity Catalog概述
第1天實驗 — 轉換存儲過程
- 將示例存儲過程遷移到筆記本的動手實驗
- 將臨時表和遊標映射到DataFrame轉換
- 驗證並與原始輸出進行比較
第2天 — 高級Delta Lake與增量加載
- ACID事務、提交日誌、版本控制和時間旅行
- Auto Loader、MERGE INTO模式、upserts和模式演變
- OPTIMIZE、VACUUM、Z-ORDER、分區和存儲調優
第2天實驗 — 增量攝取與優化
- 實現Auto Loader攝取和MERGE工作流
- 應用OPTIMIZE、Z-ORDER和VACUUM,驗證結果
- 測量讀寫性能改進
第3天 — Databricks中的SQL、性能與調試
- 分析SQL功能:窗口函數、高階函數、JSON/數組處理
- 解讀Spark UI、DAGs、shuffles、stages、tasks和瓶頸診斷
- 查詢調優模式:廣播連接、提示、緩存和溢出減少
第3天實驗 — SQL重構與性能調優
- 將複雜的SQL過程重構爲優化的Spark SQL
- 使用Spark UI跟蹤識別和解決傾斜和shuffle問題
- 基準測試前後並記錄調優步驟
第4天 — 戰術PySpark:替換過程邏輯
- Spark執行模型:driver、executors、惰性評估和分區策略
- 將循環和遊標轉換爲向量化DataFrame操作
- 模塊化、UDFs/pandas UDFs、widgets和可重用庫
第4天實驗 — 重構過程腳本
- 將過程化ETL腳本重構爲模塊化PySpark筆記本
- 引入參數化、單元測試和可重用函數
- 代碼審查和最佳實踐清單應用
第5天 — 編排、端到端管道與最佳實踐
- Databricks Workflows:任務設計、任務依賴、觸發器和錯誤處理
- 設計增量Medallion管道,包含質量規則和模式驗證
- 與Git(GitHub/Azure DevOps)集成,CI和PySpark邏輯的測試策略
第5天實驗 — 構建完整的端到端管道
- 使用Workflows組裝Bronze→Silver→Gold管道
- 實現日誌記錄、審計、重試和自動化驗證
- 運行完整管道,驗證輸出並準備部署文檔
操作化、治理與生產準備
- Unity Catalog治理、數據血統和訪問控制最佳實踐
- 成本、集羣規模、自動擴展和任務併發模式
- 部署檢查清單、回滾策略和運行手冊創建
最終回顧、知識轉移與後續步驟
- 學員展示遷移工作與經驗教訓
- 差距分析、推薦後續活動與培訓材料交接
- 參考資料、進一步學習路徑與支持選項
最低要求
- 具備數據工程概念的理解。
- 具備SQL和存儲過程(Synapse/SQL Server)的經驗。
- 熟悉ETL編排概念(ADF或類似工具)。
目標學員
- 具有數據工程背景的技術管理人員。
- 將OLAP邏輯遷移到Lakehouse模式的數據工程師。
- 負責Databricks採用的平臺工程師。
35 時間: