感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
PySpark與機器學習
模塊1:大數據與Spark基礎
- 大數據生態系統概述及Spark在現代數據平臺中的作用
- 理解Spark架構:驅動、執行器、集羣管理器、惰性求值、DAG和執行計劃
- RDD與DataFrame API的區別及各自的使用場景
- 創建和配置SparkSession,瞭解應用程序配置基礎
模塊2:PySpark DataFrames
- 從企業數據源和格式(CSV、JSON、Parquet、Delta)中讀取和寫入數據
- 使用PySpark DataFrames:轉換、操作、列表達式、過濾、連接和聚合
- 實現高級操作,如窗口函數、處理時間戳和嵌套數據
- 應用數據質量檢查,編寫可重用、可維護的PySpark代碼
模塊3:高效處理大規模數據集
- 理解性能基礎:分區策略、Shuffle行爲、緩存和持久化
- 使用優化技術,包括廣播連接和執行計劃分析
- 高效處理大規模數據集及可擴展數據工作流的最佳實踐
- 理解企業環境中的模式演化和現代存儲格式
模塊4:大規模特徵工程
- 使用Spark MLlib進行特徵工程:處理缺失值、編碼分類變量和特徵縮放
- 設計可重用的預處理步驟,爲機器學習管道準備數據集
- 特徵選擇簡介及處理不平衡數據集
模塊5:使用Spark MLlib進行機器學習
- 理解MLlib架構及Estimator/Transformer模式
- 大規模訓練迴歸和分類模型(線性迴歸、邏輯迴歸、決策樹、隨機森林)
- 在分佈式機器學習工作流中比較模型並解釋結果
模塊6:端到端機器學習管道
- 構建端到端機器學習管道,結合預處理、特徵工程和建模
- 應用訓練/驗證/測試集劃分策略
- 使用網格搜索和隨機搜索進行交叉驗證和超參數調優
- 構建可重複的機器學習實驗
模塊7:模型評估與實用機器學習決策
- 爲迴歸和分類問題應用適當的評估指標
- 識別過擬合和欠擬合,做出實用的模型選擇決策
- 解釋特徵重要性,理解模型行爲
模塊8:生產與企業實踐
- 在Spark中持久化和加載模型
- 在大規模數據集上實現批量推理工作流
- 理解企業環境中的機器學習生命週期
- 版本控制、實驗跟蹤概念和基本測試策略簡介
實踐成果
- 能夠獨立使用PySpark
- 能夠高效處理大規模數據集
- 能夠進行大規模特徵工程
- 能夠構建可擴展的機器學習管道
最低要求
參與者應具備以下背景:
基本的Python編程知識,包括函數、數據結構和庫的使用
對數據分析概念(如數據集、轉換和聚合)的基本理解
SQL和關係數據概念的基礎知識
對機器學習概念(如訓練數據集、特徵和評估指標)的初步瞭解
熟悉命令行環境和基本軟件開發實踐者優先
有Pandas、NumPy或類似數據處理庫的經驗會有所幫助,但不是必需的。
21 小時
客戶評論 (1)
我喜歡它的實用性。非常喜歡將理論知識應用到實際例子中。
Aurelia-Adriana - Allianz Services Romania
課程 - Python and Spark for Big Data (PySpark)
機器翻譯