PySpark 與機器學習培訓

(1 客戶評論)

本培訓提供實用入門課程，教導如何使用 PySpark 建構可擴展的數據處理和機器學習工作流程。學員將了解 Apache Spark 如何在現代大數據生態系統中運行，以及如何利用分散式計算原理高效處理大型資料集。

課程內容從 Spark 架構和 DataFrame 操作逐步過渡到進階主題，如特徵工程、機器學習模型訓練，以及使用 Spark MLlib 建構端到端 ML 管道。學員還將探討效能優化技術、模型評估策略，以及在企業環境中以規模部署機器學習工作流程的實務作法。

透過實際練習和現實場景演練，學員將學習如何設計高效的數據管道，為機器學習準備資料集，並建構能夠處理企業環境中常見的大量數據的分佈式 ML 模型。

培訓結束後，學員將了解如何將 PySpark 整合至現代數據平台，並在產線導向的環境中應用可擴展的機器學習技術。

課程簡介

PySpark 與機器學習

模組 1：大數據與 Spark 基礎

大數據生態系統概覽，以及 Spark 在現代數據平台中的角色
理解 Spark 架構：驅動程式、執行者、叢集管理器、惰性求值、DAG 和執行規劃
RDD 與 DataFrame API 之間的差異，以及何時使用每種方法
建立和配置 SparkSession，並了解應用程式配置的基礎知識

模組 2：PySpark DataFrames

從企業來源和格式（CSV、JSON、Parquet、Delta）讀取和寫入數據
使用 PySpark DataFrames：轉換、動作、欄位表達式、篩選、聯結和聚合
實施進階操作，如視窗函數、處理時間戳記和處理嵌套數據
應用數據質量檢查，並編寫可重複使用且易於維護的 PySpark 代碼

模組 3：高效處理大型數據集

理解效能基礎知識：分區策略、Shuffle 行為、快取和持久化
使用優化技術，包括廣播聯結和執行計劃分析
高效處理大型數據集，以及可擴展數據工作流的最佳實踐
理解 schema 演進和企業環境中使用的現代存儲格式

模組 4：大規模特徵工程

使用 Spark MLlib 進行特徵工程：處理缺失值、編碼類別變數和特徵縮放
設計可重複使用的預處理步驟，並為機器學習管道準備數據集
特徵選擇簡介，以及處理不平衡數據集

模組 5：使用 Spark MLlib 進行機器學習

理解 MLlib 架構和 Estimator/Transformer 模式
大規模訓練回歸和分類模型（線性回歸、邏輯迴歸、決策樹、隨機森林）
比較模型並在分散式機器學習工作流程中解釋結果

模組 6：端到端 ML 管道

建構結合預處理、特徵工程和建模的端到端機器學習管道
應用訓練/驗證/測試分割策略
使用網格搜索和隨機搜索進行交叉驗證和超參數調優
結構化可復現的機器學習實驗

模組 7：模型評估與實務 ML 決策

應用適合回歸和分類問題的評估指標
識別過擬合和下擬合，並做出實務性的模型選擇決策
解釋特徵重要性，並理解模型行為

模組 8：生產與企業實務

在 Spark 中保存和加載模型
在大型數據集上實施批次推理工作流程
理解企業環境中的機器學習生命週期
版本控制、實驗追蹤概念和基本測試策略簡介

實務成果

能夠自主使用 PySpark
能夠高效處理大型數據集
能夠在大規模下進行特徵工程
能夠建構可擴展的機器學習管道

最低要求

學員应具备以下背景知識：

Python 程式設計基礎，包括函數、資料結構和函式庫的使用對數據分析概念的基本理解，如數據集、轉換和聚合 SQL 和關聯式數據概念的基本知識對機器學習概念的基本了解，如訓練數據集、特徵和評估指標建議熟悉命令列環境和基本軟體開發實踐

具有 Pandas、NumPy 或類似數據處理庫的經驗會有所幫助，但非強制要求。

相關課程

Python 和 Spark for Big Data (PySpark)

21 小時

Stratio：結合火箭和智能模塊的 PySpark

14 小時

PySpark 與機器學習培訓

課程簡介

最低要求

客戶評論 (1)

Aurelia-Adriana - Allianz Services Romania

課程 - Python and Spark for Big Data (PySpark)

即將到來的課程

PySpark 與機器學習

PySpark 與機器學習

PySpark 與機器學習

PySpark 與機器學習

PySpark 與機器學習

課程分類

其他國家的本網站

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites