課程簡介
介紹
瞭解 Big Data
Spark概述
Python概述
PySpark概述
- 使用彈性分散式數據集框架分發數據
- 使用 Spark API Operators 分發計算
使用 Spark 設定 Python
設定PySpark
將 Amazon Web Services (AWS) EC2 實例用於Spark
設定Databricks
設置 AWS EMR 集群
學習基礎知識 Python Programming
- 開始使用 Python
- 使用 Jupyter Notebook
- 使用變數和簡單數據類型
- 使用清單
- 使用 if 語句
- 使用用戶輸入
- 使用 while 迴圈
- 實現函數
- 使用類
- 處理文件和異常
- 使用專案、數據和 API
瞭解 Spark DataFrame 的基礎知識
- Spark DataFrames 入門
- 使用Spark實現基本操作
- 使用 Groupby 和 Aggregate 操作
- 使用時間戳和日期
處理Spark DataFrame項目練習
使用 MLlib 瞭解 Machine Learning
使用 MLlib、Spark 和 Python 獲取 Machine Learning
了解回歸
- 學習線性回歸理論
- 實現回歸評估代碼
- 處理樣本線性回歸練習
- 學習邏輯回歸理論
- 實現邏輯回歸代碼
- 進行示例邏輯回歸練習
瞭解 Random Forest 和決策樹
- 學習樹方法理論
- 實現決策樹和 Random Forest 代碼
- 處理樣本 Random Forest 分類練習
使用 K-means 聚類
- 理解 K 均值聚類理論
- 實現 K-means 聚類代碼
- 處理樣本聚類分析練習
使用推薦系統
實現自然語言處理
- 理解 Natural Language Processing (NLP)
- NLP工具概述
- 處理範例 NLP 練習
在 Python 上使用Spark進行流式處理
- 概述:使用Spark進行流式處理
- 樣本 Spark Streaming 運動
結束語
最低要求
- 一般程式設計技能
觀眾
- 開發人員
- IT 專業人員
- 數據科學家
客戶評論 (6)
我喜歡它的實用性。非常喜歡將理論知識應用到實際例子中。
Aurelia-Adriana - Allianz Services Romania
課程 - Python and Spark for Big Data (PySpark)
機器翻譯
課程涉及一系列非常複雜的相關主題,Pablo對每個主題都有深入的專長。有時由於溝通或時間壓力,一些細微之處未能完全傳達,可能因此未能完全達到預期。此外,遇到了一些UHG/Azure Databricks的設置問題,但Pablo/UHG在問題顯現後迅速解決了這些問題——這讓我看到了UHG與Pablo之間的高度理解與專業素養。
Michael Monks - Tech NorthWest Skillnet
課程 - Python and Spark for Big Data (PySpark)
機器翻譯
個性化關注。
ARCHANA ANILKUMAR - PPL
課程 - Python and Spark for Big Data (PySpark)
機器翻譯
實踐培訓。
Abraham Thomas - PPL
課程 - Python and Spark for Big Data (PySpark)
機器翻譯
課程在Jupyter notebook中進行。主題按照邏輯順序編排,自然地幫助課程從較簡單的部分過渡到更復雜的內容。我已是Python的高級用戶,並有機器學習背景,因此發現這門課程比可能參加培訓的一些同學更容易跟上。我很欣賞跳過了一些最基本的概念,而專注於最重要的內容。
Angela DeLaMora - ADT, LLC
課程 - Python and Spark for Big Data (PySpark)
機器翻譯
實踐任務
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
課程 - Python and Spark for Big Data (PySpark)
機器翻譯