課程簡介

介紹

瞭解 Big Data

Spark概述

Python概述

PySpark概述

  • 使用彈性分散式數據集框架分發數據
  • 使用 Spark API 運算子分發計算

使用 Spark 設定 Python

設定PySpark

使用適用於Spark的 Amazon Web Services (AWS) EC2 實例

設定Databricks

設置 AWS EMR 集群

學習 Python 程式設計的基礎知識

  • 開始使用 Python
  • 使用 Jupyter Notebook
  • 使用變數和簡單數據類型
  • 使用清單
  • 使用 if 語句
  • 使用用戶輸入
  • 使用 while 迴圈
  • 實現函數
  • 使用類
  • 使用文件和異常
  • 使用專案、數據和 API

瞭解 Spark DataFrame 的基礎知識

  • Spark DataFrames 入門
  • 使用Spark實現基本操作
  • 使用 Groupby 和聚合操作
  • 使用時間戳和日期

處理Spark DataFrame項目練習

使用 MLlib 瞭解 Machine Learning

使用 MLlib、Spark 和 Python 進行機器學習

了解回歸

  • 學習線性回歸理論
  • 實現回歸評估代碼
  • 進行示例線性回歸練習
  • 學習邏輯回歸理論
  • 實現邏輯回歸代碼
  • 進行示例邏輯回歸練習

瞭解 Random Forest 和決策樹

  • 學習樹方法理論
  • 實現決策樹和 Random Forest 代碼
  • 處理樣本 Random Forest 分類練習

使用 K-means 聚類分析

  • 瞭解 K 均值聚類理論
  • 實現 K-means 聚類代碼
  • 處理範例聚類分析練習

使用推薦系統

實現自然語言處理

  • 瞭解 Natural Language Processing (NLP)
  • NLP工具概述
  • 進行示例 NLP 練習

在 Python 上使用Spark進行流式處理

  • 概述:使用Spark進行流式處理
  • 示例 Spark Streaming 練習

閉幕致辭

最低要求

  • 一般程式設計技能

觀眾

  • 開發人員
  • IT 專業人員
  • 數據科學家
  21 時間:
 

人數


開始於

結束於


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客戶評論 (5)

相關課程

課程分類