Python and Spark for Big Data (PySpark)培訓

課程代碼

sparkpython

課程時長

21 時間: 同常來說包括休息是 3天

最低要求

  • 一般的編程技能

概觀

Spark是一個用于查詢、分析和轉換大數據的數據處理引擎。Python是一種高級編程語言,因其清晰的語法和代碼可讀性而聞名。PySpark允許用戶將Spark與Python連接。

在這一由講師引導的現場培訓中,學員將通過實踐練習學習如何使用Python和Spark一起分析大數據。

在本次培訓結束後,學員將能夠:

  • 了解如何使用Spark和Python一起分析大數據
  • 開展模擬真實世界環境的練習
  • 用不同的工具和技術通過PySpark進行大數據分析

受衆

  • 開發人員
  • IT專業人士
  • 數據科學家

課程形式

  • 部分講座、部分討論、練習和大量實操

課程簡介

介紹

了解大數據

Spark概述

Python概述

PySpark概述

  • 使用彈性分布式數據集框架分發數據
  • 使用Spark API運算符分布計算

設置Python和Spark

設置PySpark

針對Spark使用Amazon Web Services(AWS)EC2實例

設置數據塊

設置AWS EMR集群

學習Python編程的基礎知識

  • Python入門
  • 使用Jupyter Notebook
  • 使用變量和簡單的數據類型
  • 使用列表
  • 使用 if 語句
  • 使用用戶輸入
  • 處理while循環
  • 實現函數
  • 使用類
  • 處理文件和異常
  • 處理項目、數據、API

學習Spark DataFrame的基礎知識

  • Spark DataFrames入門
  • 用Spark實現基本操作
  • 使用Groupby和聚合操作
  • 使用時間戳和日期

進行Spark DataFrame項目練習

了解用MLlib進行機器學習

使用MLlib、Spark和Python進行機器學習

了解回歸

  • 學習線性回歸理論
  • 實現回歸評估代碼
  • 進行線性回歸示例練習
  • 學習Logistic回歸理論
  • 實現一個Logistic回歸代碼
  • 進行Logistic回歸示例練習

了解隨機森林(Random Forests)和決策樹(Decision Trees)

  • 學習樹方法論(Tree Methods Theory)
  • 實現決策樹和隨機森林代碼
  • 進行隨機森林分類示例練習

使用K均值聚類

  • 了解K均值聚類理論
  • 實現K均值聚類代碼
  • 進行群集示例練習

使用推薦系統

實現自然語言處理

  • 理解自然語言處理(NLP)
  • NLP工具概述
  • 進行NLP示例練習

在Python中用Spark進行流式處理

  • 用Spark進行流式處理概述
  • Spark流數據處理(Spark Streaming)示例練習

結束語

客戶評論

★★★★★
★★★★★

課程分類

相關課程

促銷課程

訂閱促銷課程

為尊重您的隱私,我公司不會把您的郵箱地址提供給任何人。您可以享有優先權和隨時取消訂閱的權利。

我們的客戶

is growing fast!

We are looking to expand our presence in Taiwan!

As a Business Development Manager you will:

  • expand business in Taiwan
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!

This site in other countries/regions