課程簡介

介紹

瞭解 Hadoop 的體系結構和關鍵概念

瞭解 Hadoop 分散式檔案系統 (HDFS)

    HDFS 及其架構設計概述 與 HDFS 交互 在HDFS上執行基本檔操作 HDFS命令參考概述 蛇咬傷概述 安裝 Snakebite 使用 Snakebite 用戶端庫 使用 CLI 用戶端

使用 Python 學習 MapReduce 程式設計模型

    MapReduceProgramming模型概述 瞭解MapReduce框架中的數據流 地圖 隨機播放和排序 減少
使用 Hadoop 流式處理實用程式 瞭解 Hadoop 流式處理實用程式的工作原理
  • 演示:在 Python 上實現 WordCount 應用程式
  • 使用 mrjob 庫 mrjob 概述
  • 安裝 mrjob
  • 演示:使用 mrjob 實現 WordCount 演算法
  • 瞭解使用 mrjob 庫編寫的 MapReduce 作業的工作原理
  • 使用 mrjob 執行 MapReduce 應用程式
  • 動手實踐:使用 mrjob 計算最高工資
  • 用 Python 學習豬
  • 豬概述 演示:在 Pig 中實現 WordCount 演算法 配置和運行 Pig 文稿和 Pig 語句 使用 Pig 執行模式 使用 Pig 交互模式 使用 Pic 批次處理模式
  • 瞭解豬拉丁語的基本概念 using 語句

      載入數據
    轉換數據
  • 存儲數據
  • 使用 Python 個 UDF 擴展 Pig 的功能 註冊 Python UDF 檔
  • 演示:一個簡單的 Python UDF
  • 演示:使用 Python UDF 進行字串操作
  • 動手實踐:使用 Python UDF 計算最近的 10 部電影
  • 使用 Spark 和 PySpark
  • Spark概述 演示:在 PySpark 中實現 WordCount 演算法 PySpark 概述 使用互動式Shell 實現獨立應用程式
  • 使用彈性分散式資料集 (RDD) 從 Python 集合創建 RDD
  • 從檔案創建 RDD
  • 實現 RDD 轉換

      實現 RDD 操作
    動手實踐:使用 PySpark 實現電影字幕的文字 Search 程式
  • 使用 Python 管理工作流
  • Apache Oozie 和 Luigi 概述 安裝 Luigi 瞭解 Luigi 工作流概念 任務 目標 參數
  • 演示:檢查實現 WordCount 演算法的工作流
  • 使用 Hadoop 控制 MapReduce 和 Pig 作業的工作流 使用 Luigi 的設定檔
  • 在Luigi中使用MapReduce
  • 在路易吉與豬一起工作
  • 總結和結論

    最低要求

    • 具有 Python 程式設計經驗
    • 基本熟悉Hadoop
     28 時間:

    人數



    每位參與者的報價

    客戶評論 (3)

    相關課程

    課程分類