課程簡介

第 1 部分:Hadoop 簡介

  • Hadoop 歷史、概念
  • 生態系統
  • 分佈
  • 高級體系結構
  • Hadoop 誤區
  • Hadoop 挑戰
  • 硬體/軟體
  • 實驗室:初探 Hadoop

第 2 部分:HDFS

  • 設計和架構
  • 概念(水平擴展、複製、資料局部性、機架感知)
  • 守護行程 : namenode, secondary namenode,Data node
  • 通信/心跳
  • 數據完整性
  • 讀/寫路徑
  • Namenode 高可用性 (HA)、聯邦
  • labs:與 HDFS 交互

第3部分:地圖縮減

  • 概念和體系結構
  • 守護行程 (MRV1) : jobtracker / tasktracker
  • 階段 : driver, mapper, shuffle/sort, reducer
  • Map Reduce 版本 1 和版本 2 (YARN)
  • Map Reduce的內部結構
  • Java Map Reduce程序介紹
  • labs:運行示例MapReduce程式

第4節:豬

  • Pig 與 Java Map Reduce
  • 清管器作業流程
  • Pig Latin語言
  • 使用 Pig 的 ETL
  • 轉換和連接
  • 使用者定義函數 (UDF)
  • 實驗室:編寫 Pig 腳本來分析數據

第 5 節:Hive

  • 建築與設計
  • 數據類型
  • SQL Hive 中的支援
  • 創建Hive表和查詢
  • 分區
  • 加入
  • 文本處理
  • labs:使用Hive處理數據的各種實驗室

第 6 部分:HBase

  • 概念和體系結構
  • hbase 與 RDBMS 與 cassandra
  • HBase Java API
  • HBase 上的時序數據
  • 模式設計
  • labs:使用 shell 與 HBase 交互; 在 HBase Java API 中程式設計;架構設計練習

最低要求

    熟悉 Java 程式設計
  • 語言(大多數程式設計練習都是用 Java 進行的)
  • 在 Linux 環境中感到舒適(能夠導航 Linux 命令行,使用 vi / nano 編輯檔)

實驗室環境

零安裝: 無需在學生機器上安裝hadoop軟體!將為學生提供一個有效的hadoop集群。

學生將需要以下內容

  • SSH 用戶端(Linux 和 Mac 已經有 ssh 用戶端,對於 Windows ,建議使用 Putty )
  • 用於訪問群集的瀏覽器。我們推薦 Firefox瀏覽器
 28 時間:

人數



每位參與者的報價

客戶評論 (3)

相關課程

課程分類