課程簡介

  • 介紹
  • Hadoop 歷史、概念
  • 生態系統
  • 分佈
  • 高級體系結構
  • Hadoop 神話
  • Hadoop 挑戰(硬體/軟體)
  • 實驗室:討論您的大數據項目和問題
規劃和安裝 選擇軟體,Hadoop 發行版 調整群集大小,規劃增長 選擇硬體和網路 機架拓撲 安裝 多租戶 目錄結構、日誌 標杆 實驗室:群集安裝、運行性能基準測試
  • HDFS 操作
  • 概念(水平擴展、複製、資料局部性、機架感知)
  • 節點和守護進程(NameNode、輔助 NameNode、HA 備用 NameNode、DataNode)
  • 運行狀況監視
  • 基於命令行和瀏覽器的管理
  • 添加存儲,更換有缺陷的驅動器
  • 實驗:熟悉 HDFS 命令行
數據引入 用於將日誌和其他數據引入 HDFS 的 Flume Sqoop 用於從 SQL 資料庫導入到 HDFS,以及匯出回 SQL 使用Hive的Hadoop資料倉庫 在群集之間複製資料 (distcp) 使用 S3 作為 HDFS 的補充 數據引入最佳實踐和體系結構 實驗室:設置和使用 Flume,與 Sqoop 相同
  • MapReduce操作和管理
  • mapreduce之前的並行計算:比較HPC與Hadoop管理
  • MapReduce集群負載
  • 節點和守護程式(JobTracker、TaskTracker)
  • MapReduce UI演練
  • Mapreduce配置
  • 作業配置
  • 優化MapReduce
  • 萬無一失的MR:對程式師說些什麼
  • 實驗:運行MapReduce範例
YARN:新架構和新功能 YARN 設計目標和實現體系結構 新參與者:ResourceManager、NodeManager、Application Master 安裝 YARN YARN 下的作業調度 實驗室:調查作業計劃
  • 高級主題
  • 硬體監控
  • 集群監控
  • 新增和刪除伺服器,升級 Hadoop
  • 備份、恢復和業務連續性規劃
  • Oozie 作業工作流
  • Hadoop 高可用性 (HA)
  • Hadoop 聯邦
  • 使用 Kerberos 保護群集
  • 實驗室:設置監視
可選軌道 Cloudera Manager 用於集群管理、監控和日常任務;安裝、使用。在本系列中,所有練習和實驗都在Cloudera分發環境 (CDH5) 中執行 Ambari 用於群集管理、監視和日常任務;安裝、使用。在本系列中,所有練習和實驗都在Ambari群集管理員和 Hortonworks 資料平臺 (HDP 2.0) 中執行

最低要求

  • 熟悉基本的 Linux 系統管理
  • 基本腳本編寫技能

Hadoop 和分散式計算的知識不是必需的,但將在課程中介紹和解釋。

實驗室環境

零安裝:無需在學生機器上安裝hadoop軟體!將為學生提供一個有效的hadoop集群。

學生將需要以下內容

  • SSH 用戶端(Linux 和 Mac 已經有 ssh 用戶端,對於 Windows ,建議使用 Putty )
  • 用於訪問群集的瀏覽器。我們建議 安裝有 FoxyProxy 擴展的 Firefox瀏覽器 
 21 時間:

人數



每位參與者的報價

客戶評論 (3)

相關課程

課程分類