課程簡介

1:HDFS (17%)

  • 描述 HDFS 守護進程的功能
  • 描述 Apache Hadoop 集群在數據存儲和數據處理方面的正常操作。
  • 識別激勵 Apache Hadoop 等系統的計算系統的當前特性。
  • 對 HDFS 設計的主要目標進行分類
  • 給定一個場景,確定 HDFS 聯合的適當用例
  • 識別 HDFS HA-Quorum 群集的元件和守護程式
  • 分析 HDFS 安全性 (Kerberos) 的作用
  • 確定給定方案的最佳數據序列化選項
  • 描述檔讀寫路徑
  • 識別用於操作 Hadoop 檔案系統 Shell 中的檔案的命令

2:YARN 和 MapReduce 版本 2 (MRv2) (17%)

  • 瞭解將群集從 Hadoop 1 升級到 Hadoop 2 如何影響群集設置
  • 瞭解如何部署MapReduce v2 (MRv2 / YARN),包括所有YARN守護進程
  • 瞭解MapReduce v2(MRv2)的基本設計策略
  • 確定 YARN 如何處理資源分配
  • 確定在 YARN 上運行的 MapReduce 作業的工作流
  • 確定必須更改哪些檔以及如何將集群從 MapReduce 版本 1 (MRv1) 遷移到在 YARN 上運行的 MapReduce 版本 2 (MRv2)。

3: Hadoop 集群規劃 (16%)

  • 在選擇託管 Apache Hadoop 集群的硬體和操作系統時要考慮的主要因素。
  • 分析選擇操作系統時的選擇
  • 瞭解內核調優和磁碟交換
  • 給定方案和工作負載模式,確定適合該方案的硬體配置
  • 給定一個場景,確定集群需要運行的生態系統元件才能滿足 SLA
  • 群集大小調整:給定方案和執行頻率,確定工作負載的具體情況,包括 CPU、記憶體、存儲、磁碟 I/O
  • 磁碟大小調整和配置,包括群集中的 JBOD 與 RAID、SAN、虛擬化和磁碟大小調整要求
  • 網路拓撲:瞭解 Hadoop 中的網路使用方式(適用於 HDFS 和 MapReduce),並針對給定場景提出或確定關鍵網路設計元件

4: Hadoop 群集安裝和管理 (25%)

  • 給定一個場景,確定群集將如何處理磁碟和計算機故障
  • 分析記錄設定和紀錄記錄設定檔格式
  • 瞭解Hadoop指標和集群運行狀況監控的基礎知識
  • 確定用於群集監視的可用工具的功能和用途
  • 能夠在CDH 5中安裝所有生態系統元件,包括(但不限於):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive 和 Pig
  • 確定用於管理 Apache Hadoop 檔案系統的可用工具的功能和用途

5: 資源 Management (10%)

  • 瞭解每個 Hadoop 調度程式的總體設計目標
  • 給定一個場景,確定 FIFO 調度程式如何分配集群資源
  • 給定一個場景,確定 Fair Scheduler 如何在 YARN 下分配集群資源
  • 給定一個場景,確定容量計劃程式如何分配群集資源

6: 監控和紀錄記錄 (15%)

  • 瞭解 Hadoop 指標收集能力的功能和特點
  • 分析 NameNode 和 JobTracker Web UI
  • 瞭解如何監控集群守護程式
  • 識別和監控主節點上的CPU使用率
  • 描述如何監視所有節點上的交換和記憶體分配
  • 確定如何查看和管理 Hadoop 的日誌檔
  • 解釋紀錄檔

最低要求

  • 基本 Linux 管理技能
  • 基本程式設計技能
  35 時間:
 

人數


開始於

結束於


Dates are subject to availability and take place between 09:30 and 16:30.

每位參與者的報價

客戶評論 (3)

相關課程

課程分類