課程簡介

1: HDFS (17%)

  • 描述HDFS守护进程的功能
  • 描述Apache Hadoop集群在数据存储和数据处理中的正常操作
  • 识别当前计算系统的特性,这些特性促使了像Apache Hadoop这样的系统的出现
  • 分类HDFS设计的主要目标
  • 在给定场景中,识别HDFS Federation的合适用例
  • 识别HDFS HA-Quorum集群的组件和守护进程
  • 分析HDFS安全性(Kerberos)的作用
  • 在给定场景中,确定最佳的数据序列化选择
  • 描述文件的读取和写入路径
  • 识别在Hadoop文件系统Shell中操作文件的命令

2: YARN和MapReduce版本2 (MRv2) (17%)

  • 理解将集群从Hadoop 1升级到Hadoop 2如何影响集群设置
  • 理解如何部署MapReduce v2 (MRv2 / YARN),包括所有YARN守护进程
  • 理解MapReduce v2 (MRv2)的基本设计策略
  • 确定YARN如何处理资源分配
  • 识别在YARN上运行的MapReduce作业的工作流程
  • 确定为了将集群从MapReduce版本1 (MRv1)迁移到运行在YARN上的MapReduce版本2 (MRv2),必须更改哪些文件以及如何更改

3: Hadoop集群规划 (16%)

  • 选择硬件和操作系统以托管Apache Hadoop集群时需要考虑的主要点
  • 分析选择操作系统时的选项
  • 理解内核调优和磁盘交换
  • 在给定场景和工作负载模式下,识别适合该场景的硬件配置
  • 在给定场景中,确定集群需要运行的生态系统组件以满足SLA
  • 集群规模:在给定场景和执行频率下,识别工作负载的具体需求,包括CPU、内存、存储、磁盘I/O
  • 磁盘大小和配置,包括JBOD与RAID、SANs、虚拟化以及集群中的磁盘大小要求
  • 网络拓扑:理解Hadoop中的网络使用情况(包括HDFS和MapReduce),并在给定场景中提出或识别关键的网络设计组件

4: Hadoop集群安装与管理 (25%)

  • 在给定场景中,识别集群如何处理磁盘和机器故障
  • 分析日志配置和日志配置文件格式
  • 理解Hadoop指标和集群健康监控的基础知识
  • 识别可用工具的功能和用途,用于集群监控
  • 能够安装CDH 5中的所有生态系统组件,包括(但不限于):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive和Pig
  • 识别用于管理Apache Hadoop文件系统的可用工具的功能和用途

5: 资源Management (10%)

  • 理解每个Hadoop调度器的整体设计目标
  • 在给定场景中,确定FIFO调度器如何分配集群资源
  • 在给定场景中,确定Fair调度器如何在YARN下分配集群资源
  • 在给定场景中,确定Capacity调度器如何分配集群资源

6: 监控与日志 (15%)

  • 理解Hadoop的指标收集功能及其特性
  • 分析NameNode和JobTracker的Web UI
  • 理解如何监控集群守护进程
  • 识别并监控主节点的CPU使用情况
  • 描述如何监控所有节点的交换和内存分配
  • 识别如何查看和管理Hadoop的日志文件
  • 解释日志文件

最低要求

  • 基本的Linux管理技能
  • 基本编程技能
 35 時間:

人數


每位參與者的報價

客戶評論 (3)

Upcoming Courses

課程分類