Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
1: HDFS (17%)
- 描述HDFS守护进程的功能
- 描述Apache Hadoop集群在数据存储和数据处理中的正常操作
- 识别当前计算系统的特性,这些特性促使了像Apache Hadoop这样的系统的出现
- 分类HDFS设计的主要目标
- 在给定场景中,识别HDFS Federation的合适用例
- 识别HDFS HA-Quorum集群的组件和守护进程
- 分析HDFS安全性(Kerberos)的作用
- 在给定场景中,确定最佳的数据序列化选择
- 描述文件的读取和写入路径
- 识别在Hadoop文件系统Shell中操作文件的命令
2: YARN和MapReduce版本2 (MRv2) (17%)
- 理解将集群从Hadoop 1升级到Hadoop 2如何影响集群设置
- 理解如何部署MapReduce v2 (MRv2 / YARN),包括所有YARN守护进程
- 理解MapReduce v2 (MRv2)的基本设计策略
- 确定YARN如何处理资源分配
- 识别在YARN上运行的MapReduce作业的工作流程
- 确定为了将集群从MapReduce版本1 (MRv1)迁移到运行在YARN上的MapReduce版本2 (MRv2),必须更改哪些文件以及如何更改
3: Hadoop集群规划 (16%)
- 选择硬件和操作系统以托管Apache Hadoop集群时需要考虑的主要点
- 分析选择操作系统时的选项
- 理解内核调优和磁盘交换
- 在给定场景和工作负载模式下,识别适合该场景的硬件配置
- 在给定场景中,确定集群需要运行的生态系统组件以满足SLA
- 集群规模:在给定场景和执行频率下,识别工作负载的具体需求,包括CPU、内存、存储、磁盘I/O
- 磁盘大小和配置,包括JBOD与RAID、SANs、虚拟化以及集群中的磁盘大小要求
- 网络拓扑:理解Hadoop中的网络使用情况(包括HDFS和MapReduce),并在给定场景中提出或识别关键的网络设计组件
4: Hadoop集群安装与管理 (25%)
- 在给定场景中,识别集群如何处理磁盘和机器故障
- 分析日志配置和日志配置文件格式
- 理解Hadoop指标和集群健康监控的基础知识
- 识别可用工具的功能和用途,用于集群监控
- 能够安装CDH 5中的所有生态系统组件,包括(但不限于):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive和Pig
- 识别用于管理Apache Hadoop文件系统的可用工具的功能和用途
5: 资源Management (10%)
- 理解每个Hadoop调度器的整体设计目标
- 在给定场景中,确定FIFO调度器如何分配集群资源
- 在给定场景中,确定Fair调度器如何在YARN下分配集群资源
- 在给定场景中,确定Capacity调度器如何分配集群资源
6: 监控与日志 (15%)
- 理解Hadoop的指标收集功能及其特性
- 分析NameNode和JobTracker的Web UI
- 理解如何监控集群守护进程
- 识别并监控主节点的CPU使用情况
- 描述如何监控所有节点的交换和内存分配
- 识别如何查看和管理Hadoop的日志文件
- 解释日志文件
最低要求
- 基本的Linux管理技能
- 基本编程技能
35 時間:
客戶評論 (3)
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczatka
Course - Administrator Training for Apache Hadoop
I genuinely enjoyed the big competences of Trainer.
Grzegorz Gorski
Course - Administrator Training for Apache Hadoop
I mostly liked the trainer giving real live Examples.